Regresjon vs klassifisering - Topp viktige forskjeller og sammenligning

Forskjellen mellom regresjon vs klassifisering

I denne artikkelen Regresjon vs klassifisering, la oss diskutere de viktigste forskjellene mellom Regresjon og klassifisering. Maskinlæring er stort sett delt i to typer, de er veiledet maskinlæring og uovervåket maskinlæring. I veiledet maskinlæring har vi en kjent utgangsverdi i datasettet, og vi trener modellen basert på disse og bruker den til prediksjon, mens vi i ikke-overvåket maskinlæring ikke har et kjent sett med outputverdier. La oss forstå på forhånd for å skille mellom klassifisering og regresjon hva betyr denne terminologien i maskinlæring. Regresjon er en algoritme i veiledet maskinlæring som kan trenes for å forutsi utganger av reelt antall. Klassifisering er en algoritme i veiledet maskinlæring som er opplært til å identifisere kategorier og forutsi i hvilken kategori de faller for nye verdier.

Sammenligning fra topp til hodet mellom Regresjon vs Klassifisering (Infografikk)

Nedenfor er Topp 5-sammenligningen mellom Regresjon vs Klassifisering :

Viktige forskjeller mellom Regresjon vs Klassifisering

La oss diskutere noen viktige forskjeller mellom Regresjon vs Klassifisering på følgende punkter:

Klassifisering handler om å forutsi en etikett eller kategori. Klassifiseringsalgoritme klassifiserer det nødvendige datasettet i en av to eller flere etiketter, en algoritme som omhandler to klasser eller kategorier er kjent som en binær klassifiserer, og hvis det er mer enn to klasser, kan den kalles som flerklasse klassifiseringsalgoritme.
Regresjon handler om å finne en optimal funksjon for å identifisere data om kontinuerlige reelle verdier og komme med forutsigelser av den mengden. Regresjon med flere variabler som input eller funksjoner for å trene algoritmen er kjent som et multivariat regresjonsproblem. Hvis inngangsverdiene i regresjonsproblemet er avhengige eller ordnet etter tid, kalles det tidsserieprognoseproblem.
Klassifiseringsmodellen vil imidlertid også forutsi en kontinuerlig verdi som er sannsynligheten for å skje hendelsen som tilhører den respektive utgangsklassen. Her representerer sannsynligheten for hendelse sannsynligheten for et gitt eksempel som tilhører en bestemt klasse. Den forutsagte sannsynlighetsverdien kan konverteres til en klasseverdi ved å velge klassetiketten som har høyest sannsynlighet.
La oss forstå dette bedre ved å se et eksempel, anta at vi trener modellen for å forutsi om en person har kreft eller ikke basert på noen funksjoner. Hvis vi får sannsynligheten for at en person har kreft som 0, 8 og ikke har kreft som 0, 2, kan vi konvertere 0, 8 sannsynligheten til et klassemerke som har kreft, ettersom den har størst sannsynlighet.
Som nevnt ovenfor i klassifiseringen for å se hvor bra klassifiseringsmodellen presterer, beregner vi nøyaktigheten. La oss se hvordan beregningen utføres, nøyaktighet i klassifiseringen kan utføres ved å ta forholdet mellom riktige prediksjoner og totale prediksjoner multiplisert med 100. Hvis det er gjort 50 prediksjoner og 10 av dem er riktige og 40 er feil, vil nøyaktigheten være 20 %.

Nøyaktighet = (Antall korrekte prediksjoner / Totalt antall prediksjoner) * (100)

Nøyaktighet = (10/50) * (100)
Nøyaktighet = 20%

Som nevnt ovenfor i regresjon, for å se hvor bra regresjonsmodellen presterer den mest populære måten er å beregne root mean square error (RMSE). La oss se hvordan beregningen blir utført.

Regresjonsmodellen forutsagt verdi er 4, 9 mens den faktiske verdien er 5, 3.

Regresjonsmodellen forutsagt verdi er 2, 3 mens den faktiske verdien er 2, 1.

Regresjonsmodellen forutsagt verdi er 3, 4 mens den faktiske verdien er 2, 9.

Nå betyr Root at kvadratisk feil kan beregnes ved å bruke formelen.

Kvadratisk feil er (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Gjennomsnitt av feilen i kvadrat = 0, 45 / 3 = 0, 15

Rotverdi kvadratfeil = kvadratrot på 0, 15 = 0, 38

Det er RMSE = 0, 38. Det er mange andre metoder for å beregne effektiviteten til modellen, men RMSE er den mest brukte fordi RMSE tilbyr feilpoeng i de samme enhetene som den forutsagte verdien.

eksempler:

De fleste dataingeniøringeniører synes det er vanskelig å velge en mellom regresjon og klassifisering i startfasen av karrieren. For å gjøre det enkelt, la oss se hvordan klassifiseringsproblemene ser ut og hvordan regresjonsproblemene ser ut,

Klassifisering

Å spå om det vil regne eller ikke i morgen.
Å spå en person bør kjøpe det gode eller ikke for å tjene penger.
Å spå om en person har en sykdom eller ikke.

Hvis du legger merke til for hver situasjon her, kan det være enten Ja eller Nei som en forventet utgangsverdi.

regresjon

Å predikere prisen på land.
Å forutsi aksjekursen.

Hvis du legger merke til for hver situasjon her, har de fleste av dem numerisk verdi som forutsagt utgang.

Sammenligningstabel for regresjon vs klassifisering

Tabellen nedenfor oppsummerer sammenligningene mellom Regresjon vs Klassifisering :

Parameter	regresjon	Klassifisering
Type kartleggingsfunksjon	I disse algoritmene vil kartleggingsfunksjonen velges av typen som kan justere verdiene til den kontinuerlige utgangen.	I disse algoritmene vil kartleggingsfunksjonen velges av typen som kan justere verdiene til de forhåndsdefinerte klassene.
Involverer prediksjon	For denne typen algoritmer tilhører forutsagte data kategorien kontinuerlige verdier. (Som 23, 34, 45, 67, 28)	Tilhører denne typen algoritmes forutsagte data til kategorien diskrete verdier. (Som enten ja eller nei, tilhører A eller B eller C).
Metode for beregning	Root Mean Square-feil vil bli beregnet for å identifisere datasettens beste passform.	Nøyaktighet blir beregnet for å identifisere datasettets beste passform.
Naturen til de forutsagte dataene	Arten av de forutsagte dataene er bestilt. (Det er verdier som er spådd vil være i en eller annen sekvens).	Arten av de forutsagte dataene er uordnet. (Det er verdier som er spådd ikke vil være i noen sekvens).
algoritmer	Støtter vektorregresjon og regresjonstrær er også kjent som tilfeldig skog, som er noen av de populære eksemplene på regresjonsalgoritmer.	Naive Bayes, beslutningstrær og K Nærmeste naboer er noen av de populære eksemplene på klassifiseringsalgoritmer.

Konklusjon

Dette er noen av de viktigste forskjellene mellom klassifisering og regresjon. I noen tilfeller kan de kontinuerlige outputverdiene som er spådd i regresjon, grupperes i etiketter og endre til klassifiseringsmodeller. Så vi må forstå klart hvilken du skal velge basert på situasjonen og hva vi vil at den forutsagte utgangen skal være.

Anbefalte artikler

Dette er en guide til toppforskjellen mellom Regresjon vs Klassifisering. Her diskuterer vi også nøkkelforskjellene Regression vs Classification med infografikk og sammenligningstabell. Du kan også se på følgende artikler for å lære mer -