Introduksjon til regresjonsanalyse

Regresjonsanalyse er en prediktiv modelleringsalgoritme for å forutsi utfallet av en variabel og identifisere variablene (uavhengige variabler) som bidrar til eller avhengig av utfallsvariabelen (mål eller avhengig variabel). Enkelt sagt er det en teknikk for å finne forholdet mellom de uavhengige og avhengige variablene for å gi resultatet. Det er enkelt å bruke og tolke resultatet. Det er mange typer regresjonsteknikker som er mye brukt i forskjellige sektorer. Noen av eksemplene på regresjon er å forutsi lønnen til en ansatt eller inntektene til et selskap i løpet av et år.

Hvordan fungerte regresjonsanalysen?

Det er mange typer regresjonsteknikker som brukes med tanke på forskjellige faktorer og utfall.

  • Lineær regresjon
  • Logistisk regresjon
  • Lasso / Ridge Regression
  • Polynomial regresjon

Noen av de viktige statistiske regresjonstestene som brukes i forskjellige sektorer er gitt nedenfor:

1. Lineær regresjon

Dette brukes når utfallsvariabelen er lineært avhengig av de uavhengige variablene. Det brukes vanligvis når vi ikke har et enormt datasett. Det er også følsomt for outliers, så hvis datasettet inneholder outliers enn det er bedre å behandle dem før du bruker lineær regresjon. Det er enkelt- og multivariabel regresjonsteknikk. Enkel lineær regresjon er analysen når utfallsvariabelen er lineært avhengig av en enkelt uavhengig variabel. Enkel lineær regresjon følger ligningen på en rett linje som er gitt nedenfor:

Y=mx+c

Hvor,

Y = Variabel mål, avhengig eller kriterium

x = Uavhengig eller prediktor variabel

m = Helling eller regresjonskoeffisient

c = konstant

Multi-Variabel Lineær regresjon definerer forholdet mellom utfallsvariabelen og mer enn en uavhengig variabel. Den følger ligningen nedenfor for en rett linje der avhengige variabler er den lineære kombinasjonen av alle de uavhengige variablene:

Y= m1x1+m2x2+m3x3+…mnan+c

Hvor,

Y = Variabel mål, avhengig eller kriterium

x1, x2, x3 … xn = Uavhengige eller prediktive variabler

m1, m2, m3 … mn = Helling eller regresjonskoeffisient for respektive variabler

c = konstant

Lineær regresjon følger prinsippet om Least Square-metoden. Denne metoden sier at en linje med best passning velges ved å minimere summen av kvadratisk feil. Linjen med best passning velges der summen av kvadratisk feil mellom observerte data og linjen er minimum.

Det er noen antagelser som bør tas vare på før du bruker lineær regresjon på datasettet.

  • Det skal være en lineær sammenheng mellom uavhengige og avhengige variabler.
  • Det skal ikke være noen eller litt multikollinearitet mellom de uavhengige variablene. Multikollinearitet er definert som et fenomen der det er høy korrelasjon mellom de uavhengige variablene. Vi kan behandle multikollinearitet ved å slippe en variabel som er korrelert eller behandler to variabler som en variabel.
  • Homoscedasticity: Det er definert som en tilstand der feiluttrykk skal være tilfeldig fordelt over linjen i regresjonsanalysen. Det skal ikke være noe mønster på tvers av linjen hvis det er noe identifisert mønster enn dataene sies å være heteroskede.
  • Alle variablene skal fordeles normalt, noe vi ser ved å plotte et QQ-plot. Hvis dataene ikke blir distribuert normalt, kan vi bruke alle ulineære transformasjonsmetoder for å behandle dem.

Så det er alltid lurt å teste forutsetningene mens du bruker lineær regresjon for å få god nøyaktighet og riktig resultat.

2. Logistisk regresjon

Denne regresjonsteknikken brukes når mål- eller utfallsvariabelen er kategorisk eller binær. Hovedforskjellen mellom lineær og logistisk regresjon ligger i målvariabelen, i lineær regresjon, bør den være kontinuerlig, mens den i logistikk bør være kategorisk. Utfallsvariabelen skal bare ha to klasser, ikke mer enn det. Noen av eksemplene er spamfiltre i e-postmeldinger (Spam eller ikke), gjenkjenning av svindel (Bedrageri / Ikke-svindel), etc. Det fungerer etter sannsynlighetsprinsippet. Det kan klassifiseres i to kategorier ved å angi terskelverdien.

For eksempel: Hvis det er to kategorier A, B og vi setter terskelverdien som 0, 5, vil sannsynligheten over 0, 5 bli vurdert som en kategori og under 0, 5 vil være en annen kategori. Logistisk regresjon følger en S-formet kurve. Før vi bygger den logistiske regresjonsmodellen, må vi dele datasettet i trening og testing. Siden målvariabelen er kategorisk eller binær, må vi sørge for at det er en riktig klassebalanse i treningssettet. Hvis det er klasse ubalanse enn dette kan behandles ved å bruke forskjellige metoder som nevnt nedenfor:

  • Opp prøvetaking: I denne teknikken blir klassen som har færre rader prøvetatt for å matche antall rader i majoritetsklassen.
  • Nedprøvetaking: I denne teknikken samles klassen som har flere rader ned for å matche antall rader i minoritetsklassen.

Det er noen viktige punkter som er viktige å forstå før du bruker den logistiske regresjonsmodellen på datasettene:

  • Målvariabelen skal være binær. Hvis det er mer enn 2 klasser i målvariabelen enn det er kjent som Multinomial Logistic Regression .
  • Det skal ikke være noen eller liten multikollinearitet mellom de uavhengige variablene.
  • Det krever en stor prøvestørrelse for å fungere.
  • Det bør være et lineært forhold mellom de uavhengige variablene og oddsloggen.

Fordelene med regresjon

Det er mange fordeler med regresjonsanalyse. I stedet for å vurdere magefølelsen vår og forutsi utfallet, kan vi bruke regresjonsanalyse og vise gyldige poeng for mulige utfall.

Noen av disse er listet opp nedenfor:

  • Å forutsi salg og inntekt i en hvilken som helst sektor i kortere eller lengre perioder.
  • For å forutsi kundenes hastighetsrate for enhver bransje og finne ut de riktige tiltakene for å redusere dem.
  • For å forstå og forutsi lagerets lagernivå.
  • Å finne ut om å introdusere et nytt produkt i markedet vil være vellykket eller ikke.
  • For å forutsi om noen kunde vil misligholde lån eller ikke.
  • For å forutsi om noen kunder vil kjøpe et produkt eller ikke.
  • Bedrageri eller søppelpåvisning

Konklusjon

Det er forskjellige evalueringsmålinger som vurderes etter bruk av modellen. Selv om det er forutsetninger som må testes før vi anvender modellen, kan vi alltid endre variablene ved å bruke forskjellige matematiske metoder og øke modellytelsen.

Anbefalte artikler

Dette er en guide til regresjonsanalyse. Her diskuterer vi Introduksjon til regresjonsanalyse, hvordan fungerte regresjonsanalysen og fordelene med regresjon. Du kan også gå gjennom de andre foreslåtte artiklene våre for å lære mer–

  1. Lineær regresjonsanalyse
  2. Verktøy til analyse av data
  3. Verktøy for regresjonstesting
  4. Big Data Analytics
  5. Regresjon vs klassifisering | Topp viktige forskjeller

Kategori: