Enveis analyse av varians

Variansanalyse skrevet kort som ANOVA er fremgangsmåten for hvordan vi kan sammenligne midler på tvers av tre eller flere populasjoner. Statistisk rammer vi inn to hypoteser, nullhypotesen: "Alle populasjonsmidler er like" og den alternative hypotesen: "Ikke alle populasjonsmidler er like". Det gjør det mulig for oss å teste likheten mellom flere midler i en test i stedet for å sammenligne to midler om gangen som er umulig når det er flere grupper. I dette emnet skal vi lære om One Way ANOVA i R.

Enveis variansanalyse hjelper oss med å analysere bare én faktor eller variabel. F.eks. Det finnes fem regioner, og vi vil sjekke om gjennomsnittlige nedbørsmengder for alle fem regioner er like eller om de er forskjellige. I dette tilfellet er det bare en faktor som er region, da vi må sjekke om regionale faktorer påvirker regnmottaket og mønsteret.

Antagelser om analyse av varians

Følgende er forutsetningene som må oppfylles for å anvende enveis ANOVA:

  • Populasjonene som prøvene er hentet fra, blir normalt distribuert.
  • Populasjonene som prøvene er hentet fra har samme varians eller standardavvik.
  • Prøvene trukket fra forskjellige populasjoner er tilfeldige og uavhengige.

Hvordan fungerer enveis ANOVA i R?

For vår demonstrasjon bruker vi dataene som inneholder to variabler, nemlig. Merke og salg. Det er fire merker - ATB, JKV, MKL og PRQ. Det gis månedlig salg for disse merkene. Vi må sjekke om gjennomsnittsomsetningen for de fire merkene er lik, eller om de er forskjellige fra hverandre. For å bekrefte dette, bruker vi enveis ANOVA. Trinn-for-trinn-prosedyre for å implementere ANOVA er som følger:

  1. Import først dataene til R. Dataene er til stede i et CSV-format. Så for å importere den, bruker vi funksjonen read.csv ().

  1. Se de første postene med dataene. Dette er viktig for å sjekke om dataene er riktig importert til R. På samme måte vil vi bruke en sammendrag () -funksjon over dataene, for å få grunnleggende innsikt i dataene.

  1. Hver gang vi bruker variablene som er til stede i datasettet, må vi eksplisitt nevne navnet på datasettet som brand_sales_data $ Brand eller brand_sales_data $ Sales. For å få bukt med dette, vil vi bruke tilknytningsfunksjonen. Funksjonen må brukes som nedenfor.

  1. La oss samle salg etter merke ved å bruke gjennomsnitt eller standardavvik. Aggregasjon hjelper oss å få en grunnleggende ide om data.

Ovennevnte resultat viser at midler for de fire forskjellige gruppene ikke er like. JKV har det høyeste gjennomsnittsomsetningen.

Som det kan sees ovenfor, viser standardavvikene over de fire gruppene ingen vesentlig forskjell, og det er høyest for merkevaren MKL.

  1. Nå vil vi bruke ANOVA for å validere om midlene i de tre populasjonene er like, eller det er noen forskjell.

Fra resultatene over kan vi se at ANOVA-testen for Brand er betydelig på grunn av p <0, 0001. Vi kan tolke at alle merkevarer ikke har de samme preferansegradene i markedet som påvirker salget av disse merkene i markedet. Dette kan skyldes mange faktorer og smak for folk for et bestemt merke.

  1. Ovennevnte resultat kan visualiseres, og det gjør tolkningen enkel. For det vil vi bruke plotmeans () -funksjon i gplots () -bibliotek. Det fungerer som nedenfor:

Som vi kan se ovenfor, gjør plotmeans () -funksjonen i gplots-pakken oss i stand til å sammenligne middelene til forskjellige grupper visuelt. Vi kan se at virkemidler ikke er de samme for de fire merkene. Midlene for merkevarene MKL og PRQ faller imidlertid i nært hold.

  1. Ovennevnte analyse hjelper oss med å sjekke om merkevarer har like midler eller ikke, men det er vanskelig å sammenligne med parvis. Vi kan gjøre parvise sammenligninger for forskjellige merker ved å bruke TukeyHSD () -funksjonen som gjør det lettere å sjekke om et merke er vesentlig forskjellig fra noen av de gjenværende.

De parvise sammenligningene som ovenfor. Forskjellen mellom to grupper er signifikant hvis p <0, 001. Som vi ser ovenfor er p-verdien for PRQ-MKL-par mye høyere, noe som indikerer at de to merkene ikke er vesentlig forskjellige fra hverandre.

For å visualisere parvise sammenligninger, vil vi plotte resultatene ovenfor som nedenfor:

Den første parfunksjonen roterer aksemerkene slik at de blir horisontale, og den andre par-setningen justerer marginene slik at etikettene passer ordentlig, ellers går de ut av skjermen.

Grafen over gir god innsikt, men vi kan plotte resultatene i form av boxplot for å få bedre innsikt for tydeligere tolkning som demonstrert nedenfor.

Glht () -funksjonen som brukes ovenfor kommer med et omfattende sett med metoder for å sammenligne flere midler. Merk at nivåalternativet i cld () -funksjonen gjelder signifikansnivået, f.eks. 0, 05 eller 95 prosent tillit)

Ved å bruke plottet ovenfor blir det enkelt å sammenligne midler på tvers av gruppene, og det letter også systematisk tolkning. Det er bokstaver, over toppen av plottet, for hvert merke. Hvis to merker har samme bokstav, har de ikke vesentlig forskjellige virkemidler som merkevarer MKL og PRQ i dette tilfellet som har samme bokstav b.

  1. Til nå implementerte vi ANOVA og brukte tomter for å visualisere resultatene. Imidlertid er det like viktig å teste forutsetningene. Først vil vi validere antagelsen om normalitet.

Bilpakken i R gir funksjonen qqPlot (). Plottet ovenfor viser at data faller innenfor 95% konfidensomfang. Dette indikerer at normalitetsforutsetningen nærmest er oppfylt.

Deretter validerer vi om avvikene mellom merkevarene er like. For dette vil vi bruke Bartlett's test

P-verdien viser at avvik i gruppen ikke skiller seg vesentlig ut

Sist, men ikke minst, skal vi sjekke om det er noen utliggere som påvirker ANOVA-resultatene.

Fra resultatet ovenfor kan vi se at det ikke er noen indikasjon på utliggere i dataene (NA oppstår når p> 1)

Når vi tar hensyn til resultatene fra QQ Plot, Bartlett's test og Outlier-test, kan vi si at data oppfyller alle antakelser fra ANOVA og resultatene som er oppnådd er gyldige.

Konklusjon - One Way ANOVA i R

ANOVA er en veldig praktisk statistisk teknikk som kan brukes til å sammenligne midler på tvers av flere populasjoner. R tilbyr et omfattende utvalg av pakker for å implementere ANOVA, utlede resultater og validere forutsetningene. I R kan statistiske resultater tolkes i visuelle former som gir dypere innsikt.

Anbefalte artikler

Dette er en guide til Énveis ANOVA i R. Her diskuterer vi hvordan enveis ANOVA fungerer og antagelsene om analyse av variasjon. Du kan også se på følgende artikler for å lære mer -

  1. R Programmeringsspråk
  2. Regresjon vs ANOVA
  3. Hvordan tolke resultater ved bruk av ANOVA-test
  4. GLM i R

Kategori: