Introduksjon til grafer i R
En graf er et verktøy som gjør en vesentlig forskjell for analysen. Grafer i sjeldne viktige fordi de hjelper til med å presentere resultater på den mest interaktive måten. R, som en statistisk programmeringspakke, tilbyr omfattende alternativer for å generere en rekke grafer.
Noen av grafene i R er tilgjengelige i basisinstallasjonen, men andre kan brukes ved å installere nødvendige pakker. Det unike ved grafer i R er at de forklarer intrikate statistiske funn gjennom visualiseringer. Så egentlig er dette som å flytte et skritt over den tradisjonelle måten å visualisere dataene på. R tilbyr således en out-of-the-box tilnærming til stasjonsanalyse.
Typer av grafer i R
En rekke grafer er tilgjengelig i R, og bruken er kun styrt av konteksten. Undersøkende analyse krever imidlertid bruk av visse grafer i R, som må brukes til å analysere data. Vi skal nå se på noen av slike viktige grafer i R.
For demonstrasjon av forskjellige diagrammer, skal vi bruke "trærne" datasettet som er tilgjengelig i basisinstallasjonen. Flere detaljer om datasettet kan du oppdage ved å bruke? trer kommandoen i R.
1. Histogram
Et histogram er et grafisk verktøy som fungerer på en enkelt variabel. Tallrike variable verdier er gruppert i binger, og et antall verdier som blir betegnet som frekvensen beregnes. Denne beregningen blir deretter brukt til å plotte frekvensstenger i de respektive bønner. Høyden på en stolpe er representert med frekvens.
I R kan vi bruke hist () -funksjonen som vist nedenfor, for å generere histogrammet. Et enkelt histogram av trehøyder er vist nedenfor.
Kode:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Produksjon:
For å forstå frekvensutviklingen, kan vi legge til en tetthetsplott over histogrammet ovenfor. Dette gir mer innsikt i datadistribusjon, skjevhet, kurtose, etc. Følgende kode gjør dette, og utdataene vises etter koden.
Kode:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Produksjon:
2. Scatterplot
Dette plottet er en enkel karttype, men en veldig avgjørende en som har enorm betydning. Diagrammet gir ideen om en sammenheng mellom variabler og er et nyttig verktøy i en utforskende analyse.
Følgende kode genererer et enkelt Scatterplot-diagram. Vi har lagt en trendlinje til den, for å forstå trenden, representerer dataene.
Kode:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Produksjon:
Diagrammet laget av følgende kode viser at det eksisterer en god sammenheng mellom treomkrets og trevolum.
Kode:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Produksjon:
Scatterplot-matriser
R lar oss sammenligne flere variabler om gangen på grunn av at de bruker scatterplot-matriser. Implementering av visualiseringen er ganske enkelt, og kan oppnås ved hjelp av par () -funksjon som vist nedenfor.
Kode:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Produksjon:
Scatterplot3d
De muliggjør visualisering i tre dimensjoner som kan bidra til å forstå forholdet mellom flere variabler. Så for å gjøre scatterplots tilgjengelig i 3d, må for det første scatterplot3d-pakken installeres. Så genererer følgende kode en 3d graf som vist under koden.
Kode:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Produksjon:
Vi kan legge til slipplinjer og farger ved å bruke koden nedenfor. Nå kan vi enkelt skille mellom forskjellige variabler.
Kode:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Produksjon:
3. Boksplott
Boxplot er en måte å visualisere data gjennom bokser og whiskers. For det første blir variable verdier sortert i stigende rekkefølge, og deretter blir dataene delt inn i kvartaler.
Boksen i plottet er de midterste 50% av dataene, kjent som IQR. Den svarte linjen i boksen representerer medianen.
Kode:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Produksjon:
En variant av eskeplottet, med hakk, er som vist nedenfor.
Kode:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Produksjon:
4. Linjediagram
Linjediagrammer er nyttige når du sammenligner flere variabler. De hjelper oss forholdet mellom flere variabler i et enkelt plott. I illustrasjonen nedenfor vil vi prøve å forstå trenden med tre trefunksjoner. Så som vist i koden nedenfor, innledningsvis, og linjediagrammet for Omkrets er plottet ved hjelp av plot () -funksjonen. Deretter plottes linjediagrammer for høyde og volum på samme plott ved å bruke linjene () -funksjonen.
Parameteren "ylim" i plot () -funksjonen har vært, for å imøtekomme alle tre linjediagrammer riktig. Å ha legende er viktig her, da det hjelper deg med å forstå hvilken linje som representerer hvilken variabel. I legenden betyr "lty = 1: 1" -parameter at vi har samme linjetype for alle variabler, og "cex" representerer størrelsen på poengene.
Kode:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Produksjon:
5. Prikkplott
Dette visualiseringsverktøyet er nyttig hvis vi vil sammenligne flere kategorier mot et visst mål. For illustrasjonen nedenfor er mtcars datasett blitt brukt. Funksjonen dotchart () viser forskyvning for forskjellige bilmodeller som nedenfor.
Kode:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Produksjon:
Så nå vil vi sortere datasettet på forskyvningsverdier, og deretter plotte dem etter forskjellige gir ved å bruke dotchart () -funksjon.
Kode:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Produksjon:
Konklusjon
Analytics i sann forstand utnyttes bare gjennom visualiseringer. R, som et statistisk verktøy, tilbyr sterke visualiseringsevner. Så de mange alternativene forbundet med diagrammer er det som gjør dem spesielle. Hvert av diagrammene har sin egen applikasjon, og diagrammet bør studeres før du bruker det på et problem.
Anbefalte artikler
Dette er en guide til Grafer i R. Her diskuterer vi introduksjon og typer grafer i R som histogram, scatterplot, boxplot og mye mer sammen med eksempler og implementering. Du kan også se på følgende artikler for å lære mer -
- R Datatyper
- R-pakker
- Introduksjon til Matlab
- Grafer vs diagrammer