Introduksjon til Histogram i R

I denne artikkelen skal vi starte med det grunnleggende histogrammet i implementering og tilpasning av R. Histogram spiller en viktig rolle i dataanalyser for visualisering av dataene. R-programmering er et spesielt miljø for statistisk databehandling og grunnleggende for datavitenskap. I R programmeres datasett og funksjoner sammen i form av pakker. De fleste av de visuelle analyseprogrammene bruker histogrammer og lager binbredde som standard. De tillater å raskt fatte innsikt i dataene som er en primær rolle i datavitenskapen. Her skal vi bygge et histogram ved å bruke R-kommandoer.

Hva er histogram?

Histogrammet er en illustrasjon av en datasettfordeling som vi enkelt kunne analysere hvilken faktor som har en høyere datamengde og minst data. Med andre ord tillater histogrammet å gjøre kumulative frekvensdiagrammer i x-aksen og y-aksen. Egentlig tar histogrammer både grupperte og uplasserte data. For et gruppert datahistogram konstrueres ved å ta i betraktning klassegrenser, mens ugrupperte data er det nødvendig å danne den grupperte frekvensfordelingen. De hjelper til med å analysere omfanget og plasseringen av dataene effektivt. Noen vanlige strukturer av histogrammer brukes som vanlig, skjev, klippe under distribusjon av data.

I motsetning til en stolpe, har ikke diagramhistogram hull mellom stolpene og stolpene her blir navngitt som hyller som dataene er representert i like intervaller. Histogram Tar kontinuerlig variabel og deles i intervaller det er nødvendig å velge riktig søppelbredde. Den største forskjellen mellom søylediagrammet og histogram er førstnevnte bruker nominelle datasett for å plotte mens histogram plotter de kontinuerlige datasettene. R bruker hist () -funksjon for å lage histogrammer. Denne hist () -funksjonen bruker en vektor av verdier for å plotte histogrammet. Histogram består av et x-akses område av kontinuerlige verdier, y-aksen plotter hyppige dataverdier i x-aksen med stolper med høydevariasjoner.

syntaks:

Syntaksen for å lage histogram er

hist (v, main, xlab, xlim, ylim, breaks, col, border)
where v – vector with numeric values
main – denotes title of the chart
col – sets color
border -sets border color to the bar
xlab - description of x-axis
xlim - denotes to specify range of values on x-axis
ylim – specifies range values on y-axis
break – specifies the width of each bar.

Opprette et histogram i R

For analyse krever histogrammet noe innebygd datasett for å importere i R. R og bibliotekene har en rekke grafiske pakker og funksjoner. Her bruker vi sveitsiske og flypassasjeresett. For å beregne et histogram for en gitt dataverdi brukes hist () -funksjonen sammen med et $-tegn for å velge den bestemte kolonnen i en data fra datasettet for å lage et histogram.

Følgende eksempel beregner et histogram av dataverdien i kolonnen Undersøkelse av datasettet som heter Swiss.

Eksempel 1: La oss lage et enkelt histogram

Kode:

hist (swiss $Examination)

Produksjon:

Hist er opprettet for et datasett som er sveitsisk med en kolonneeksamen. dette plottes ganske enkelt en søppelkasse med frekvens og x-akse.

Eksempel 2: Histogram med flere argumenter

For å oppnå en bedre forståelse av histogrammer, må vi legge til flere argumenter til hist-funksjonen for å optimalisere visualiseringen av diagrammet. Endring av x og y-etikett til en rekke verdier xlim og ylim argumenter legges til funksjonen.

Eksempel:

hist (Air Passengers, xlim=c (150, 600), ylim=c (0, 35))
In the above example x limit varies from 150 to 600 and Y – 0 to 35.
// Adding breaks
hist (AirPassengers,
main="Histogram with more Arg",
xlab="Name List",
border="Green",
col="Orange",
xlim=c (100, 600),
ylim=c(0, 40),
breaks=5)

Produksjon:

Over kode plotter et histogram for verdiene fra datasettet Air Passengers, gir tittelen som "Histogram for more arg", x-aksen etiketten som "Navneliste", med en grønn kant og en gul farge til stolpene, ved å begrense verdien som 100 til 600, verdiene trykt på y-aksen med 2 og å gjøre søppelbredden til 5.

Legge til to forskjellige farger i baren

hist (swiss$Examination, col=c ("violet”, "Chocolate2"), xlab="Examination”, las =1, main=" color histogram")

Produksjon:

Legger til flere søyler i histogrammet

hist (swiss$Education, breaks=40, col="violet", xlab="Education", main=" Extra bar histogram")

Produksjon:

Eksempel 3: Histogram i R Det returnerer en verdi

Air <- AirPassengers
hist (Air)
h <- hist (Air)
h
$breaks

Produksjon:

Eksempel 4: Bruke bruddargument for å endre søppelbredde

For å ha flere bruddpunkter mellom bredden, er det foretrukket å bruke verdien i c () -funksjonen.

hist (AirPassengers, breaks=c (100, seq (200, 700, 150)))

Produksjon:

Grafen over tar bredden på linjen gjennom sekvensverdier.

Eksempel 5: Implementering av normal distribusjonskurve i histogram

Vi skal bruke datasettet 'sveitsisk' for dataverdiene for å tegne en graf. Her brukes funksjonskurven () for å vise distribusjonslinjen.

Kode:

curve (dnorm(x, mean=mean(swiss$Education), sd=sd(swiss$Education)), add=TRUE, col="red")

Produksjon:

Eksempel 6: Plotting sannsynlighetsfordeling

hist (AirPassengers,
main="Histogram ",
xlab="Passengers",
border="Yellow",
col="pink",
xlim=c(100, 600),
las=2,
breaks=6,
prob = TRUE)

Opprette tetthetsplott i histogram i R

Distribusjonen av en variabel opprettes ved bruk av funksjonstetthet (). Nedenfor er eksemplet med datasettet mtcars. Tetthetsplott hjelper til i fordelingen av formen.

density () // this function returns the density of the data
library(ggplot2)
d <- density (mtcars $qsec)
plot (d, main=" Density of Miles Per second")
polygon (d, col="orange",>

Produksjon:

Using Line () function
hist (swiss$Examination, freq = FALSE, col=c ("violet”, "Chocolate2"),
xlab="Examination”, las =1, main=" Line Histogram")
lines(density(swiss$Examination), lwd = 4, col = "red")

Følgende histogram i R viser høyden som en undersøkelse på x-aksen og tettheten er plottet på y-aksen.

Produksjon:

Konklusjon

Det handler om histogrammet, og nettopp histogram er den enkleste måten å forstå dataene på. Som vi har sett med et histogram, kunne vi tegne enkelt, flere diagrammer, ved å bruke søppelbredde, aksekorreksjon, endre farger osv. Histogrammet hjelper til med å visualisere de forskjellige formene på dataene. Endelig har vi sett hvordan histogrammet gjør det mulig å analysere datasett og midtpunkter brukes som etiketter i klassen. Histogrammet hjelper til med å endre intervaller for å produsere en forbedret beskrivelse av dataene og fungerer, spesielt med numeriske data. histogrammer er mer foretrukket i analysen på grunn av deres fordel med å vise et stort sett med data. Basert på utdataene kunne vi visuelt skje dataene og lett å gjøre noen antagelser.

Anbefalte artikler

Dette har vært en guide for Histogram i R. Her har vi diskutert konseptet, syntaks, og hvordan lage et histogram i R med eksempler. Du kan også se på følgende artikler for å lære mer -

  1. Histogrameksempler
  2. Karriere i R-programmering
  3. Gantt-diagram i Tableau
  4. Karriere innen dataprogrammering
  5. Hvordan lage en linjediagram i R?

Kategori: