Introduksjon til datarammer i R
En dataramme er en 2D (todimensjonal) array-lignende struktur der forskjellige datatyper som tegn, numerisk osv. Aksepteres. Datarammen er en undergruppe av en liste som har hver komponent av samme lengde. I utgangspunktet er datarammen en tabell der hver kolonne inneholder verdier av en variabel og hver rad inneholder ett sett med verdier fra hver kolonne.
Det er noen kjennetegn ved datarammen.
- Kolonnenavnet er obligatorisk
- Radnavnene skal være unike
- Antall elementer i hver kolonne skal være det samme
Trinn for å lage datarammer i R
La oss begynne med å lage en dataramme som blir forklart nedenfor,
Trinn 1: Lag en dataramme av en klasse på en skole.
Kode:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Når vi kjører denne koden vil vi få en dataramme som denne.
Produksjon:
Her i vårt eksempel er datarammen veldig liten, men i det virkelige liv, mens vi håndterer problemet, har vi mange data. Så for å forstå strukturen til data videreformidler vi funksjonen Str ().
Trinn 2: Vi legger til linjen nedenfor i koden vår.
Kode:
Str(tenthclass)
Når vi kjører hele koden vil vi få utdata.
Produksjon:
Ovennevnte utgang betyr at vi har 5 observasjoner av 3 variabler. Deretter forklarer den datatypen til hver variabel. Som i vårt eksempel er rulletallet et heltall, navnet er karakter og merker er nummererte.
Når vi har forstått strukturen til dataene, vil vi passere koden nedenfor for å forstå dataene mer statistisk.
Trinn 3: Nå bruker vi en sammendrag () -funksjon
Kode:
summary(tenthclass)
Produksjon:
Sammendraget gir en bedre forståelse av dataene våre. Det vil fortelle oss å bety, median, kvartil, Max og Min. Disse tingene vil hjelpe oss til å ta en bedre beslutning.
Hvordan pakke ut data fra datarammer i R?
Her vil vi fortsette saken ovenfor. La oss anta at vi vil vite navnet på eleven i klassen tiende, bare navn. Så hvordan skal vi trekke ut?
Datarammen vår ser slik ut.
rulletall Navnemerker
1 1 Johannes 77
2 2 Sam 87
3 3 Casey 45
4 4 Ronald 68
5 5 Mathew 95
For å bare få navnet som en utdata vil vi videreføre følgende kode.
Kode:
onlyname = tenthclass$Name
print(onlyname)
Produksjon:
Hvis vi her bryter koden, legger vi bare dollartegnet mellom navnet på datarammen og navnet på variabelen som vi vil ha som en utgang.
Nå vurder en situasjon, læreren vil vite alt om rulle nummer 2 som navnet hans og hvor mye han scoret.
Her trenger vi alt om rulle nummer 2 så vi viderefører den nedenfor nevnte koden.
Kode:
result_rollnumber2 = tenthclass(c(2), c(1:3)) print(result_rollnumber2)
Produksjon:
Utvid i datarammer
Datarammen kan økes og reduseres i størrelse ved å legge til eller slette kolonner og rader.
1. Legg til rad
Vi har to datarammer. Én dataramme hører til klasse tiende seksjon A og annen dataramme tilhører klasse tiende seksjon B. Nå går disse forskjellige seksjonene sammen til en enkelt klasse.
Eksempel 1: Klasse 10 A
Kode:
tenthclass_sectionA = data.frame(roll_number = c(1:5),
Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass_sectionA)
Produksjon:
Eksempel 2: Klasse 10 B
Kode:
tenthclass_sectionB = data.frame(roll_number = c(6:10), Name = c("Ria", "Justin", "Bon", "Tim", "joe"),
Marks = c(68, 98, 54, 68, 42), stringsAsFactors = FALSE)
print(tenthclass_sectionB)
Produksjon:
Eksempel nr. 3: rbind () -funksjon
Nå må vi slå sammen begge klassene til en enkelt klasse. Vi vil bruke rbind () -funksjonen her. Den eneste begrensningen i å legge til en ny rad er at vi trenger å få inn de nye radene i samme struktur som den eksisterende datarammen.
Kode:
new_tenthclass = rbind(tenthclass_sectionA, tenthclass_sectionB)
print(new_tenthclass)
Produksjon:
2. Legg til kolonne
Vurder nå en sak der vi må legge til blodgruppedetaljer for hver enkelt elev i klasse 10. Vi vil legge til en ny kolonne for den og kalle den som "Blodgruppe".
Datarammen vår ser slik ut.
Kode:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Produksjon:
Kode:
tenthclass$Blood_group = c("O", "AB", "B+", "A+", "AB")
print(tenthclass)
Produksjon:
Slett rad og kolonne fra dataramme
For å slette rad og kolonne fra datarammen bruker vi følgende implementering av kode.
1. Slett kolonne
Kode:
print(tenthclass)
Produksjon:
Hvis vi må slette blodgruppvariabelen (kolonnen til høyre) i denne datarammen, vil vi passere koden nedenfor.
Kode:
tenthclass$Blood_group = NULL
print(tenthclass)
Produksjon:
Ved å omgå NULL-kommandoen kan vi fjerne variabelen direkte fra datarammen vår.
2. Slett rad
Kode:
print(tenthclass)
Produksjon:
Vurder nå en situasjon der vi ikke trenger merker av John, så vi må fjerne den øverste raden.
Kode:
tenthclass = tenthclass(-1, ) print(tenthclass)
Produksjon:
Oppdater data i dataramme
Kode:
print(tenthclass)
Produksjon:
La oss anta at Sam scoret 98 merker, men i henhold til datarammene våre er 87. Så vi kan passere koden nedenfor for å utbedre den.
Kode:
tenthclass$Marks(2) = 98
print(tenthclass)
Produksjon:
Konklusjon
Datarammer er en veldig vanlig form for problemstillingen. Det er en liste over variabelen med samme antall rader med unike rad-IDer. Denne artikkelen hjelper oss å vite hvordan vi kan legge til en rad, legge til en kolonne, slette en rad, slette en kolonne i datarammen og også den forteller hvordan vi kan oppdatere dataene i datarammen.
Anbefalte artikler
Dette er en guide til datarammer i R. Her diskuterer vi de forskjellige trinnene for å lage datarammer og hvordan trekke ut data fra datarammer i R. Du kan også se på følgende artikler for å lære mer-
- Topp 5 datatyper i R
- Liste over nyttige R-pakker
- R CSV-filer
- R-programfunksjoner - viktighet
- Faktor i R med fordeler