Introduksjon til R CSV-filer
CSV-filer er mye brukt til å lagre informasjonen i tabellformat hver linje som er datapost. For å lese, skrive eller manipulere data i R, må vi ha noen data tilgjengelig hos oss. Data kan bli funnet på internett eller kan samles fra forskjellige kilder, for eksempel undersøkelser. Ved å bruke R kan man lese, skrive og redigere dataene som er lagret i et eksternt miljø. R kan lese og skrive data fra forskjellige formater som XML, CSV og Excel. I denne artikkelen vil vi se hvordan R kan brukes til å lese, skrive og utføre forskjellige operasjoner på CSV-filer.
Oppretter CSV-fil i R
I denne delen vil vi se hvordan en dataramme kan opprettes og eksporteres til CSV-filen i R. I den første vil vi opprette en dataramme som består av variabler ansatt og respektive lønn.
> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)
Når datarammen er opprettet, er det på tide at vi bruker Rs eksportfunksjon for å opprette CSV-fil i R. For å eksportere datarammen til CSV kan vi bruke koden nedenfor.
> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)
I ovennevnte kodelinje har vi gitt en banekatalog for datarammen vår og lagret dataframmen i CSV-format. I tilfellet ovenfor ble CSV-filen lagret på mitt personlige skrivebord. Denne spesielle filen vil bli brukt i vår veiledning for å utføre flere operasjoner.
Lesing av CSV-filer i R
Mens vi utfører analyser ved bruk av R, er vi i mange tilfeller pålagt å lese dataene fra CSV-filen. R er veldig pålitelig mens du leser CSV-filer. I eksemplet over har vi laget filen, som vi vil bruke til å lese ved å bruke kommandoen read.csv. Nedenfor er eksemplet for å gjøre det i R.
> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df
Kommandoen ovenfor leser filen Employee.csv som er tilgjengelig på skrivebordet og viser den i R studio. Header-kommando innebærer at overskriften blir gjort tilgjengelig for datasettet og sep-kommando innebærer at dataene er atskilt med komma.
Skriv CSV-filer i R
Å skrive til CSV-fil er en av de mest nyttige funksjonalitetene som er tilgjengelige i R for en dataanalytiker. Dette kan brukes til å skrive en redigert CSV-fil til en ny CSV-fil for å analysere dataene. Skriv.csv-kommandoen brukes til å skrive filen til CSV.
I koden df nedenfor i datarammen der dataene våre er tilgjengelige, brukes vedlegg for å spesifisere at den nye filen er opprettet i stedet for å legge til eller overskrive den gamle filen. Tilføy falsk antyder at det opprettes en ny CSV-fil. Sep representerer feltet atskilt med komma.
# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)
CSV-operasjoner
CSV-operasjoner er pålagt å inspisere dataene når de er lastet inn i systemet. R har flere innebygde funksjonaliteter for å verifisere og inspisere dataene. Disse operasjonene gir fullstendig informasjon angående datasettet.
En av de mest brukte kommandoene er et sammendrag.
> summary(df)
Sammendragskommandoen gir oss kolonnevis statistikk. Den numeriske variabelen er beskrevet på en statistisk måte som inkluderer statistiske resultater som gjennomsnitt, min, median og maks. I eksemplet over skilles to variabler som er ansatt og lønn, og statistikk for den numeriske variabelen som er lønn, vises for oss.
Vis () -kommando brukes til å åpne datasettet i en annen fane og bekrefte det manuelt.
> View(df)
Str-funksjonen vil gi brukerne flere detaljer om kolonnen til datasettet. I eksemplet nedenfor kan vi se at Ansattvariabelen har Faktor som datatype og Lønnsvariabelen har int (heltall) som datatype.
> str(df)
I mange tilfeller må vi se det totale antall tilgjengelige rader i tilfelle det store datasettet, som vi kan bruke kommandoen nrow () for. Se eksemplet nedenfor.
> # to show the total number of rows in the dataset
> nrow(df)
På en lignende måte å vise det totale antallet kolonner, kan vi bruke kommandoen ncol ()
> ncol(df)
R lar oss vise ønsket antall rader ved hjelp av kommandoen nedenfor. Når deres antall rader er tilgjengelig i datasettet, kan vi spesifisere rekkevidden for rader som skal vises.
> # to display first 2 rows of the data
> df(1:2, )
Datadrift utføres på det store datasettet. For illustrasjon har jeg lastet ned NI-postnummer med åpen kildekode fra internett.
> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)
I ovennevnte datasett kan vi se overskriftenavnene mangler, og det er mange nullverdier til stede. Datasettet må rengjøres for å bli gjort klar til analyse. I neste trinn får overskriftene navn deretter.
> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"
La oss nå telle antall manglende verdier i dataframmen og fjerne dem deretter.
> # count of all missing values
> table(is.na (NiPostCode))
Fra kommandoen over kan vi se det totale antallet emner eller NA i dataframmen er nær 5445148. Å fjerne alle nullverdiene vil føre til tap av den enorme datamengden, og det er derfor lurt å fjerne kolonnene der mer enn halvparten av 50% av dataene mangler.
> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)
Konklusjon
I denne opplæringen har vi sett hvordan CSV-filer kan opprettes, leses og legges ved ved bruk av operasjoner i R. Vi har lært hvordan du lager et nytt datasett i R og deretter importerer det til CSV-format. Vi har videre sett flere operasjoner som å gi nytt navn til header og telle antall rader og kolonner.
Anbefalte artikler
Dette er en guide til R CSV-filer. Her diskuterer vi oppretting, lesing og skriving av CSV-fil i R med CSV Operations. Du kan også se på følgende artikkel for å lære mer -
- JSON vs CSV
- Databehandling
- Karrierer innen Data Analytics
- Excel vs CSV