Introduksjon til R CSV-filer

CSV-filer er mye brukt til å lagre informasjonen i tabellformat hver linje som er datapost. For å lese, skrive eller manipulere data i R, må vi ha noen data tilgjengelig hos oss. Data kan bli funnet på internett eller kan samles fra forskjellige kilder, for eksempel undersøkelser. Ved å bruke R kan man lese, skrive og redigere dataene som er lagret i et eksternt miljø. R kan lese og skrive data fra forskjellige formater som XML, CSV og Excel. I denne artikkelen vil vi se hvordan R kan brukes til å lese, skrive og utføre forskjellige operasjoner på CSV-filer.

Oppretter CSV-fil i R

I denne delen vil vi se hvordan en dataramme kan opprettes og eksporteres til CSV-filen i R. I den første vil vi opprette en dataramme som består av variabler ansatt og respektive lønn.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Når datarammen er opprettet, er det på tide at vi bruker Rs eksportfunksjon for å opprette CSV-fil i R. For å eksportere datarammen til CSV kan vi bruke koden nedenfor.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

I ovennevnte kodelinje har vi gitt en banekatalog for datarammen vår og lagret dataframmen i CSV-format. I tilfellet ovenfor ble CSV-filen lagret på mitt personlige skrivebord. Denne spesielle filen vil bli brukt i vår veiledning for å utføre flere operasjoner.

Lesing av CSV-filer i R

Mens vi utfører analyser ved bruk av R, er vi i mange tilfeller pålagt å lese dataene fra CSV-filen. R er veldig pålitelig mens du leser CSV-filer. I eksemplet over har vi laget filen, som vi vil bruke til å lese ved å bruke kommandoen read.csv. Nedenfor er eksemplet for å gjøre det i R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Kommandoen ovenfor leser filen Employee.csv som er tilgjengelig på skrivebordet og viser den i R studio. Header-kommando innebærer at overskriften blir gjort tilgjengelig for datasettet og sep-kommando innebærer at dataene er atskilt med komma.

Skriv CSV-filer i R

Å skrive til CSV-fil er en av de mest nyttige funksjonalitetene som er tilgjengelige i R for en dataanalytiker. Dette kan brukes til å skrive en redigert CSV-fil til en ny CSV-fil for å analysere dataene. Skriv.csv-kommandoen brukes til å skrive filen til CSV.

I koden df nedenfor i datarammen der dataene våre er tilgjengelige, brukes vedlegg for å spesifisere at den nye filen er opprettet i stedet for å legge til eller overskrive den gamle filen. Tilføy falsk antyder at det opprettes en ny CSV-fil. Sep representerer feltet atskilt med komma.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

CSV-operasjoner

CSV-operasjoner er pålagt å inspisere dataene når de er lastet inn i systemet. R har flere innebygde funksjonaliteter for å verifisere og inspisere dataene. Disse operasjonene gir fullstendig informasjon angående datasettet.

En av de mest brukte kommandoene er et sammendrag.

> summary(df)

Sammendragskommandoen gir oss kolonnevis statistikk. Den numeriske variabelen er beskrevet på en statistisk måte som inkluderer statistiske resultater som gjennomsnitt, min, median og maks. I eksemplet over skilles to variabler som er ansatt og lønn, og statistikk for den numeriske variabelen som er lønn, vises for oss.

Vis () -kommando brukes til å åpne datasettet i en annen fane og bekrefte det manuelt.

> View(df)

Str-funksjonen vil gi brukerne flere detaljer om kolonnen til datasettet. I eksemplet nedenfor kan vi se at Ansattvariabelen har Faktor som datatype og Lønnsvariabelen har int (heltall) som datatype.

> str(df)

I mange tilfeller må vi se det totale antall tilgjengelige rader i tilfelle det store datasettet, som vi kan bruke kommandoen nrow () for. Se eksemplet nedenfor.

> # to show the total number of rows in the dataset
> nrow(df)

På en lignende måte å vise det totale antallet kolonner, kan vi bruke kommandoen ncol ()

> ncol(df)

R lar oss vise ønsket antall rader ved hjelp av kommandoen nedenfor. Når deres antall rader er tilgjengelig i datasettet, kan vi spesifisere rekkevidden for rader som skal vises.

> # to display first 2 rows of the data
> df(1:2, )

Datadrift utføres på det store datasettet. For illustrasjon har jeg lastet ned NI-postnummer med åpen kildekode fra internett.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

I ovennevnte datasett kan vi se overskriftenavnene mangler, og det er mange nullverdier til stede. Datasettet må rengjøres for å bli gjort klar til analyse. I neste trinn får overskriftene navn deretter.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

La oss nå telle antall manglende verdier i dataframmen og fjerne dem deretter.

> # count of all missing values
> table(is.na (NiPostCode))

Fra kommandoen over kan vi se det totale antallet emner eller NA i dataframmen er nær 5445148. Å fjerne alle nullverdiene vil føre til tap av den enorme datamengden, og det er derfor lurt å fjerne kolonnene der mer enn halvparten av 50% av dataene mangler.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Konklusjon

I denne opplæringen har vi sett hvordan CSV-filer kan opprettes, leses og legges ved ved bruk av operasjoner i R. Vi har lært hvordan du lager et nytt datasett i R og deretter importerer det til CSV-format. Vi har videre sett flere operasjoner som å gi nytt navn til header og telle antall rader og kolonner.

Anbefalte artikler

Dette er en guide til R CSV-filer. Her diskuterer vi oppretting, lesing og skriving av CSV-fil i R med CSV Operations. Du kan også se på følgende artikkel for å lære mer -

  1. JSON vs CSV
  2. Databehandling
  3. Karrierer innen Data Analytics
  4. Excel vs CSV

Kategori: