Introduksjon til dataprosessering i maskinlæring

Databehandling i maskinlæring er en måte å konvertere data fra råformen til en mye mer formatert, ubrukelig eller ønsket form. Det er en integrert oppgave for maskinlæring som utføres av dataforskeren. Ettersom de innsamlede dataene er i et råformat, kan det ikke være mulig å trene modellen ved å bruke den. Det er viktig å behandle disse rå data nøye for å gjøre riktig tolkning av dem og til slutt unngå negativt resultat i prediksjonen. Kort sagt, kvaliteten på læringsalgoritmen avhenger sterkt av typen datasett vi brukte for å mate modellen slik at dataforbehandling brukes til å opprettholde den kvaliteten.

Data samlet for trening av modellen er fra forskjellige kilder. Disse innsamlede dataene er vanligvis i sitt råformat, dvs. de kan ha støy som manglende verdier, og relevant informasjon, tall i strengformatet, etc. eller de kan være ustrukturerte. Forhåndsbehandling av data øker effektiviteten og nøyaktigheten til maskinlæringsmodellene. Da det hjelper med å fjerne disse støyene og datasettet og gi mening til datasettet

Seks forskjellige trinn involvert i maskinlæring

Følgende er seks forskjellige trinn involvert i maskinlæring for å utføre dataforbehandling:

Trinn 1: Importer biblioteker

Trinn 2: Importer data

Trinn 3: Kontroller om det mangler verdier

Trinn 4: Kontroller for kategoriske data

Trinn 5: Funksjonskalering

Trinn 6: Del inn data i trenings-, validerings- og evalueringssett

La oss forstå hvert av disse trinnene i detaljer:

1. Importer biblioteker

Det aller første trinnet er å importere noen av de viktige bibliotekene som kreves i forforbehandlingen av data. Et bibliotek er en samling av moduler som kan kalles og brukes. I python har vi mange biblioteker som er nyttige i forforbehandlingen av data.

Noen av de følgende viktige bibliotekene i python er:

  • Numpy: Brukte mest biblioteket til å implementere eller bruke komplisert matematisk beregning av maskinlæring. Det er nyttig når du utfører en operasjon på flerdimensjonale matriser.
  • Pandas : Det er et open source-bibliotek som gir høy ytelse, og brukervennlige datastrukturer og dataanalyseverktøy i python. Den er designet på en måte å gjøre arbeidet med relasjoner og merkede data enkelt og intuitivt.
  • Matplotlib: Det er et visualiseringsbibliotek levert av python for 2D-plott eller array. Den er bygd på en numpy matrise og designet for å jobbe med en bredere Scipy-stabel. Visualisering av datasett er nyttig i scenariet der store data er tilgjengelige. Tomter som er tilgjengelige i matplot lib er linje, stolpe, spredning, histogram, etc.
  • Seaborn: Det er også et visualiseringsbibliotek gitt av python. Det gir et grensesnitt på høyt nivå for å tegne attraktive og informative statistiske grafer.

2. Importer datasett

Når bibliotekene er importert, er vårt neste trinn å laste inn de innsamlede dataene. Pandas bibliotek brukes til å importere disse datasettene. Det meste er datasettene tilgjengelige i CSV-formater, ettersom de har liten størrelse, noe som gjør det raskt å behandle. Så for å laste inn en csv-fil ved hjelp av read_csv-funksjonen i pandas bibliotek. Ulike andre formater av datasettet som kan sees er

Når datasettet er lastet inn, må vi inspisere det og se etter støy. For å gjøre dette må vi lage en funksjonsmatrise X og en observasjonsvektor Y med hensyn til X.

3. Kontroller for manglende verdier

Når du oppretter funksjonsmatrisen, kan du finne at det mangler noen verdier. Hvis vi ikke takler det, kan det føre til et problem på treningstidspunktet.

Det er to metoder for å håndtere de manglende verdiene:

  1. Hvis du fjerner hele raden som inneholder den manglende verdien, men det kan være en mulighet for at du kan ende opp med å miste viktig informasjon. Dette kan være en god tilnærming hvis størrelsen på datasettet er stort.
  2. Hvis en numerisk kolonne har en manglende verdi, kan du estimere verdien ved å ta middelverdien, medianen, modus osv.

4. Kontroller for kategoriske data

Data i datasettet må være i en numerisk form for å kunne beregne dem. Siden maskinlæringsmodeller inneholder kompleks matematisk beregning, kan vi ikke mate dem en ikke-numerisk verdi. Så det er viktig å konvertere alle tekstverdiene til numeriske verdier. LabelEncoder () -klassen for lærte brukes til å omregne disse kategoriske verdiene til numeriske verdier.

5. Funksjon skalering

Verdiene av rådataene varierer ekstremt, og det kan føre til partisk trening av modellen eller ende med å øke beregningskostnaden. Så det er viktig å normalisere dem. Skalering av funksjoner er en teknikk som brukes for å bringe dataverdien i et kortere område.

Metoder som brukes for funksjonsskalering er:

  • Omkalering (min-maks normalisering)
  • Gjennomsnittlig normalisering
  • Standardisering (Z-score Normalisering)
  • Skalering til enhetslengde

6. Deling av data i trenings-, validerings- og evalueringssett

Til slutt må vi dele opp dataene våre i tre forskjellige sett, opplæringssett for å trene modellen, valideringssett for å validere modellens nøyaktighet og til slutt testsett for å teste ytelsen til modellen vår på generiske data. Før du deler datasettet, er det viktig å blande datasettet for å unngå skjevheter. En ideell andel for å dele datasettet er 60:20:20 dvs. 60% som treningssett, 20% som test- og valideringssett. For å dele datasettet bruker du train_test_split av sklearn.model_selection to ganger. En gang for å dele datasettet i tog- og valideringssett og deretter dele det gjenværende togdatasettet i tog- og testsett.

Konklusjon - Forbehandling av data i maskinlæring

Forhåndtering av data er noe som krever praksis. Det er ikke som en enkel datastruktur der du lærer og bruker direkte for å løse et problem. For å få god kunnskap om hvordan du renser et datasett eller hvordan du visualiserer datasettet, må du jobbe med forskjellige datasett.

Jo mer du bruker disse teknikkene, jo bedre forståelse vil du få om det. Dette var en generell ide om hvordan databehandling spiller en viktig rolle i maskinlæring. Sammen med det har vi også sett trinnene som er nødvendige for forhåndsbehandling av data. Så neste gang du begynner å trene modellen ved å bruke de innsamlede dataene, må du huske å bruke dataforbehandling.

Anbefalte artikler

Dette er en guide til dataprosessering i maskinlæring. Her diskuterer vi introduksjonen, seks forskjellige trinn involvert i maskinlæring. Du kan også gå gjennom de andre foreslåtte artiklene våre for å lære mer–

  1. Viktigheten av kunstig intelligens
  2. IoT-teknologi
  3. PL / SQL-datatyper
  4. Datastyper
  5. R Datatyper

Kategori: