Introduksjon til dataanalyse

I denne artikkelen vil vi se en oversikt over Typer av dataanalyse. I en tid av det 21. århundre, kanskje den mest bemerkelsesverdige endringen, er hvordan data ble en del av vårt beslutningssystem på alle områder i livet vårt. Det er ingen tvil om at "Data er den nye oljen" i alle sektorer. Med økningen av nesten uendelig båndbredde kommer nye utfordringer med hvordan vi bruker denne enorme skalaen data effektivt og henter viktig innsikt fra dataene. Sammen med den store dataskalaen øker også støy gradvis, dataanalyse er en samling av forskjellige metodologier og tankesett for å få det beste ut av tilgjengelige data og konvertere rådataene til en viss forretnings- eller samfunnsverdi.

Typer av dataanalyse

Basert på metodene som brukes, kan dataanalyse deles inn i følgende fire deler:

  • Beskrivende analyse
  • Utforskende dataanalyse
  • Prediksiv analyse
  • Inferensiell analyse

1. Beskrivende analyse

Beskrivende analyse er den numeriske måten å få innsikt i dataene på. I den beskrivende analysen får vi en oppsummert verdi av de numeriske variablene. Anta at du analyserer salgsdataene til en bilprodusent. I litteraturen om beskrivende analyse vil du søke spørsmål som hva som er gjennomsnittet, modus for salgsprisen for en biltype, hva var inntektene som ble påført ved å selge en bestemt type bil, etc. Vi kan få den sentrale tendensen og spredning av de numeriske variablene til dataene ved bruk av denne typen analyse. I de fleste praktiske datavitenskapelige brukstilfeller vil beskrivende analyser hjelpe deg med å få informasjon på høyt nivå av dataene og bli vant til datasettet. Viktige terminologier for den beskrivende analysen er:

  • Gjennomsnitt (gjennomsnitt av alle tall i en liste over tall)
  • Mode (hyppigste nummer i en liste over numre)
  • Median (mellomverdi på en liste over tall)
  • Standardavvik (mengde variasjon av et sett med verdier fra middelverdien)
  • Varians (kvadrat med standardavvik)
  • Inter Quartile Range (verdier mellom 25 og 75 prosentil av en liste over tall)

I python gir panda-bibliotek en metode som kalles 'beskriv', som gir beskrivende informasjon om datarammen. Vi bruker også andre biblioteker som statistikkmodell eller kan utvikle koden vår per bruk.

2. Utforskende dataanalyse

I motsetning til beskrivende dataanalyse der vi analyserer dataene numerisk, er utforskende dataanalyse den visuelle måten å analysere dataene på. Når vi har en grunnleggende forståelse av dataene tilgjengelig ved beskrivende analyser, vil vi gå til undersøkende dataanalyse. Vi kan også dele den undersøkende dataanalysen i to deler:

  • Uni variate-analyse (utforske karakteristikken til en enkelt variabel)
  • Multivariat analyse (komparativ analyse av flere variabler, hvis vi sammenligner korrelasjonen av to variabler, kalles det bivariat analyse)

I den visuelle måten å analysere data bruker vi forskjellige typer plott og grafer for å analysere data. For å analysere en enkelt variabel (univariat analyse) kan vi bruke et søylediagram, histogrammer, boksplott med visp, fiolinplott, etc. For multivariat analyse bruker vi spredningsplottet, konturplott, flerdimensjonale plott, etc.

Men hvorfor trenger vi forklarende dataanalyse?

  • Utforskende dataanalyse gir en visuell måte å beskrive dataene på, noe som hjelper til med å identifisere egenskapene til dataene tydeligere.
  • Det hjelper oss å identifisere hvilke funksjoner som er viktigere. Dette er spesielt nyttig når vi arbeider med høydimensjonale data. (dvs. metoder som PCA og t-SNE hjelper med å redusere dimensjonalitet).
  • Det er en effektiv måte å forklare det påløpte resultatet til ledere og ikke-tekniske stakkeleiere.

I python er det mange biblioteker som kan utføre undersøkende dataanalyse. Matplotlib, Seaborn, Plotly, Bokeh, etc. er de mest populære blant disse.

3. Prediksiv analyse

Hva skjer hvis vi vet feilene vi vil gjøre i fremtiden på forhånd? Vi vil prøve å unngå de rette? Prediksiv analyse er ikke annet enn den mest vitenskapelige måten å forutsi fremtidige resultater ved å analysere historiske hendelser. Datavitenskapens hjerte er basert på prediktiv analyse. Prediksiv analyse hjelper oss med å svare på følgende spørsmål: 'Kan vi forutsi om en kjøper vil kjøpe et bestemt produkt eller ikke?' Eller 'Kan vi estimere den totale kostnaden et forsikringsselskap må betale for kravene? 'Eller' Kan vi estimere mengden nedbør i kommende monsun? '

Prediksiv analyse hjelper oss med å gi det tilnærmede eller mest sannsynlige utfallet av de viktige spørsmålene som deretter resulterer i massive skalerte forretningsmessige og samfunnsøkonomiske endringer. Maskinlæringsmodeller er utviklet basert på historiske data for å forutsi utfallet av lignende usettede fremtidige hendelser.

4. Inferensiell analyse

Inferensiell analyse er litteraturen innen datavitenskap, mens vi spår referanseresultatet for flere sektorer. For eksempel å avlede konsumprisindeksen eller inntekt per innbygger. Det er ikke mulig å nå hver enkelt forbruker en etter en og beregne. I stedet for dette tar vi vitenskapelig prøver fra befolkningen og ved hjelp av statistisk analyse, henter vi indeksen.

Konklusjon

I denne artikkelen har vi diskutert de forskjellige metodene for dataanalyse. Må vi bruke alle disse metodene, eller kan vi bruke noen av dem? Vel, nå er det basert på brukssaken og domenet til applikasjonen. Men i de fleste tilfeller vil vi starte med beskrivende og utforskende dataanalyse og utvikle prediktive modeller for å forutsi fremtidige resultater.

Anbefalte artikler

Dette er en guide til Typer av dataanalyse. Her diskuterer vi en kort oversikt over dataanalyse og de forskjellige metodikkene basert på brukssaken og domenet til applikasjonen. Du kan også gå gjennom de foreslåtte artiklene våre for å lære mer -

  1. Topp 8 gratis verktøy for dataanalyse
  2. Introduksjon til typer dataanalyseteknikker
  3. Data Analytics vs Data Analyse - Topp forskjeller
  4. Lær begrepet dataintegrasjon

Kategori: