Hva er Data Analytics - Ulike typer Data Analytics

Innholdsfortegnelse:

Anonim

Hva er Data Analytics?

Data Analytics er en prosess for å oppdage nøkkelinnsikt og verdifulle konklusjoner fra en enorm mengde data samlet inn eller samlet inn fra forskjellige kilder for å støtte beslutninger. Økt beregningskraft, høy prosesseringshastighet. Ankomsten av interaktive sluttbrukergrensesnitt og velprøvd effektivitet av distribuert databehandlingsparadigme for å håndtere store biter av data laget dataanalyse for å avansere i alle domener, fremtredende innen detaljhandel, bank, helsevesen, logistikk, forsvar, offentlig administrasjon osv.

Typer av dataanalyse

Data Analytics-prosessen er subjektivt kategorisert i tre typer basert på formålet med å analysere data som

  • Beskrivende analyse
  • Predictive Analytics
  • Reseptbelagte analyser

Funksjonene i de ovennevnte typer Analytics er beskrevet nedenfor:

1. Beskrivende analyse

Descriptive Analytics fokuserer på å oppsummere tidligere data for å utlede slutninger. Mest brukte tiltak for å karakterisere historisk datadistribusjon kvantitativt inkluderer

  • Tiltak for sentral tendens - Gjennomsnitt, median, kvartiler, modus.
  • Målinger av variabilitet eller spredning - Range, Inter-Quartile Range, Percentiles.

I nyere tid overvinnes vanskene og begrensningene som er forbundet med å samle, lagre og forstå massive datahap med statistisk inferanseprosess. Generaliserte konklusjoner om statistikk over populasjonsdatasett trekkes ut ved å bruke prøvetakingsmetoder sammen med anvendelsen av sentral begrensningsteori.

En ledende nyhetskringkaster samler avstemningsdetaljer for tilfeldig valgte velgere ved utkjørselen til en valglokale på valgdagen for å utlede statistiske slutninger om preferansene for hele befolkningen.

Gjentatt prøvetaking av populasjonsdatasettet resulterer i biter av prøver med tilstrekkelig stor prøvestørrelse. Clustered sampling er generelt foretrukket for å generere godt stratifiserte, objektive representanter for populasjonsdatasettet. Det statistiske målet for interesse beregnes på de samplede datatykkene for å oppnå en fordeling av prøvestatistikkverdier kalt samplingsfordeling. Egenskapene til samplingfordeling er relatert til det for populasjonsdatasettet ved bruk av sentralbegrensningsteori.

2. Predictive Analytics

Predictive Analytics utnytter mønstre i historiske eller tidligere data for å estimere fremtidige utfall, identifisere trender, avdekke potensielle risikoer og muligheter eller forutsi prosessatferd. Ettersom prediksjonsbruk-tilfeller er plausible i sin natur, benytter disse tilnærmingene sannsynlighetsmodeller for å måle sannsynligheten for alle mulige utfall.

ChatBot i kundeserviceportalen til finansfirma lærer proaktivt kundenes hensikt eller behov for å være basert på hans / hennes tidligere aktiviteter i webdomenet. Med den forutsagte konteksten samtaler chatBot interaktivt med kunden for å levere passende tjenester raskt og oppnå bedre kundetilfredshet.

I tillegg til ekstrapolasjonsscenariene for å forutsi hva som skjer i fremtiden basert på tilgjengelige tidligere data, er det få applikasjoner som gjetter tapte dataoppføringer ved hjelp av tilgjengelige dataprøver. Denne tilnærmingen av tapte verdier innenfor området for gitte dataprøver blir teknisk referert til som interpolering.

Et kraftig bildedigeringsprogram støtter rekonstruksjon av tapte deler av tekstur på grunn av superpålagt tekst ved å interpolere funksjonsfunksjon i den tapte blokken. Funksjonsfunksjon kan tolkes som en matematisk notasjon av mønstre i strukturen til et forvrengt bilde.

De viktige faktorene som påvirker valget av prediktive modeller / strategier er:

  • Prediksjonsnøyaktighet: Dette formidler graden av nærhet mellom en forutsagt verdi og faktisk verdi. En lavere varians av forskjellen mellom forutsagt verdi og faktisk verdi innebærer en høyere prediktiv modells nøyaktighet.
  • Forutsigelseshastighet: Det prioriteres høyt i sporingsapplikasjoner i sanntid
  • Model Learning Rate: Det avhenger av modellens kompleksitet og beregninger som er involvert i beregningen av modellparametere.

3. Reseptbelagte analyser

Prescriptive Analytics bruker kunnskap som er oppdaget som en del av både beskrivende og prediktiv analyse for å anbefale et kontekst-bevisst handlingsforløp. Avanserte statistiske teknikker og beregningsintensive optimeringsmetoder implementeres for å forstå fordelingen av estimerte prediksjoner.

På presise vilkår, blir virkningen og fordelen av hvert utfall, som er estimert under prediktiv analyse, evaluert for å ta heuristiske og tidssensitive beslutninger for et gitt sett av betingelser.

Et konsulentfirma for aksjemarkeder utfører SWOT (styrke, svakhet, muligheter og trussel) analyse av predikerte priser på aksjer i investorers portefølje og anbefaler de beste kjøp-salg-alternativene til sine kunder.

Prosessflyt i Data Analytics

Prosessen med dataanalyse har forskjellige stadier av databehandlingen som forklart nedenfor:

1. Datautvinning

Inntak av data fra flere datakilder av forskjellige typer, inkludert websider, databaser, eldre applikasjoner, resulterer i inndatasett av forskjellige formater. Dataformatene som er lagt inn i dataanalysestrømmen, kan bredt klassifiseres som

  • Strukturerte data har en klar definisjon av datatyper sammen med tilhørende feltlengde eller feltavgrensninger. Denne typen data kan enkelt spørres, som innholdet som er lagret i Relational Database (RDBMS)
  • Semistrukturerte data mangler presis layoutdefinisjon, men dataelementer kan identifiseres, skilles og grupperes basert på et standardskjema eller andre metadataregler. En XML-fil bruker tagging for å holde data, mens Javascript object Notation file (JSON) inneholder data i navn-verdipar. NoSQL (ikke bare SQL) databaser som MongoDB, men sofabase brukes også til å lagre semistrukturerte data.
  • Ustrukturerte data inkluderer samtaler på sosiale medier, bilder, lydklipp osv. Tradisjonelle analyseringsmetoder for data klarer ikke å forstå disse dataene. Ustrukturerte data lagres i datasjøer.

Implementering av dataparsing for strukturerte og semistrukturerte data er integrert i forskjellige ETL-verktøy som Ab Initio, Informatica, Datastage og open source alternativer som Talend.

2. Rengjøring og transformasjon av data

Rengjøring av analyserte data gjøres for å sikre datakonsistens og tilgjengelighet av relevante data for de senere stadier i en prosessflyt. De viktigste rensevirksomhetene i dataanalyse er:

  • Påvisning og eliminering av outliers i datamengdene
  • Fjern duplikater i datasettet
  • Håndtering av manglende oppføringer i dataregister med forståelse av funksjonalitet eller bruk-saker
  • Valideringer for tillatte feltverdier i dataposter som "31. februar" kan ikke være en gyldig verdi i noen av datafeltene.

Rensede data transformeres til et passende format for å analysere data. Datatransformasjoner inkluderer

  • Et filter med uønskede dataregistreringer.
  • Bli med i data hentet fra forskjellige kilder.
  • Aggregering eller gruppering av data
  • Datas typekasting

3. KPI / Insight-derivasjon

Data Mining, Deep learning metoder brukes til å evaluere Key Performance Indicators (KPI) eller hente verdifull innsikt fra de rensede og transformerte dataene. Basert på målet med analyser, blir dataanalyse utført ved hjelp av forskjellige mønstergjenkjenningsteknikker som k-betyr klynging, SVM-klassifisering, Bayesianske klassifisere osv. Og maskinlæringsmodeller som Markov-modeller, Gaussian Mixture Models (GMM) osv.

Probabilistiske modeller i treningsfasen lærer optimale modellparametere og i valideringsfasen blir modellen testet ved bruk av k-fold kryssvalideringstesting for å unngå overdimensjonering og underpasning.

Det mest brukte programmeringsspråket for dataanalyse er R og Python. Begge har et rikt sett med biblioteker (SciPy, NumPy, Pandas) som er åpne for å utføre kompleks dataanalyse.

4. Datavisualisering

Datavisualisering er prosessen med en tydelig og effektiv presentasjon av avdekket mønster, avledede konklusjoner fra dataene ved hjelp av grafer, plott, instrumentpaneler og grafikk.

  • Datarapporteringsverktøy som QlikView, Tableau osv., Viser KPI og andre avledede beregninger på forskjellige nivåer av granularitet.
  • Rapporteringsverktøy gjør det mulig for sluttbrukere å lage tilpassede rapporter med pivot-, drill-down-alternativer ved bruk av brukervennlige dra og slipp-grensesnitt
  • Interaktive datavisualiseringsbiblioteker som D3.js (Datadrevne dokumenter), HTML5-Anycharts osv. Brukes til å øke muligheten for å utforske analyserte data

Anbefalte artikler

Dette har vært en guide til Hva er Data Analytics. Her diskuterte vi den forskjellige typen dataanalyse med prosessflyten. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Dataanalytiker Intervju Spørsmål og svar
  2. Hva er datavisualisering?
  3. Hva er Big data analytics?
  4. Hva er Minitab?