10 Essential Data Analytics intervjuspørsmål (Oppdatert for 2019)

Innholdsfortegnelse:

Anonim

Introduksjon til Data Analytics-intervjuspørsmål og svar

Så du har endelig funnet drømmejobben din i Data Analytics, men lurer på hvordan du kan knekke Data Analytics-intervjuet i 2019, og hva som kan være de sannsynlige spørsmålene om Data Analytics-intervjuer. Hvert Data Analytics-intervju er forskjellig, og omfanget av en jobb er også annerledes. Med dette i tankene har vi designet de vanligste Data Analytics-intervjuet spørsmål og svar for å hjelpe deg med å få suksess i Data Analytics-intervjuet.

Nedenfor er Top Data Data Interview intervju spørsmål som det meste stilles i et intervju

1. Hva er forskjellen mellom Data Mining og Data Analyse?

Svar:

DatautvinningDataanalyse
En hypotese er ikke nødvendig for Data MiningDataanalyse begynner med en hypotese.
Data Mining krever rene og veldokumenterte data.Dataanalyse innebærer rengjøring av data.
Resultater av data mining er ikke alltid like lette å tolke.Dataanalytikere tolker resultatene og presenterer det for interessentene.
Data mining algoritmer utvikler automatisk ligninger.Dataanalytikere må utvikle sine egne ligninger.

2. Nevn hva er de forskjellige trinnene i et analyseprosjekt?

Svar:
Dataanalyse omhandler innsamling, rensing, transformering og modellering av data for å få verdifull innsikt og støtte bedre beslutninger i en organisasjon. Trinn involvert i dataanalyseprosessen er som følger -

Databehandling - Etter å ha undersøkt forretningsproblemet, må en dataanalytiker analysere årsaken til problemet.
Forberedelse av data - I dette trinnet i dataanalyseprosessen finner vi dataanomalier som manglende verdier i dataene.
Datamodellering - Modelleringstrinnet begynner etter at dataene er utarbeidet. Modellering er en iterativ prosess der modellen kjøres gjentatte ganger for forbedringer. Datamodellering sikrer et best mulig resultat for et forretningsproblem.
Validering - I dette trinnet blir modellen levert av klienten og modellen utviklet av dataanalytikeren validert mot hverandre for å finne ut om den utviklede modellen vil oppfylle virksomhetens krav.
Implementering av modellen og sporing - I dette siste trinnet i implementeringen av dataanalysen blir implementeringen gjennomført, og etter det blir sporing gjort for å sikre at modellen blir implementert riktig eller ikke?

3.Hva er ansvaret til en dataanalytiker?

Svar:
• Løs forretningsrelaterte problemer for klienter og utfør datarevisjonsoperasjoner.
• Tolke data ved hjelp av statistiske teknikker.
• Identifiser områder for forbedringsmuligheter.
• Analysere, identifisere og tolke trender eller mønstre i komplekse datasett.
• Få data fra primære eller sekundære datakilder.
• Vedlikeholde databaser / datasystemer.
• Finn og korriger kodeproblemer ved å bruke ytelsesindikatorer.
• Sikre database ved å utvikle tilgangssystem.

4.Hva er Hash-tabellkollisjoner? Hvordan unngås det?

Svar:
En hasjbordkollisjon skjer når to forskjellige nøkler hasj til samme verdi. Det er mange teknikker for å unngå hasjbordkollisjon, her lister vi ut to:
Separat kjetting: Den bruker datastrukturen som hashes til samme spalte for å lagre flere elementer.
Åpen adressering: Den søker etter andre spor ved hjelp av en andre funksjon og lagrer varen i det første tomme sporet.

5. Liste over noen av de beste verktøyene som kan være nyttige for dataanalyse?

Svar:
• Tableau
• RapidMiner
• OpenRefine
• KNIME
• Google Search Operators
• Solver
• NodeXL
• io
• Wolfram Alpha's
• Google Fusion Tabeller

6.Hva er forskjellen mellom data mining og dataprofilering?

Svar:
Forskjellen mellom data mining og dataprofilering er som følger -
• Dataprofilering: Den er rettet mot øyeblikkelig analyse av individuelle attributter som prisvariasjon, distinkt pris og deres hyppighet, en forekomst av nullverdier, datatype, lengde, etc.
• Data mining: Den fokuserer på avhengigheter, sekvensoppdagelse, relasjonsholding mellom flere attributter, klyngeanalyse, påvisning av uvanlige poster etc.

7. Forklar K-mean algoritme og hierarkisk klynge-algoritme?

Svar:
K-Mean algoritme - K mean er en kjent partisjonsmetode. I K-mean algoritmen er klyngene sfæriske, dvs. datapunktene i en klynge er sentrert om den klyngen. Også variantene av klyngene er like, dvs. hvert datapunkt tilhører den nærmeste klyngen
Hierarkisk clustering-algoritme - Hierarkisk clustering-algoritme kombinerer og deler eksisterende grupper og oppretter en hierarkisk struktur for dem for å vise rekkefølgen gruppene er delt inn i.

8. Hva er rensing av data? Nevn noen av de beste fremgangsmåtene du må følge mens du gjør datarensing?

Svar:
Fra et gitt datasett er det ekstremt viktig å sortere informasjonen som kreves for dataanalyse. Datarengjøring er et avgjørende trinn der data blir inspisert for å finne eventuelle avvik, fjerne gjentagende og uriktig informasjon osv. Datarengjøring innebærer ikke å fjerne eksisterende informasjon fra databasen, det forbedrer bare datakvaliteten slik at den kan brukes til analyse .
Noen av de beste fremgangsmåtene for rengjøring av data inkluderer -
• Utvikle en datakvalitetsplan for å identifisere hvor maksimale datakvalitetsfeil oppstår, slik at du kan vurdere årsaken og planen i henhold til den.
• Følg en vanlig metode for å dokumentere nødvendig informasjon før den legges inn i informasjonen.
• Identifiser eventuelle duplikatdata og validerer nøyaktigheten til dataene, da dette vil spare mye tid under analysen.
• Sporing av alle forbedringsoperasjoner som er utført på informasjonen er utrolig nødvendig for at du skal gjenta eller ta bort alle operasjoner som nødvendig.

9.Hva er noen av de statistiske metodene som er nyttige for dataanalytiker?

Svar:
Statistiske metoder som er nyttige for dataforsker er
• Bayesisk metode
• Markov-prosess
• Romlige og klyngeprosesser
• Rangeringsstatistikk, percentil, detektering av outlier
• Imputasjonsteknikker osv.
• Simplex algoritme
• Matematisk optimalisering

10. Forklar hva som er imputasjon? Liste opp forskjellige typer imputasjonsteknikker? Hvilken imputasjonsmetode er gunstigere?

Svar:
Under imputasjon har vi en tendens til å erstatte manglende informasjon med substituerte verdier. Typene imputasjonsteknikker involverer er -
• Enkeltimputasjon: Enkel imputasjon angir at den manglende verdien erstattes av en verdi. I denne metoden blir prøvestørrelsen hentet.
• Hot-deck imputation: En manglende verdi blir tildelt fra en tilfeldig valgt lignende post ved bruk av stansekort
• Implementering av kaldt dekk: Den fungerer på samme måte som hot-deck imputation, men litt mer avansert og velger givere fra andre datasett
• Gjennomsnittlig imputasjon: Det innebærer å erstatte manglende verdi med de forutsagte verdiene til andre variabler.
• Regresjonsimpedasjon: Det innebærer å erstatte manglende verdi med de forutsagte verdiene til en viss verdi avhengig av andre variabler.
• Stokastisk regresjon: Det er det samme som regresjonsimputasjon, men den tilfører den vanlige regresjonsvariansen til regresjonsimputasjonen
• Flere imputasjoner: I motsetning til enkel imputasjon, estimerer flere imputasjoner verdiene flere ganger

Selv om enkelttilførsel er mye brukt, gjenspeiler den ikke usikkerheten som er skapt av manglende data tilfeldig. Så flere imputasjoner er gunstigere enn enkelt imputasjon i tilfelle data mangler tilfeldig.

Anbefalte artikler

Dette har vært en omfattende guide til intervjuspørsmål og svar på Data Analytics, slik at kandidaten lett kan slå sammen disse Data Analytics-intervjuspørsmålene. Du kan også se på følgende artikler for å lære mer -

  1. 10 nyttige smidige intervjuspørsmål og svar
  2. 8 fantastiske spørsmål om algoritmeintervju
  3. 25 viktigste spørsmål om datavitenskap
  4. 10 fantastiske spørsmål og svar på dataingeniørintervju