Introduksjon til MapReduce intervjuspørsmål og svar

MapReduce er en enkel parallell dataprogrammeringsmodell designet for skalerbarhet og feiltoleranse. Vi kan si at MapReduce er et rammeverk, som bruker begrepet noder for å parallellisere problemene som oppstår i store datasett, hvis de er lokale nettverk, bruker den samme maskinvare, og hvis MapReduce er geografisk distribuert bruker den forskjellig maskinvare. MapReduce er hovedsakelig sammensatt av Map () -funksjonen og Reduce () -funksjonen. Det ble gjort populært av open source Hadoop-prosjektet.

Nedenfor er de 9 viktige MapReduce intervjuspørsmål og svar fra 2019:

Hvis du leter etter en jobb som er relatert til MapReduce, må du forberede deg på intervjuspørsmålene til MapReduce i 2019. Selv om hvert MapReduce-intervju er forskjellig, og omfanget av en jobb også er forskjellig, kan vi hjelpe deg med toppen MapReduce Interview Questions med svar, som vil hjelpe deg å ta spranget og få suksess i intervjuet.

Disse spørsmålene er delt inn i to deler er som følger:

Del 1 - MapReduce Interview Questions (Basic)

Denne første delen dekker grunnleggende MapReduce intervjuspørsmål og svar.

1. Hva er MapReduce?

Svar:
MapReduce er en enkel parallell dataprogrammeringsmodell designet for skalerbarhet og feiltoleranse. Med andre ord, det er et rammeverk som behandler parallelliserbare problemer i store datasett ved å bruke begrepet noder (antall datamaskiner) som igjen klassifiseres som klynger hvis det er et lokalt nettverk og bruker samme maskinvare eller rutenett hvis de er geografisk distribuert og bruke annen maskinvare. MapReduce består hovedsakelig av en Map () -funksjon og en Reduce () -funksjon. Det ble pioner av Google og behandler mange petabytes med data hver dag. Det ble gjort populært av open source Hadoop-prosjektet og brukes på Yahoo, Facebook og Amazon for å nevne noen.

2. Hva brukes MapReduce for-av selskap?

Svar:
Google
• Konstruksjon av indeks for Google-søk
Prosessen med å konstruere en posisjonsindeks eller ikke-posisjonsindeks kalles indekskonstruksjon eller indeksering. Rollen til MapReduce er Index Construction og er designet for store dataklynger. Hensikten med klyngen er å løse beregningsproblemer for noder eller datamaskiner som er bygd med standarddeler i stedet for en superdatamaskin.
• Artikkelklynger for Google Nyheter
For artikkelklynger blir sidene først klassifisert etter om de er nødvendige for klynging. Sider inneholder mye informasjon som ikke er nødvendig for klyngen. Deretter bringes artikkelen til sin vektorform basert på nøkkelord og vektingen den er gitt. Deretter blir de gruppert ved hjelp av algoritmer.
• Statistisk maskinoversettelse
Oversettelsen av tospråklige tekstkorpora ved analyse genererer statistiske modeller som oversetter et språk til et annet ved hjelp av vekter og er redusert til den mest sannsynlige oversettelsen.
Yahoo
• "Webkart" som driver Yahoo! Søk
I likhet med artikkelklynger for Google Nyheter, blir MapReduce brukt til å gruppere søkeutganger på Yahoo! Plattform.
• Spam Detection for Yahoo! Post
Facebook
•Datautvinning
Den nylige trenden med dataeksplosjon har resultert i behovet for sofistikerte metoder for å dele opp dataene i biter som lett kan brukes til neste trinn i analysen.
• d Optimalisering
• Spam Detection

La oss gå til de neste MapReduce Interview Questions.

3. Hva er MapReduce designmålene

Svar:
Skalerbarhet til store datamengder
Siden MapReduce er et rammeverk som er rettet mot å jobbe med parallelliserbare data ved å bruke begrepet noder som er antallet datamaskiner enten som klynger eller nett, er det skalerbart til et antall datamaskiner. Så et fremtredende designmål for MapReduce er at det er skalerbar til 1000 maskiner og så 10.000 disker.
Kostnadseffektivitet
Ettersom MapReduce fungerer med parallellisering av data ved noder eller antall datamaskiner, er følgende årsaker som gjør det kostnadseffektivt:
-Cheap varemaskiner i stedet for en superdatamaskin. Selv om de er billige er de upålitelige.
-Kompleksnettverk
-Automatisk feiltoleranse, dvs. færre administratorer er påkrevd.
-Det er enkelt å bruke, det vil si at det krever færre programmerere.

4. Hva er utfordringene med MapReduce?

Svar:
Dette er de vanlige MapReduce intervjuspørsmålene som stilles i et intervju. Hovedutfordringene til MapReduce er som følger:
-Cheap Nodes mislykkes, spesielt hvis du har mange
Gjennomsnittlig tid mellom feil for 1 node er lik 3 år. Gjennomsnittstiden mellom feil for 1000 noder er lik 1 dag. Løsningen er å bygge feiltoleranse inn i selve systemet.
-Nettighetsnettverk er lik eller innebærer lav båndbredde
Løsningen for en lav båndbredde er å skyve beregning til dataene.
-Programmering av distribuerte systemer er vanskelig
Løsningen for dette er at i henhold til den dataparallelle programmeringsmodellen, brukerne skriver "kart" og "reduserer" funksjoner. Systemet distribuerer arbeidet og håndterer feilene.

5. Hva er MapReduce-programmeringsmodellen?

Svar:
MapReduce programmeringsmodell er basert på et konsept kalt nøkkelverdi-poster. Det gir også paradigmer for parallell databehandling. For å behandle dataene i MapReduce, må både inndata og utdata kartlegges i formatet til flere nøkkelverdipar. Enkelt nøkkelverdipar blir også referert til som en post. MapReduce-programmeringsmodellen består av en Map () -funksjon og en Reduce-funksjon. Modellen for disse er som følger.
Kart () -funksjon: (K inn, V inn)  liste (K inter, V inter)
Reduser () -funksjon: (K inter, liste (V inter))  liste (K ut, V ut)

Del 2 - MapReduce Interview Questions (Advanced)

La oss nå se på de avanserte spørsmål om MapReduce-intervju.

6. Hva er MapReduce-kjøringsdetaljer?

Svar:
Når det gjelder MapReduce utførelse, kontrollerer en enkelt master utførelse av jobb på flere slaver. Kartleggere foretrekkes å plasseres på samme node eller samme rack som inngangsblokken slik at det minimerer nettverksbruken. Kartleggere lagrer også utdataene på den lokale disken før de serveres dem. Dette tillater utvinning hvis en redusering krasjer og tillater flere reduksjonsmaskiner enn noder.

7. Hva er en kombinator?

Svar:
Kombinatoren, som også er kjent som halvreduksjonsanordning, fungerer ved å akseptere innganger fra kartklassen og føre utgangsnøkkelverdiparene til reduksjonsklassen. Hovedfunksjonen til en kombinator er å oppsummere kartutgangsoppføringer med samme tast. Med andre ord er en kombinator en lokal aggregeringsfunksjon for gjentatte taster produsert av det samme kartet. Det fungerer for assosiative funksjoner som SUM, COUNT og MAX. Det reduserer størrelsen på mellomdataene fordi det er et sammendrag av aggregeringen av verdier for alle repeterende taster.

La oss gå til de neste MapReduce Interview Questions.

8.Hvorfor gris? Hvorfor ikke MapReduce?

Svar:
• MapReduce lar programmereren utføre en kartfunksjon etterfulgt av en reduksjonsfunksjon, men det kan være en utfordring å jobbe med hvordan du passer din databehandling i dette mønsteret, som ofte krever flere MapReduce-trinn.
• Med Pig er datastrukturene mye rikere, ettersom de er flervurdert og nestet, og settet med transformasjoner du kan bruke på dataene er mye kraftigere. For eksempel inkluderer de sammenføyninger som ikke er mulig i MapReduce.
• Pig er også et program som gjør transformasjonen om til en serie MapReduce Jobs.

9.MapReduce Kritikk

Svar:
En fremtredende kritikk av MapReduce er at utviklingssyklusen er veldig lang. Det er tidkrevende å skrive kortleggere og reduksjonsmaskiner, sammenstille og pakke koden, sende inn jobben og hente resultatene. Selv med streaming, som fjerner kompilering og pakke trinn, tar opplevelsen fortsatt lang tid.

Anbefalt artikkel

Dette har vært en guide til Liste over MapReduce intervjuspørsmål og svar, slik at kandidaten enkelt kan slå sammen disse MapReduce Interview Questions. Du kan også se på følgende artikler for å lære mer -

  1. Viktige Data Analytics-intervjuspørsmål
  2. 10 beste spørsmål om designmønster
  3. Elasticsearch intervjuspørsmål
  4. De fleste nyttige spørsmål om Ruby Interview
  5. Slik fungerer MapReduce