Hva er MapReduce i Hadoop
MapReduce er et rammeverk av Hadoop som brukes til å behandle parallelle enorme datamengder på store klynger med maskinvare på en pålitelig måte. Hadoop er et åpen kildekode-prosjekt levert av Apache-programvarestiftelsen. Hadoop pleide å utføre analyser raskt og pålitelig for både strukturerte data og ustrukturerte data. Hadoop kan håndtere veldig store datasett og som kan være både strukturerte data og ustrukturerte data, som faktisk er assosiert med big data. Hadoop-rammeverk som gjør at en applikasjon kan lagre dataene i en distribuert form og behandle store datasett på tvers av datamaskiner med en enkel programmeringsmodell, det er det Map Reduce. Så med andre ord kan vi kalle Map Reduce som en programmeringsmodell som brukes til prosessering enorme mengder data fordelt over antall klynger. Hadoop kan skalere opp fra enkle servere til tusenvis av databehandlingsnoder eller maskiner som hver bruker til beregning og lagring.
Apache Hadoop-prosjektet inneholder en rekke delprosjekter som:
- Hadoop Common: Hadoop Common som har verktøy som støtter de andre Hadoop-underprosjektene.
- Hadoop Distribuert filsystem (HDFS): Hadoop Distribuert filsystem gir tilgang til den distribuerte filen til applikasjonsdata.
- Hadoop MapReduce: Hadoop MapReduce er en programvareramme for behandling av store distribuerte datasett på dataklynger.
- Hadoop YARN: Hadoop YARN er et rammeverk for ressursstyring og planleggingsjobb.
Hvordan gjør MapReduce i Hadoop arbeid så enkelt?
MapReduce gjør det enkelt å skalere databehandling over hundrevis eller tusenvis av klyngemaskiner. MapReduce-modellen fungerer faktisk i to trinn som kalles kart og redusere, og behandlingen kalles henholdsvis mapper og redusering. Når vi har skrevet MapReduce for et program, er applikasjonen for å skalere opp for å kjøre over multipler eller til og med flere tusen klynger bare en konfigurasjonsendring. Denne funksjonen i MapReduce-modellen har tiltrukket seg mange programmerere å bruke den.
Hvordan MapReduce i Hadoop fungerer?
MapReduce-programmet kjøres hovedsakelig i fire trinn:
- Inndeling deles
- Kart
- Tilfeldig rekkefølge
- Redusere
Nå får vi se hvert trinn hvordan de fungerer.
1. Karttrinn-
Dette trinnet er kombinasjonen av inngangsdelingstrinnet og karttrinnet. I karttrinnet sendes kildefilen som linje for linje. Før inngangen går til Kartfunksjonsjobben, er inngangen delt i den lille faste størrelsen som kalles Input splits. Inndelingsdelingen er en del av inngangen som kan forbrukes av et enkelt kart. I karttrinnet blir hver delte data sendt til mapper-funksjonen, deretter behandler mapper-funksjonen dataene og deretter ut verdier. Generelt er kart- eller kartleggers jobbinputdata i form av en fil eller katalog som er lagret i Hadoop-filsystemet (HDFS).
2. Reduser trinn-
Dette trinnet er kombinasjonen av blande-trinnet og reduser. Reduser funksjonen eller reduserer jobben tar dataene som er resultatet av kartfunksjonen. Etter prosessering ved å redusere funksjonen produserer nytt sett med resultat som igjen lagrer tilbake i HDFS.
I et Hadoop-rammeverk er det ikke sikkert at hver klynge utfører hvilken jobb verken Kart eller Reduser eller begge Map og Reduce. Så forespørselen fra Kart og Reduser oppgaver bør sendes til de aktuelle serverne i klyngen. Hadoop-rammeverket i seg selv administrerer alle oppgavene med å utstede, verifisere ferdigstillelse av arbeid, hente data fra HDFS, kopiere data til klyngen av nodene og så alt. I Hadoop foregår det meste databehandlingen på noder sammen med data i selve noder som reduserer nettverkstrafikken.
Så MapReduce-rammeverket er veldig nyttig i Hadoop-rammeverket.
Fordeler med MapReduce
- Skalerbarhet - MapReduce gjør Hadoop til å være svært skalerbar fordi det gjør det mulig å lagre store datasett i distribusjonsform over flere servere. Ettersom den er distribuert over flere, kan den fungere parallelt.
- Kostnadseffektiv løsning - MapReduce gir en veldig kostnadseffektiv løsning for bedrifter som trenger å lagre voksende data og behandle dataene på en veldig kostnadseffektiv måte, som er dagens forretningsbehov.
- Fleksibilitet - MapReduce gjør Hadoop veldig fleksibel for forskjellige datakilder og til og med for forskjellige typer data som strukturerte eller ustrukturerte data. Så det gjør det veldig fleksibelt å få tilgang til strukturerte eller ustrukturerte data og behandle dem.
- Rask - Som Hadoop-lagringsdata i det distribuerte filsystemet, der lagring av dataene på den lokale disken til en klynge og MapReduce-programmene også generelt er lokalisert på de samme serverne, noe som gir raskere behandling av data som ikke trenger tilgang til dataene fra andre servere.
- Parallell behandling - Ettersom Hadoop lagringsdata i det distribuerte filsystemet og funksjonen til MapReduce-programmet er slik at det deler oppgaver oppgavekart og reduserer og som kan utføres parallelt. Og igjen på grunn av den parallelle utførelsen, reduserer det hele kjøretiden.
ferdigheter
Nødvendige ferdigheter for MapReduce i Hadoop er å ha god programmeringskunnskap om Java (obligatorisk), operativsystem Linux og kunnskap om SQL Queries.
Omfanget av MapReduce i Hadoop
MapReduce i Hadoop er et raskt voksende felt ettersom big data-feltet vokser, så omfanget av MapReduce i Hadoop er veldig lovende i fremtiden ettersom mengden av strukturerte og ustrukturerte data øker eksponentielt dag for dag. Plattformer på sosiale medier genererer mye ustrukturerte data som kan utvinnes for å få ekte innsikt i forskjellige domener.
Konklusjon
- MapReduce er et rammeverk av Hadoop som brukes til å behandle parallelle enorme datamengder på store klynger med maskinvare på en pålitelig måte.
- Apache Hadoop-prosjektet inneholder en rekke delprosjekter som Hadoop Common, Hadoop Distribuert File System (HDFS), Hadoop MapReduce, Hadoop YARN.
- I karttrinnet overføres hver delte data til kartleggingsfunksjonen, deretter behandler kartleggingsfunksjonen dataene og sender deretter ut verdier.
- Reduser funksjonen eller reduserer jobben tar dataene som er resultatet av kartfunksjonen.
- MapReduce fordelene som er oppført som skalerbarhet, kostnadseffektiv løsning, fleksibilitet, rask, parallell behandling.
Anbefalte artikler
Dette har vært en guide til Hva er MapReduce i Hadoop. Her diskuterte vi Komponenter, Arbeid, Ferdigheter, Karrierevekst og Fordeler ved MapReduce i Hadoop. Du kan også gå gjennom våre andre foreslåtte artikler for å lære mer
- Hva er en algoritme?
- Forskjeller mellom Hadoop vs MapReduce
- Hva er Azure?
- Hva er Big Data Technology?
- Slik fungerer MapReduce