Finn ut de beste 5 forskjellene mellom Hadoop vs MapReduce

Forskjellen mellom Hadoop og MapReduce

Røttene til Hadoop går helt tilbake til år 2002 da Dough Cutting jobbet med et open source-prosjekt med navnet Nutch (som ble brukt til å indeksere websidene og bruke de indekserte websidene for å søke, det samme som Google gjør). Han sto overfor skalerbarhetsproblemer både når det gjelder lagring og databehandling. I 2003 publiserte Google GFS (google file system) og i 2004 opprettet Nutch NDFS (Nutch distribuert filsystem). Etter at Google kunngjorde MapReduce som sin beregningshjerne bak sorteringsalgoritmene, kunne Dough kjøre Nutch på NDFS og brukte MapReduce i 2005 og i 2006 ble Hadoop født.

Hadoop og MapReduce! Hadoop er et økosystem av open source prosjekter som Hadoop Common, Hadoop distribuert filsystem (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop er som sådan en åpen kildekode for lagring og prosessering av enorme datasett. Lagringen utføres av HDFS og behandlingen blir ivaretatt av MapReduce. MapReduce er derimot en programmeringsmodell som lar deg behandle enorme data lagret i Hadoop. La oss forstå Hadoop og MapReduce i en detalj i dette innlegget.

Sammenligning av topp mot hode mellom Hadoop Vs MapReduce (Infographics)

Nedenfor er Topp 5-sammenligningen mellom Hadoop vs MapReduce

Viktige forskjeller mellom Hadoop vs MapReduce

Følgende er forskjellen mellom Hadoop og MapReduce

Hvis vi ønsker å differensiere Hadoop og MapReduce i lekmannsbetingelser, kan vi si det, Hadoop er som bilen der du har alt som trengs for å reise avstander, men MapReduce er som bilen på bilen, så uten bilen kan en motor " t eksisterer, men utsiden av bilen kan endres (andre DFS (distribuerte filsystemer)).
Den grunnleggende ideen bak Hadoop er at dataene må være pålitelige og skalerbare, pålitelige som i tilfelle en katastrofe eller nettverkssvikt dataene må være tilgjengelige hele tiden, og dette oppnås ved Hadoops rammer ved hjelp av Navnekoder og Datanoder.
Noen grunnleggende ideer om datakoder og navnekoder

Den grunnleggende ideen bak arkitekturen til Data Node og Name Node er master / slave-arkitekturen der den ene lagrer plasseringen av dataene (Name Node) og den andre lagrer selve dataene (Data Node). Dataene blir delt opp i biter på 64 MB og lagret i datablokkene, og registeret for disse opprettholdes ved Navneknute. Dataene er replikert tre ganger som standard for pålitelighet. Når vi snakker om skalerbarheten, kan maskinvaren økes mens du er på farten, og dette bidrar til å øke lagringsplassen og gjøre systemet skalerbart.
Nå som kommer til MapReduce er det tre faser
1. Kartfase
2. Bland fasen
3. Reduser fase

La oss ta et eksempel for å forstå det bedre. MapReduce å være et programmeringsrammeverk har også et hallo verdensprogram, men det er kjent som ordtellingsprogram i MapReduce.

Word Count-programmet gir oss nøkkelverdiparene for ordet og dets frekvens i et avsnitt / artikkel eller en hvilken som helst datakilde. For å være i stand til å forstå det enkelt, la oss ta følgende som eksempeldata.

I datasettet som vi kan se har vi tre ord buss, bil og tog. Kolonnen som heter Input har dataene som vi har i datasettet, kolonnen Output har dataene i mellomtrinnet hvor blandingen vil finne sted.

Her tar vi splitteren som komma (, ) for å dele ordene. Deleren kan være komma eller mellomrom eller en ny linje osv.

Input

Datasett

caR, BIL, bil, buss, tog, buss, tog, buss, tog, buss, buS, bil, buss, bil, tog, bil, buss, bil

Produksjon

Konverter til et annet sett med data

(Key, verdi)

(Buss, 1), (Bil, 1), (buss, 1), (bil, 1), (tog, 1),

(bil, 1), (buss, 1), (bil, 1), (tog, 1), (buss, 1),

(TRAIN, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(bil, 1), (BUS, 1), (TRAIN, 1)

Og resultatet fra ovennevnte mellomtrinn er gitt til reduksjonsenheten, og nedenfor er den endelige utgangen av programmet.

Input

(utgang av kartfunksjon)

Sett med tuples

(Buss, 1), (Bil, 1), (buss, 1), (bil, 1), (tog, 1),

(bil, 1), (buss, 1), (bil, 1), (tog, 1), (buss, 1),

(TRAIN, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(bil, 1), (BUS, 1), (TRAIN, 1)

Produksjon

Konverterer til et mindre sett med tuples

(BUS, 7),

(CAR, 7),

(TOG, 4)

En av nøkkelforskjellene til Hadoop med andre store databehandlingsrammer er at Hadoop sender koden (MapReduce-kode) til klyngene der dataene er lagret i stedet for å sende dataene til kode, slik datasettene vil være i TB eller noen ganger i PB-er det vil være en kjedelig oppgave å gjøre.

Hadoop vs MapReduce Comparision Table

Grunnlag for sammenligning	Hadoop	Kart reduksjon
Betydning	Navnet “Hadoop” var navnet på leketøyfilen til sønnen til Doug Cutting. Han kalte dette prosjektet som “Hadoop”, fordi det var lett å uttale det.	Navnet "MapReduce" kom til i henhold til funksjonaliteten i å kartlegge og redusere i nøkkelverdipar.
Konsept	Apache Hadoop er et økosystem som gir et miljø som er pålitelig, skalerbart og klart for distribuert databehandling.	MapReduce er en submodule av dette prosjektet som er en programmeringsmodell og brukes til å behandle enorme datasett som sitter på HDFS (Hadoop distribuert filsystem).
Forutsetninger	Hadoop kjører på implementeringer HDFS (Hadoop Distribuert filsystem)	MapReduce kan kjøres på HDFS / GFS / NDFS eller et hvilket som helst annet distribuert filsystem, for eksempel MapR-FS
Språk	Hadoop er en samling av alle moduler, og kan derfor også omfatte andre programmerings- / skriptspråk	MapReduce er i utgangspunktet skrevet på Java-programmeringsspråk
Work	Hadoop har ikke bare lagringsrammer som lagrer dataene, men oppretter navnnoder og datanoder, den har også andre rammer som inkluderer MapReduce selv.	MapReduce er et programmeringsrammeverk som bruker en nøkkelverdikartlegging for å sortere / behandle dataene

Figuren nedenfor vil hjelpe til med å skille MapReduce fra Hadoop.

MapReduce Framework

Som vi ser av bildet over, at MapReduce er et distribuert prosesseringsramme, mens Hadoop er en samling av alle rammer.

Konklusjon - Hadoop vs MapReduce

Hadoop som åpen kildekode fikk popularitet da det var gratis å bruke, og programmererne kan endre koden i henhold til deres behov. Hadoop Eco-system ble utviklet kontinuerlig i løpet av de siste årene for å gjøre Eco-systemet så feilfritt som mulig.

Med verdens stadig skiftende behov endres teknologien raskt, og det blir vanskelig å følge med på endringene. Dataene som blir generert på en måned blir doblet / tredoblet når du leser denne artikkelen, og behovet for raskere behandling av datasett førte til mange andre programmeringsrammer som MapReduce 2, Spark etc.

Anbefalte artikler

Dette har vært en guide til Hadoop vs MapReduce, deres betydning, sammenligning mellom hodet og hodet, viktige forskjeller, sammenligningstabell og konklusjon. Du kan også se på følgende artikler for å lære mer -