Introduksjon til Hadoop Ecosystem

Apache Hadoop er et åpen kildekode-system som pålitelig kan lagre og behandle mye informasjon på mange varedatamaskiner. Hadoop er først skrevet i en artikkel og utgitt i oktober 2013 som 'Google File System'. Doug Cutting, som jobbet i Yahoo på den tiden, introduserte navnet som Hadoop Ecosystem basert på sønnens leketøyselefantnavn. Hvis vi vurderer hovedkjernen i Apache Hadoop, kan den for det første ta i betraktning lagringsdelen, som er kjent som Hadoop Distribuerte filsystem (HDFS), og for det andre behandle delen, som kalles Map Reduce Programming module. Hadoop deler faktisk en enorm fil og lagrer dem i flere noder over hele klyngen.

Konseptet med Hadoop Ecosystem

Apache Hadoop rammeverk holder hovedsakelig under moduler:

  1. Hadoop Common: inneholder alle bibliotekene og verktøyene som trengs for å bruke Hadoop-modulen.
  2. Hadoop Distribuert filsystem (HDFS): Det er et av de distribuerte filsystemene som hjelper til med å lagre enorme data i flere maskiner eller varemaskiner. Gi også stor nytteverdi i tilfelle båndbredde, den ga normalt veldig høy båndbredde i en type aggregat på en klynge.
  3. Hadoop Yarn: Det introduserte i 2012. Det er hovedsakelig introdusert for å forvalte ressurser på alle systemene i vare selv i en klynge. Basert på ressursevnen distribuerte det eller planlegger brukerens applikasjon i henhold til krav.
  4. Hadoop MapReduce: Det hjelper hovedsakelig å behandle data i stor skala gjennom kartreduserende programmeringsmetodikk.

Apache Hadoop hjelper alltid med å redusere IT-kostnadene når det gjelder behandling og lagring av enorme data smart. Siden Apache Hadoop er en åpen kildekode og maskinvare er veldig ofte tilgjengelig, hjelper det oss alltid å håndtere en riktig reduksjon i IT-kostnadene.

Open Source Software + Commodity Hardware = IT Kostnadsreduksjon

Hvis vi for eksempel vil vurdere å motta 942787 filer og kataloger daglig, som krever 4077936 blokker, totalt 5020723 blokker. Så hvis vi konfigurerte minst 1, 46 PB-kapasitet, vil det distribuerte filsystemet bruke 1, 09 PB for håndtering over belastning, det vil si nesten 74, 85% av den totale konfigurerte kapasiteten, mens vi vurderer 178 levende noder og 24 døde noder.

Hadoop-økosystem hovedsakelig designet for lagring og behandling av big data, som normalt har noen viktige egenskaper som nedenfor:

  • Volum

Volumet står for størrelsen på data som faktisk lagret og generert. Avhengig av størrelsen på dataene det er bestemt at datasettet er big data eller ikke.

  • Variasjon

Variasjon står for naturen, strukturen og typen data som blir brukt.

  • Hastighet

Velocity står for hastigheten på data som er lagret og generert i en bestemt utviklingsprosessflyt.

  • sannferdighet

Veracity angir kvaliteten på dataene som er fanget, og hjelper også dataanalyse med å nå det tiltenkte målet.

HDFS er hovedsakelig designet for å lagre en veldig stor mengde informasjon (terabyte eller petabyte) på tvers av et stort antall maskiner i en klynge. Det opprettholder alltid noen vanlige kjennetegn, for eksempel datapålitelighet, kjøres på maskinvarevare, bruker blokker til å lagre en fil eller deler av den filen, bruker 'skriv en gang lest mange-modellen'.

HDFS følger arkitekturen nedenfor med konseptet Navnknute og Datanode.

Ansvarets navn Node (Master):

- administrerer filsystemets navneområde

- opprettholder klyngekonfigurasjonen

- Ansvarlig for replikasjonshåndtering

Ansvaret til Data Node (Slaves):

- Lagre data i det lokale filsystemet

- Rapporter regelmessig tilbake til navnet node ved hjelp av hjerteslag

HDFS skriveoperasjon:

Hadoop følger trinnene nedenfor for å skrive en hvilken som helst stor fil:

  1. Lag fil og oppdater FS-bildet etter å ha mottatt en forespørsel om filskriving fra en hvilken som helst HDFS-klient.
  2. Få informasjon om blokkeringsplassering eller datanodeinformasjon fra navneknuten.
  3. Skriv pakken på en individuell dataknute parallell måte.
  4. Erkjenn ferdigstillelse eller godta pakkeskriving og send informasjon tilbake til Hadoop-klienten.

HDFS Block Replication Pipeline:

  1. Klienten henter en liste over Datanodes fra Namenode som vil være vert for en kopi av den blokken
  2. Klienten skyller deretter datablokken til den første Datanode
  3. Den første Datanode mottar en blokk, skriver den og overfører den til neste dataknute i rørledningen
  4. Når alle kopier skrives, går klienten videre til neste blokk i filen

HDFS feiltoleranse:

Én dataknute har plutselig vært nede, i så fall har HDFS muligheten til å administrere dette scenariet automatisk. For det første mottas alltid alle navneknuter ett hjerterytme fra hver dataknute. Hvis det på en eller annen måte mistet ett hjerterytme fra en dataknute, med tanke på den samme dataknuten som nede, må du umiddelbart gjøre tiltak for å automatisk replikere alle blokkene på gjenværende noder umiddelbart for å tilfredsstille replikering faktor.

Hvis navneknuten oppdager en ny datanode som er tilgjengelig i klyngen, balanserer den umiddelbart alle blokkene inkludert den tilførte datanoden.

Nå liksom Navn tap tap eller mislyktes, i det tilfelle også backup node som holder ett FS-bilde av navn node spille av alle FS-operasjonen umiddelbart og opp navnet noden som per krav. Men i så fall kreves manuell intervensjon, og hele Hadoop-økosystemrammen vil være nede i et par ganger for å sette opp en ny navneknute igjen. Så i dette tilfellet kan navnnode være en enkeltpunktsvikt, for å unngå at dette scenariet HDFS Federation introduserer flere klynger satt opp med navneknute, og ZooKeeper kan administrere øyeblikkelig opp en alternativ navneknute i henhold til krav.

Eksempler på Hadoop Ecosystem

Full Hadoop-økosystemeksempel kan forklares riktig i figuren nedenfor:

Data kan komme fra alle slags kilder som Data Warehouse, Managed Document Repository, File Shares, Normal RDMS databasert, eller sky eller eksterne kilder. Alle disse dataene kom til HDFS på strukturert eller ikke-strukturert eller semistrukturert måte. HDFS lagrer alle disse dataene som en distribuert måte, betyr å lagre i distribuert varesystem veldig smart.

Konklusjon

Hadoop-økosystem hovedsakelig designet for lagring og prosessering av enorme data som burde ha presentert en av de to faktorene mellom volum, hastighet og variasjon. Den lagrer data i et distribuert prosesseringssystem som kjører på råvaremaskinvare. Tatt i betraktning hele Hadoop-økosystemprosessen, distribuerer HDFS datablokkene og Map Reduce gir programmeringsrammeverket for å lese data fra en fil som er lagret i HDFS.

Anbefalte artikler:

Dette har vært en guide til Hadoop Ecosystem. Her har vi diskutert det grunnleggende konseptet om Hadoop Ecosystem, det er arkitektur, HDFS-operasjoner, eksempler, HDFS feiltoleranse osv. Du kan også se på følgende artikler for å lære mer -

  1. Bruk av Hadoop i ekte verden
  2. Hadoop vs Splunk
  3. Karriere i Hadoop
  4. Hadoop vs SQL ytelse

Kategori: