Introduksjon til Hadoop Alternatives

Apache Hadoop er et uhyrlig rammeverk som bruker flere andre komponenter som HDFS, Hive, Spark, YARN og Zookeeper. Den brukes til å behandle og analysere data hentet fra interne eller eksterne kilder. Det kan skalere fra flere maskiner eller servere til tusenvis av dem. Det er mange innebygde bibliotekfunksjoner som kan oppdage og håndtere funksjonsfeil.

Komponenter av Hadoop

1) Hadoop Distribuert filsystem (HDFS):

Dette er lagringstanken med data i Hadoop. Det fungerer på prinsippet om distribuert data, der enorme datasett blir brutt i små deler og lagret på flere maskiner i en klynge.

2) MapReduce:

Det er en programmeringsmodell for å utføre analyser på en parallell måte på dataene som ligger i forskjellige noder i en klynge.

3) bikube:

Et rammeverk med åpen kildekode som brukes til å spørre om strukturerte data ved hjelp av et Hive-Query-språk. Indekseringsfunksjonen brukes til å akselerere spørringsprosessen.

4) Ambari:

En plattform for å overvåke klynghelse og automatisere operasjoner. Den har en enkel Web UI og kan enkelt installeres og konfigureres.

Liste over Hadoop-alternativer

Nedenfor er de forskjellige Hadoop-alternativene som er som følger:

Batchbehandling

Her utføres behandlingen bare på arkivdataene. For eksempel er økonomiske revisjoner og folketelling en analyse gjort på gamle data for å gi en bedre prediksjon av fremtidige resultater. Disse dataene kan inneholde milliarder av rader og kolonner. Batch-prosessering er best egnet for stor databehandling uten behov for sanntidsanalyse.

Sanntidsbehandling

Det er også kjent som Stream-prosessering. Her blir dataene behandlet fra tid til annen når de blir generert for å gi en rask innsikt i de sannsynlige resultatene. Jordskjelvsgjenkjenning og aksjemarkeder er de beste eksemplene der sanntidsanalyse er et must.

Apache Spark

Spark er et rammeverk som brukes sammen med Hadoop for å behandle batch- eller sanntidsdata på grupperte maskiner. Det kan også brukes som frittstående, hente og lagre data i tredjepartsservere uten å bruke HDFS. Det er et åpen kildekode-produkt. Den gir APIer som er skrevet med SCALA, R eller Python som støtter generell behandling. For å behandle strukturerte data, kan Spark-SQL brukes. Spark Streaming utfører sårt tiltrengt analyse i sanntid. Spark gir støtte til maskinlæring ved bruk av MLIB. Til slutt kan de behandlede dataene vises ved hjelp av Graphix.

Den mest bemerkelsesverdige funksjonen ved Spark er In-Memory-prosessering. Hele behandlingen av dataene foregår i minnet og ikke på disken. Denne metoden sparer lese-skrivetiden for inngangen til disken og utdataene fra den. Gnist er lynraskt og er nesten 100 ganger raskere enn Hadoop-prosessering. Hele funksjonen er definert og sendt til gnistkonteksten. Bare da begynner behandlingen fra bunnen av. Denne metoden er kjent som Lazy -ecution. Kafka, Flume brukes som innganger for strømming av data. Strukturerte eller ustrukturerte data kan brukes av Spark til analyse. Datastrømmer er en haug med data for et gitt tidsintervall i Spark Streaming. De blir konvertert til partier og sendt til Spark Engine for behandling. Strukturerte data konverteres til datarammer før du bruker Spark-SQL for videre analyse.

Apache Storm

Apache Storm er også et av alternativene til Hadoop som er best egnet for distribuert, sanntidsanalyse. Det er enkelt å sette opp, brukervennlig og gir ingen tap av data. En storm har veldig høy prosessorkraft og gir lav latenstid (vanligvis i løpet av sekunder) sammenlignet med Hadoop.

Vi vil se nærmere på arbeidsflyten til Storm:

  • Stormtopologien (ligner en DAG, men en fysisk utførelsesplan) blir sendt til Nimbus (Master Node).
  • Oppgavene og rekkefølgen det skal utføres, sendes til Nimbus.
  • Nimbus distribuerer jevnlig de tilgjengelige oppgavene til veilederne (tuterne), og prosessen blir utført av Worker Nodes (Bolts).
  • Helsen til tuter og bolter blir kontinuerlig overvåket gjennom hjerteslag. Når veileder dør tildeler Nimbus oppgaven til en annen nod.
  • Hvis Nimbus dør, blir den automatisk startet på nytt av overvåkningsverktøyene. I mellomtiden fortsetter veilederne å utføre oppgavene sine som ble tildelt tidligere.
  • Når Nimbus er startet på nytt fortsetter den å fungere der den stoppet. Derfor er det ikke noe tap av data, og hver data går gjennom topologien minst en gang.
  • Topologien fortsetter å løpe med mindre Nimbus er avsluttet eller med kraft avstenging.
  • Storm benytter seg av Zookeeper for å overvåke Nimbus og de andre tilsynsnodene.

Stor spørring

Databaser brukes til transaksjonsbehandling. Lederne lager rapporter og analyserer dataene fra forskjellige databaser. Datavarehus ble introdusert for å hente data fra flere databaser over hele organisasjonen. Google utviklet Big query, som er et datavarehus som administreres av sitt eget. For å håndtere veldig komplekse spørsmål kan det hende at du trenger servere og node-maskiner med svært god ytelse som kan koste enormt. Installasjonen av infrastrukturen kan ta opptil flere uker. Når den maksimale terskelen er nådd, må den skaleres opp. For å overvinne disse problemene gir Big spørring lagring i form av Google-skyen. Arbeidernodene skaler opp til størrelsen på et datasenter om nødvendig for å utføre en kompleks spørring i løpet av sekunder. Du betaler for det du bruker, dvs. spørringen. Google tar seg av ressursene og vedlikehold og sikkerhet. Det kan ta minutter til timer å kjøre spørsmål på vanlige databaser. Stor spørring behandler data mye raskere, og det er hovedsakelig egnet for strømming av data som online spill og Internet of Things (IoT). Behandlingshastigheten er så høy som milliarder av rader på et sekund.

Presto

Et Presto-spørsmål kan brukes til å kombinere data fra forskjellige kilder over hele organisasjonen og analysere dem. Dataene kan være bosatt i Hive, RDBMS eller Cassandra. Presto er best egnet for analytikere som forventer hele spørringsrapporten i løpet av få minutter. Arkitekturen er analog med et klassisk databasesystem med bruk av flere noder i en klynge. Den ble utviklet av Facebook for å utføre analyse og finne innsikt fra deres interne data, inkludert 300PB-datavarehuset. Mer enn 30 000 spørringer kjøres på dataene sine for å skanne over en petabyte per dag. Andre ledende selskaper som Airbnb og Dropbox benytter seg av Presto også.

Anbefalt artikkel

Dette har vært en guide til Hadoop Alternatives. Her diskuterer vi komponentene i Hadoop, batchbehandling og sanntidsbehandling av Hadoop-alternativer. Du kan også se på følgende artikler for å lære mer:

  1. Hadoop administratorjobber
  2. Hadoop vs SQL ytelse
  3. Karriere i Hadoop
  4. Hadoop vs Spark
  5. Hadoop Administrator | Ferdigheter og karrierevei

Kategori: