Hva er Hadoop Streaming?

Hadoop streaming er et verktøy som leveres med Hadoop distribusjon som kan brukes til å utføre programmer for analyse av big data. Det er flere språk som kan brukes til å utføre dette som Java, Scala, Unix, Perl, Python og mange flere. Verktøyet hjelper oss med å opprette og kjøre kart redusere jobber med en kjørbar eller skript som mapper og / eller reduserer.

Definisjon

Det er en Hadoop distribusjon med verktøy. Verktøy hjelper oss med å opprette og kjøre spesifikke MapReduce-jobber med en kjørbar eller skriptet som mapper og / eller reduserer.

forståelse

Det er java-verktøy levert av Hadoop-distribusjonen som kalles Hadoop-streaming. Verktøyet er pakket i en JAR-fil. Ved hjelp av verktøyet kan vi opprette og kjøre MapReduce jobber med et kjørbart skript. Videre kan vi lage kjørbare skripter for å kjøre mapper- og reduseringsfunksjoner. De kjørbare skriptene blir sendt til Hadoop-streaming ved hjelp av en kommando. Etter at skriptene er sendt til Hadoop-streaming, oppretter Hadoop-streamingverktøyet et kart og reduserer jobber og sender dem til klyngen. Disse jobbene kan også overvåkes med dette verktøyet.

Hvordan virker det?

Skriptet som er spesifisert for mapper og reducer fungerer som nedenfor-

Etter fullstendig initialisering av mapper-skriptet, vil det starte forekomsten av skriptet med forskjellige prosess-ID-er. Kartleggingsoppgaven mens du kjører, tar inngangslinjene og sender den til standardinngangen. Samtidig samles inngangene fra prosessens standardutgang av kortleggeren. Den konverterer hver linje til et nøkkelverdipar. Settet med nøkkelverdipar blir deretter samlet som utdata fra kortet. Nøkkelverdiparet velges basert på det første fanetegnet. Delen av linjen fram til den første fanen velges som nøkkel mens resten av linjen er valgt som en verdifull del. I tilfelle fanen ikke er til stede i en linje, blir den totale linjen valgt som nøkkel, og det er ingen verdidel for linjen. Dette kan justeres i henhold til forretningsbehov.

Hensikt med å bruke Hadoop Streaming

Den brukes til sanntid inntak av data som kan brukes i forskjellige sanntidsapper. Det er forskjellige sanntidsapper som å se på aksjeporteføljer, dele markedsanalyse, fortelle værmelding, trafikkvarsler som gjøres ved hjelp av Hadoop-streaming.

Jobber med Hadoop Streaming

Nedenfor er et enkelt eksempel på hvordan Hadoop-streaming fungerer:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Inngangskommandoen brukes til å skaffe inngangskatalogen mens utkommandoen brukes til å gi utdatakatalogen. Map-kommandoen brukes til å spesifisere den kjørbare mapper-klassen, mens reduksjons-kommandoen brukes til å spesifisere den kjørbare reduksjonsklassen.

Fordeler med Hadoop Streaming

Nedenfor er fordelene med Hadoop-streaming:

1. Tilgjengelighet

Dette krever ingen ekstra separat programvare for å bli installert og administrert. Det er andre verktøy som en gris, bikube som kan installeres jeg trenger å bli administrert separat.

2. Læring

Det krever ikke å lære nye teknologier. Hadoop-streaming kan utnyttes med minimum Unix-ferdigheter for dataanalyse.

3. Reduser utviklingstiden

Det krever å skrive kort og reduseringskode mens du utvikler streamingapplikasjoner i Unix, mens det samme arbeidet med Java MapReduce-applikasjonen er mer komplisert og må sammenstilles først, deretter teste, deretter pakke, etterfulgt av eksportere JAR-fil og deretter kjøre.

4. Raskere konvertering

Det tar veldig lite tid å konvertere data fra ett format til et annet ved hjelp av Hadoop-streaming. Vi kan bruke den til å konvertere data fra tekstfil til sekvensfil og deretter igjen fra sekvensfil til tekstfil og mange andre. Dette kan oppnås ved å bruke inngangsformat og outputformatalternativer i Hadoop-streaming.

5. Testing

Inndata og utdata kan raskt testes ved å bruke Hadoop-streaming med Unix eller Shell Script.

6. Krav til virksomhet

For enkle forretningskrav som enkle filtreringsoperasjoner og enkel aggregeringsdrift, kan vi bruke dette med Unix.

7. Ytelse

Ved å bruke Hadoop-streaming kan vi få bedre ytelse mens vi jobber med streaming-data. Det er også flere ulemper med Hadoop-streaming som blir adressert ved å bruke andre verktøy i Hadoop-pakken som Kafka, flume, spark.

Hvorfor trenger vi Hadoop Streaming?

Det hjelper i sanntids dataanalyse som er mye raskere ved å bruke MapReduce-programmering som kjører på en multi-node klynge. Det er forskjellige teknologier som spark Kafka og andre som hjelper i sanntid Hadoop-streaming.

Hvordan denne teknologien vil hjelpe deg i karrierevekst?

I dag flytter alle større bedrifter til Hadoop for sin dataanalyse, og mange av dem kan kreve analyse av sanntidsdata. Etterspørselen etter bruk av sanntidsdata og behandling av den samme dag for dag, og denne teknologien skaper mye rom for individuell karrierevekst.

Konklusjon

Det gir et stort spekter av fordeler for forskjellige sanntids databehandlinger ved bruk av streamingdata.

Anbefalte artikler

Dette er en guide til Hadoop Streaming. Her diskuterer vi definisjonen, konseptet, fordeler og ulemper ved Hadoop Streaming. Du kan også gå gjennom andre foreslåtte artikler for å lære mer-

  1. Hva er Hadoop Cluster?
  2. Hva er datamining?
  3. Hva er datavisualisering
  4. Hva er datamodellering?
  5. Komplett guide til Kafka-verktøy

Kategori: