Introduksjon til Hadoop Tools

Hadoop Tools er rammeverket som brukes til å behandle en stor datamengde. Disse dataene distribueres på en klynge og distribuert databehandling gjøres. Dataene lagres i blokker med størrelse 128Mb og for å behandle og oppnå en resultatkraft av Map Reduce brukes. Tradisjonelt ble Map and Reduce skrevet i Java, men det var vanskelig å krysse av ressursene som arbeider i datavarehus, ettersom de ikke hadde erfaring med det. SQL er velkjent og er enkel å bruke, så ved å finne en måte å skrive en SQL på som et spørsmål som er konvertert til Map and Reduce, ble dette grunnlagt av Facebook og senere donert til Apache, dette verktøyet er kjent som Hive. Yahoo kom også opp med et verktøy som heter Pig som konverteres til Map Reduce ved utførelse, på samme måte har vi Sqoop og flume for databevegelse og injeksjonsverktøy. HBase er et databasehåndteringssystemverktøy.

Funksjoner ved Hadoop Tools

  1. Hive
  2. Gris
  3. Sqoop
  4. HBase
  5. Dyrepasser
  6. Flume

Nå får vi se funksjonene med en kort forklaring.

1. Hive

Apache Hive ble grunnlagt av Facebook og senere donert til Apache foundation som er et datavarehusinfrastruktur, det letter det å skrive SQL som Query kalt HQL eller HiveQL. Disse spørsmålene konverteres internt til Map Reduce-jobber, og behandlingen gjøres ved å bruke Hadoops distribuerte databehandling. Den kan behandle dataene som ligger i HDFS, S3 og all lagring som er kompatibel med Hadoop. Vi kan utnytte fasilitetene som tilbys av Map Reduce når vi finner noe vanskelig å implementere i Hive ved å implementere i brukerdefinerte funksjoner. Det gjør det mulig for brukeren å registrere UDF-er og bruke dem i jobbene.

Funksjoner av Hive

  • Hive kan behandle mange typer filformater som Sequence File, ORC File, TextFile, etc.
  • Partisjonering, bucketing og indeksering er tilgjengelig for raskere utførelse.
  • Komprimerte data kan også lastes inn i en bikubetabell.
  • Administrerte eller interne tabeller og eksterne tabeller er de fremtredende funksjonene i Hive.

2. Gris

Yahoo utviklet Apache Pig for å ha et ekstra verktøy for å styrke Hadoop ved å ha en ad-hoc måte å implementere Map Reduce. Pig har en motor som heter Pig Engine som konverterer skript til Map Reduce. Pig er et skriptspråk, skriptene som er skrevet for Pig er i PigLatin, akkurat som Hive også her kan vi ha UDF for å forbedre funksjonaliteten. Oppgaver i gris blir optimalisert automatisk slik at programmerere ikke trenger å bekymre seg for det. Pig Håndterer både strukturerte og ustrukturerte data.

Funksjoner av Pig

  • Brukere kan ha sine egne funksjoner for å gjøre en spesiell type databehandling.
  • Det er enkelt å skrive koder i Pig relativt, også lengden på koden er mindre.
  • Systemet kan automatisk optimalisere utførelsen.

3. Sqoop

Sqoop brukes til å overføre data fra HDFS til RDBMS og omvendt. Vi kan trekke dataene til HDFS fra RDBMS, Hive, etc., og vi kan behandle og eksportere dem tilbake til RDBMS. Vi kan legge til dataene mange ganger i en tabell, vi kan også opprette en Sqoop-jobb og utføre den 'n' antall ganger.

Funksjoner av Sqoop

  • Sqoop kan importere alle tabeller samtidig til HDFS.
  • Vi kan legge inn SQL-spørringer, så vel som betingelser for import av data.
  • Vi kan importere data til bikube hvis det finnes en tabell fra HDFS.
  • Antall kartleggere kan kontrolleres, dvs. parallell utførelse kan kontrolleres ved å spesifisere antall kartleggere.

4. HBase

Databasestyringssystemet på toppen av HDFS kalles HBase. HBase er en NoSQL-database som er utviklet på toppen av HDFS. HBase er ikke en relasjonsdatabase, den støtter ikke strukturerte spørrespråk. HBase benytter distribuert prosessering av HDFS. Den kan ha store tabeller med millioner og millioner poster.

Funksjoner av HBase

  • HBase gir skalerbarhet i både lineær og modulær.
  • API-er i JAVA kan brukes for klienttilgang.
  • HBase gir et skall for å utføre spørsmål.

5. Zookeeper

Apache Zookeeper er en sentralisert konfigurasjonsvedlikeholdstjeneste, den holder oversikt over informasjon, navngiving, den gir også distribuert synkronisering og gruppetjenester. Zookeeper er et sentralisert depot som brukes av distribuerte applikasjoner for å legge inn og få data om det. Det hjelper også med å håndtere noder, dvs. å bli med eller legge igjen en node i klyngen. Det gir et svært pålitelig dataregister når få av nodene er nede.

Funksjoner av Zookeeper

  • Ytelsen kan økes ved å fordele oppgavene som oppnås ved å legge til flere maskiner.
  • Det skjuler distribusjonenes kompleksitet og fremstiller seg selv som en enkelt maskin.
  • Svikt i noen få systemer påvirker ikke hele systemet, men ulempen er at det kan føre til delvis datatap.
  • Det gir Atomicity, dvs. at transaksjonen enten er vellykket eller mislyktes, men ikke i en ufullkommen tilstand.

6. Flume

Apache Flume er et verktøy som gir inntak av data, som kan samle, samle og transportere en enorm mengde data fra forskjellige kilder til en HDFS, HBase, etc. Flume er veldig pålitelig og kan konfigureres. Den ble designet for å innta strømningsdata fra webserveren eller hendelsesdata til HDFS, for eksempel kan den innta twitterdata til HDFS. Flume kan lagre data til hvilken som helst av de sentraliserte datalagrene som HBase / HDFS. Hvis det er en situasjon hvor dataene som produseres har en høyere hastighet sammenlignet med hastigheten på dataene kan skrives, fungerer flume som en mekler og sikrer at data flyter jevnlig.

Funksjoner av Flume

  • Den kan inneholde data fra webservere sammen med hendelsesdata som data fra sosiale medier.
  • Flume-transaksjoner er kanalbasert, det vil si at to meldinger opprettholdes, en er for sending og en er for mottak.
  • Horisontal skalering er mulig i en flume.
  • Det er sterkt forkastet tolerant da kontekstuell ruting er til stede i en flume.

Konklusjon - Hadoop Tools

Her i denne artikkelen har vi lært om noen få av Hadoop-verktøyene og hvordan de er nyttige i dataverdenen. Vi har sett Hive and Pig som brukes til å spørre og analysere data, sqoop for å flytte data og flume for å innta strømningsdata til HDFS.

Anbefalte artikler

Dette har vært en guide til Hadoop Tools. Her diskuterer vi forskjellige verktøy fra Hadoop med funksjonene deres. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Hadoop-alternativer
  2. Hadoop-databasen
  3. SQL-strengfunksjoner
  4. Hva er Big Data

Kategori: