Hadoop Tools - Lær de forskjellige verktøyene i Hadoop med sine funksjoner

Introduksjon til Hadoop Tools

Hadoop Tools er rammeverket som brukes til å behandle en stor datamengde. Disse dataene distribueres på en klynge og distribuert databehandling gjøres. Dataene lagres i blokker med størrelse 128Mb og for å behandle og oppnå en resultatkraft av Map Reduce brukes. Tradisjonelt ble Map and Reduce skrevet i Java, men det var vanskelig å krysse av ressursene som arbeider i datavarehus, ettersom de ikke hadde erfaring med det. SQL er velkjent og er enkel å bruke, så ved å finne en måte å skrive en SQL på som et spørsmål som er konvertert til Map and Reduce, ble dette grunnlagt av Facebook og senere donert til Apache, dette verktøyet er kjent som Hive. Yahoo kom også opp med et verktøy som heter Pig som konverteres til Map Reduce ved utførelse, på samme måte har vi Sqoop og flume for databevegelse og injeksjonsverktøy. HBase er et databasehåndteringssystemverktøy.

Funksjoner ved Hadoop Tools

Hive
Gris
Sqoop
HBase
Dyrepasser
Flume

Nå får vi se funksjonene med en kort forklaring.

1. Hive

Apache Hive ble grunnlagt av Facebook og senere donert til Apache foundation som er et datavarehusinfrastruktur, det letter det å skrive SQL som Query kalt HQL eller HiveQL. Disse spørsmålene konverteres internt til Map Reduce-jobber, og behandlingen gjøres ved å bruke Hadoops distribuerte databehandling. Den kan behandle dataene som ligger i HDFS, S3 og all lagring som er kompatibel med Hadoop. Vi kan utnytte fasilitetene som tilbys av Map Reduce når vi finner noe vanskelig å implementere i Hive ved å implementere i brukerdefinerte funksjoner. Det gjør det mulig for brukeren å registrere UDF-er og bruke dem i jobbene.

Funksjoner av Hive

Hive kan behandle mange typer filformater som Sequence File, ORC File, TextFile, etc.
Partisjonering, bucketing og indeksering er tilgjengelig for raskere utførelse.
Komprimerte data kan også lastes inn i en bikubetabell.
Administrerte eller interne tabeller og eksterne tabeller er de fremtredende funksjonene i Hive.

2. Gris

Yahoo utviklet Apache Pig for å ha et ekstra verktøy for å styrke Hadoop ved å ha en ad-hoc måte å implementere Map Reduce. Pig har en motor som heter Pig Engine som konverterer skript til Map Reduce. Pig er et skriptspråk, skriptene som er skrevet for Pig er i PigLatin, akkurat som Hive også her kan vi ha UDF for å forbedre funksjonaliteten. Oppgaver i gris blir optimalisert automatisk slik at programmerere ikke trenger å bekymre seg for det. Pig Håndterer både strukturerte og ustrukturerte data.

Funksjoner av Pig

Brukere kan ha sine egne funksjoner for å gjøre en spesiell type databehandling.
Det er enkelt å skrive koder i Pig relativt, også lengden på koden er mindre.
Systemet kan automatisk optimalisere utførelsen.

3. Sqoop

Sqoop brukes til å overføre data fra HDFS til RDBMS og omvendt. Vi kan trekke dataene til HDFS fra RDBMS, Hive, etc., og vi kan behandle og eksportere dem tilbake til RDBMS. Vi kan legge til dataene mange ganger i en tabell, vi kan også opprette en Sqoop-jobb og utføre den 'n' antall ganger.

Funksjoner av Sqoop

Sqoop kan importere alle tabeller samtidig til HDFS.
Vi kan legge inn SQL-spørringer, så vel som betingelser for import av data.
Vi kan importere data til bikube hvis det finnes en tabell fra HDFS.
Antall kartleggere kan kontrolleres, dvs. parallell utførelse kan kontrolleres ved å spesifisere antall kartleggere.

4. HBase

Databasestyringssystemet på toppen av HDFS kalles HBase. HBase er en NoSQL-database som er utviklet på toppen av HDFS. HBase er ikke en relasjonsdatabase, den støtter ikke strukturerte spørrespråk. HBase benytter distribuert prosessering av HDFS. Den kan ha store tabeller med millioner og millioner poster.

Funksjoner av HBase

HBase gir skalerbarhet i både lineær og modulær.
API-er i JAVA kan brukes for klienttilgang.
HBase gir et skall for å utføre spørsmål.

5. Zookeeper

Apache Zookeeper er en sentralisert konfigurasjonsvedlikeholdstjeneste, den holder oversikt over informasjon, navngiving, den gir også distribuert synkronisering og gruppetjenester. Zookeeper er et sentralisert depot som brukes av distribuerte applikasjoner for å legge inn og få data om det. Det hjelper også med å håndtere noder, dvs. å bli med eller legge igjen en node i klyngen. Det gir et svært pålitelig dataregister når få av nodene er nede.

Funksjoner av Zookeeper

Ytelsen kan økes ved å fordele oppgavene som oppnås ved å legge til flere maskiner.
Det skjuler distribusjonenes kompleksitet og fremstiller seg selv som en enkelt maskin.
Svikt i noen få systemer påvirker ikke hele systemet, men ulempen er at det kan føre til delvis datatap.
Det gir Atomicity, dvs. at transaksjonen enten er vellykket eller mislyktes, men ikke i en ufullkommen tilstand.

6. Flume

Apache Flume er et verktøy som gir inntak av data, som kan samle, samle og transportere en enorm mengde data fra forskjellige kilder til en HDFS, HBase, etc. Flume er veldig pålitelig og kan konfigureres. Den ble designet for å innta strømningsdata fra webserveren eller hendelsesdata til HDFS, for eksempel kan den innta twitterdata til HDFS. Flume kan lagre data til hvilken som helst av de sentraliserte datalagrene som HBase / HDFS. Hvis det er en situasjon hvor dataene som produseres har en høyere hastighet sammenlignet med hastigheten på dataene kan skrives, fungerer flume som en mekler og sikrer at data flyter jevnlig.

Funksjoner av Flume

Den kan inneholde data fra webservere sammen med hendelsesdata som data fra sosiale medier.
Flume-transaksjoner er kanalbasert, det vil si at to meldinger opprettholdes, en er for sending og en er for mottak.
Horisontal skalering er mulig i en flume.
Det er sterkt forkastet tolerant da kontekstuell ruting er til stede i en flume.

Konklusjon - Hadoop Tools

Her i denne artikkelen har vi lært om noen få av Hadoop-verktøyene og hvordan de er nyttige i dataverdenen. Vi har sett Hive and Pig som brukes til å spørre og analysere data, sqoop for å flytte data og flume for å innta strømningsdata til HDFS.

Anbefalte artikler

Dette har vært en guide til Hadoop Tools. Her diskuterer vi forskjellige verktøy fra Hadoop med funksjonene deres. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

Hadoop-alternativer
Hadoop-databasen
SQL-strengfunksjoner
Hva er Big Data

Hadoop Tools - Lær de forskjellige verktøyene i Hadoop med sine funksjoner

Innholdsfortegnelse:

Introduksjon til Hadoop Tools

Funksjoner ved Hadoop Tools

1. Hive

2. Gris

3. Sqoop

4. HBase

5. Zookeeper

6. Flume

Konklusjon - Hadoop Tools

Anbefalte artikler

Tennskallkommandoer - Lær hva slags tennskall-kommandoer

Spark SQL Dataframe - Opprette Dataframe ved hjelp av to viktige metoder

Spark SQL vs Presto - Finn ut den 7 nyttige sammenligningen

Gniststreaming - Omfattende guide til gniststreaming

Gnistfaser - Lær typene og fordelene med gnistfaser

Scrum vs Foss - Topp 12 store forskjeller du må vite

Topp 10 spørsmål og svar på SDLC-intervju (Oppdatert for 2019)

SDLC vs Agile - 9 mest verdifulle forskjeller du bør vite

Forseglet klasse i C # - Forseglede metoder i C # med programmeringskoder

Søkemotoroptimalisering (seo) - Guide - Grunnleggende om SEO

Histogram i R - Hvordan lage et histogram i R med eksempler

12 beste måter å skille seg ut i ansettelsesprosessen (prosedyrer)

Høy lav metode - Beregn variabel kostnad per enhet og fast kostnad

Hive Arkitektur - Arbeidsflyt og komponenter av Hive Architecture

Hive innebygde funksjoner - Lær de forhåndsdefinerte innebygde funksjonene