Hva er en bikube?

Apache Hive er et datavarehussystem designet oppå open source Hadoop-plattformen og brukes til datasammendrag, spørring av store data, dataanalyse, etc.

Hiven ble utviklet av Facebook og på et senere tidspunkt ble den overtatt av Apache Software Foundation som videreutviklet den som en åpen kildekode under navnet Apache Hive.

Definisjon:

Det er ikke en relasjonsdatabase, og det er derfor ikke egnet for online transaksjonsbehandling og sanntidsspørsmål med radnivåoppdateringer. Hive er designet for online analytisk prosessering eller OLAP. Det gir også et spørrespråk som heter HiveQL. Den er skalerbar, rask og utvidbar. Den konverterer spørsmålene som ser nesten ut som SQL til MapReduce jobber for enkel utføring og behandling av en stor datamengde. Apache-bikube er en av Hadoop-komponentene som vanligvis brukes av dataanalytikere, mens apache-gris også brukes til samme oppgave, men den brukes mer av forskere og programmerere. Apache hive som er et open source datavarehussystem brukes til å spørre og analysere enorme datasett som er lagret i Hadoop-lagring. Hive er best egnet for batchjobber og ikke for online transaksjonsprosesseringsarbeidstyper. Det støtter heller ikke sanntidsspørsmål. Hive bruker SQL som spørrespråk og brukes hovedsakelig for å lage rapporter. Hive er vanligvis distribuert på serversiden, og den støtter strukturerte data. Hive støtter også integrasjon med JDBC og BI-verktøy.

Forstå Hive:

Nedenfor er de viktigste komponentene i bikuben:

Meta Store:

Depotet som lagrer metadataene kalles metoden butikk. Metadataene består av forskjellige data om tabellene som deres beliggenhet, skjema, informasjon om partisjonene som hjelper til med å overvåke forskjellige distribuerte dataforløp i klyngen. Den holder også oversikt over dataene og repliserer dataene som gir en sikkerhetskopi i tilfelle nødsituasjoner som tap av data. Metadatainformasjonen er til stede i relasjonsdatabaser og ikke i Hadoop-filsystemet.

Sjåfør:

Ved utførelse av Hive-spørrespråket, mottar driveren uttalelsen, og den kontrollerer den i hele utførelsessyklusen. Sammen med utførelsen av uttalelsen lagrer sjåføren også metadata generert fra henrettelsen. Det lager også økter for å overvåke fremdriften og livssyklusen til forskjellige henrettelser. Etter at MapReduce-jobben er fullført, reduserer sjåføren alle dataene og resultatene av spørringen

Compiler:

Det brukes til å oversette Hive-spørrespråket til MapReduce-innspill. Den påkaller en metode som utfører trinnene og oppgavene som er nødvendige for å lese HiveQL-utdata etter behov av MapReduce.

Optimizer:

Hovedoppgaven til optimalisatoren er å forbedre effektiviteten og skalerbarheten og skape en oppgave mens du transformerer dataene før du reduserer operasjonen. Den utfører også transformasjoner som aggregering, rørledningskonvertering med en enkelt sammenføyning for flere sammenføyninger.

byrder:

Etter kompilering og optimaliseringstrinn er hovedoppgaven til utføreren å utføre oppgavene. Hovedoppgaven til utføreren er å samhandle med Hadoop jobbsøker for planlegging av oppgaver klare til å kjøres.

UI, Thrift server og CLI:

Thrift-server brukes av andre klienter til å samhandle med Hive-motoren. Brukergrensesnittet og kommandolinjegrensesnittet hjelper deg med å sende inn spørsmålene, så vel som prosessovervåking og instruksjoner, slik at eksterne brukere kan samhandle med bikuben.

Nedenfor er trinnene som viser interaktive bikube med Hadoop-rammeverket:

Utfører spørringen:

Spørsmålet blir sendt til driveren fra kupégrensesnitt som kommandolinje eller webgrensesnitt. En driver kan være en hvilken som helst databasedriver som JDB eller ODBC, etc.

Få planen:

Syntaksen for kravet til spørringen eller spørringsplanen kan sjekkes ved hjelp av en spørringskompilator som går gjennom spørringen og påberopes av driveren.

Få metadata:

Metallageret kan være bosatt i hvilken som helst database, og kompilatoren ber om å få tilgang til metadataene.

Sender metadataene:

På forespørsel fra kompilatoren sender metabutikken metadataene.

Sender planen:

Kompilatoren sender planen til sjåføren ved å verifisere kravene som sendes av kompilatoren. Dette trinnet fullfører analysering og sammenstilling av en spørring.

Gjennomføring av planen:

Utførelsesplanen blir sendt til utførelsesmotoren av sjåføren.

Utføre jobben:

En utførende jobb er en MapReduce-jobb som kjøres i backend. Deretter følger den normale konvensjonen for Hadoop framework - utførelsesmotoren vil sende en jobb til jobbsøkeren som ligger på navnnoden, og navnetoden vil på sin side tildele jobben til oppgavesporeren som er i datamaskinnotatet. MapReduce-jobben utføres her.

Metadata ops:

Mens du utfører jobben, kan utførelsesmotoren utføre metadataoperasjoner med meta-butikken.

Henter resultatet:

Datanodene etter fullføringen av behandlingen gir resultatet videre til utførelsesmotoren.

Sender resultatet

Føreren mottar resultatet fra utførelsesmotoren.

Resultat sending:

Til slutt får Hive-grensesnittene resultatet fra sjåføren.

Ved utførelse av trinnene ovenfor foregår således en fullstendig spørreutførelse i Hive.

Hvordan gjør Hive det å jobbe så enkelt?

Hive er et datavarehusramme som er bygget oppå Hadoop som hjelper brukeren med å utføre dataanalyse, spørring om data og datasammendrag på store datamengder. HiveQL er en unik funksjon som ser ut som SQL-data lagret i databasen og utfører den omfattende analysen. Jeg var i stand til å lese data med veldig høy hastighet og skrive dataene inn i datavarehusene, så vel som det kan håndtere store datasett fordelt på flere steder. Sammen med denne bikuben gir også struktur til dataene som er lagret i databasen, og brukerne kan koble seg til bikube ved hjelp av kommandolinjeværktøy eller JDBC-driver.

Topp selskaper:

Store organisasjoner som jobber med big data brukte bikube - som facebook, Amazon, Walmart og mange andre.

Hva kan du gjøre med Hive?

Det er mange funksjoner i bikuben, som forespørsel om data, sammendrag av data og dataanalyse. Hive støtter et spørrespråk som heter HiveQL eller Hive Query Language. Spørsmålene om Hive-spørring er oversatt til MapReduce-jobb som behandles på Hadoop-klyngen. Bortsett fra dette, reduserer Hiveql også skript som kan legges til i spørsmålene. På denne måten øker HiveQL skjemautformingsfleksibiliteten som også støtter datereserialisering og dataserialisering.

Arbeide med Hive:

Nedenfor er noen av de operative detaljene i Hive. Dataformer fra bikuber klassifiseres stort sett i fire typer som gitt nedenfor:

  • Kolonnetyper
  • literaler
  • Nullverdier
  • Komplekse typer

1. Kolonnetyper:

Dette er kolonnedatatypene til bikuben. Disse er klassifisert som nedenfor:

  • Integrerte typer: Heltallsdata er representert ved bruk av integrert datatype. Symbolet er INT. Alle data som overskrider den øvre grensen for INT, må tilordnes datatype av BIGINT. På samme måte må alle data under den nedre grensen for INT tilordnes SMALLINT. Det er en annen datatype som heter TINYINT som enda mindre enn SMALLINT.
  • Stringtyper: Stringdatatypen er representert i bikuben med et enkelt sitat (') eller doble anførselstegn (“). Det kan være av to typer - VARCHAR eller CHAR.
  • Tidstempel: Hive-tidsstempel støtter java.sql.Timestampformat “yyyy-mm-dd hh: mm: ss.ffffffffff” og format “YYYY-MM-DD HH: MM: SS.fffffffff”.
  • Dato: Dato er representert i bikuben i formatet ÅÅÅÅ-MM-DD som representerer år-måned-dag.
  • Desimaler : Desimaler i en bikube er representert i java store desimalformat og brukes til å representere uforanderlig vilkårlig presisjon. Det er representert i formatet Desimal (presisjon, skala).
  • Unionstyper: Union brukes i bikuben for å lage en samling av en heterogen datatype. Det kan opprettes ved å opprette en fagforening.

Nedenfor er et eksempel:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Bokstavar:

Det er få bokstaver som brukes i bikuben. De er som nedenfor:

  • Flytende punkttype : De er representert som tall med desimal. Disse er ganske like dobbelt datatype.
  • Desimal type : Denne typen data inneholder bare desimaltypedata, men med et høyere område med flytende punktverdi enn dobbeltdatatypen. Området for desimaltype er omtrentlig -10 -308 til 10 308.

3. Null verdi:

Spesialverdien NULL representerer manglende verdier i bikuben.

4. Komplekse typer:

Nedenfor er de forskjellige komplekse typene som finnes i bikuben:

  • Arrays : Arrays er representert i en bikube i samme form som av java. Syntaksen er som ARRAY.
  • Kart : Kart er representert i bikuben i samme form som java. Syntaksen er som MAP
  • .
  • Strukturer : Strukturer i bikuben er representert som komplekse data med kommentarer. Syntaksen er som STRUCT.

I tillegg til alle disse, kan vi lage databaser, tabeller, partisjonere dem og mange andre funksjoner.

  • Databaser: De er navnefeltene som inneholder en samling tabeller. Nedenfor er syntaks for å opprette en database i en bikube.

CREATE DATABASE (IF NOT EXISTS) sampled;

Databasene kan også slettes hvis det ikke er behov for det lenger. Nedenfor er syntaks for å slippe en database.

DROP DATABASE (IF EXISTS) sampled;

  • Tabeller: De kan også opprettes i bikuben for å lagre data. Nedenfor er syntaks for å lage en tabell.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Et bord kan også slippes hvis det ikke trengs lenger. Nedenfor er syntaks for å slippe en tabell.

DROP TABLE (IF EXISTS) table_name;

Fordeler

Den største fordelen med Apache Hive er for spørring av data, oppsummering og analyse. Hive er designet for bedre produktivitet hos utvikleren og kommer også med kostnadene for å øke latens og redusere effektivitet. Apache Hive gir et bredt spekter av brukerdefinerte funksjoner som kan kobles sammen med andre Hadoop-pakker som RHipe, Apache Mahout, etc. Det hjelper utviklere i stor grad når de arbeider med kompleks analytisk prosessering og flere dataformater. Den brukes hovedsakelig til datalagring som betyr et system som brukes til rapportering og dataanalyse.

Det innebærer rensing, transformering og modellering av data for å gi nyttig informasjon om ulike forretningsaspekter som vil bidra til å produsere en fordel for en organisasjon. Dataanalyse mange forskjellige aspekter og tilnærminger som omfatter forskjellige teknikker med en rekke navn i forskjellige forretningsmodeller, samfunnsvitenskapelige domener, etc. Hive er mye brukervennlig og lar brukere samtidig få tilgang til dataene og øker responstiden. Sammenlignet med den andre typen spørsmål på enorme datasett, er bikubens responstid mye raskere enn andre. Det er også mye fleksibelt med tanke på ytelse når du legger til mer data og ved å øke antall noder i klyngen.

Hvorfor skal vi bruke Hive?

Sammen med dataanalyse gir hive et bredt spekter av alternativer for å lagre dataene i HDFS. Hive støtter forskjellige filsystemer som en flat fil eller tekstfil, sekvensfil som består av binære nøkkelverdipar, RC-filer som lagrer kolonnen i en tabell i en søyledatabase. I dag er filen som er best egnet med Hive kjent som ORC-filer eller Optimized Row Columnar-filer.

Hvorfor trenger vi Hive?

I dagens verden er Hadoop assosiert med de mest spredte teknologiene som brukes til store databehandlinger. Den veldig rike samlingen av verktøy og teknologier som brukes til dataanalyse og annen big data-behandling.

Hvem er det rette publikummet for å lære seg Hive-teknologier?

De fleste som har bakgrunn som utviklere, Hadoop-analyse, systemadministratorer, datavarehus, SQL-profesjonell og Hadoop-administrasjon, kan beherske bikuben.

Hvordan denne teknologien vil hjelpe deg i karrierevekst?

Hive er en av markedets dyktige ferdigheter i dag, og det er et av de beste verktøyene for dataanalyse i big data Hadoop-verdenen. Store bedrifter som gjør analyse over store datasett, leter alltid etter mennesker med ferdighetsrettigheter, slik at de kan administrere og spørre om enorme datamengder. Hive er et av de beste verktøyene som er tilgjengelige i markedet innen big data-teknologier de siste dagene som kan hjelpe en organisasjon rundt om i verden for deres dataanalyse.

Konklusjon:

Bortsett fra funksjonene ovenfor har bikuben mye mer avanserte funksjoner. Kraften i hive til å behandle et stort antall datasett med stor nøyaktighet gjør at hive er et av de beste verktøyene som brukes til analyse i big data-plattformen. Dessuten har den også et stort potensial for å fremstå som et av de ledende big data-analyseverktøyene de kommende dagene på grunn av periodisk forbedring og brukervennlighet for sluttbrukeren.

Anbefalte artikler

Dette har vært en guide til What is Hive. Her diskuterte vi arbeid, ferdigheter, karrierevekst, fordelene ved Hive og toppbedrifter som implementerer denne teknologien. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Hive-kommandoer
  2. Spørsmål om Hive-intervju
  3. Hva er Azure?
  4. Hva er Big Data Technology?
  5. Hive Arkitektur | Definisjon
  6. Bruke ORDER BY-funksjon i Hive

Kategori: