Hive vs Impala - 20 nyttige ting du bør vite

Forskjellen mellom Hive og Impala

Hive er et datalagerprogramvareprosjekt bygget på toppen av APACHE HADOOP utviklet av Jeffs team på Facebook med en nåværende stabil versjon av 2.3.0 utgitt. Den brukes til å oppsummere Big data og gjør spørring og analyse enkelt. Apache Hive er en effektiv standard for SQL-i Hadoop. Impala er en parallell prosesserende SQL-spørringsmotor som kjører på Apache Hadoop og bruker for å behandle dataene som lagres i HBase (Hadoop Database) og Hadoop Distribuerte filsystem. Impala er et open source produkt for parallellbehandling (MPP) SQL spørringsmotor for data lagret i en lokal systemklynge som kjører på Apache Hadoop. Apache Hive og Impala er begge sentrale deler av Hadoop-systemet.

Så la oss studere både Hive og Impala i detalj:

HIVE

Apache Hive hjelper deg med å analysere det enorme datasettet som er lagret i Hadoop-filsystemet (HDFS) og andre kompatible filsystemer.
Hive QL - For spørringsdata lagret i Hadoop Cluster .
Utnytter skalerbarheten til Hadoop ved oversettelse .
Hive er IKKE en full database .
Det gir ikke oppdateringer på rekordnivå .
Hadoop er batchorientert system .
Hive-spørsmål har høy latenstid på grunn av MapReduce .
Hive tilbyr ikke funksjoner i It er nær OLAP .
Egner seg best for datavarehusapplikasjoner .
Utførelse av spørring via MapReduce .
spørrespråk kan brukes med tilpassede skalarfunksjoner (UDF-er), aggregeringer (UDAF-er) og tabellfunksjoner (UDTF-er) .
Hive gir også indeksering for å akselerere, indekstype inkludert komprimering og bitmap-indeks fra 0, 10, flere indekstyper er planlagt.
Lagringstyper som støttes av Hive, er RCfile, HBase, ORC og Plain text .
SQL-lignende spørsmål (Hive QL), som implisitt blir konvertert til MapReduce eller Tez, eller Spark-jobber .
Som standard lagrer Hive metadata i en innebygd Apache Derby-database .

IMPALA

Impala er en spørsmotor som kjører på Hadoop . Den offentlige beta-testdistribusjonen ble kunngjort i oktober 2012 og ble generelt tilgjengelig mai 2013.
Den støtter HDFS Apache HBase-lagring og Amazon S3 .
Leser filmer fra Hadoop, inkludert tekst, parkett, Avro, RCFile, LZO og Sequence .
Støtter Hadoop Security (Kerberos-godkjenning) .
Bruker metadata, ODBC-driver og SQL-syntaks fra Apache Hive .
Den støtter flere komprimeringskodeker:

(a) Snappy (anbefales for sin effektive balanse mellom kompresjonsforhold og dekompresjonshastighet),

(b) Gzip (anbefales når du oppnår det høyeste nivået av komprimering),

Det lar deg spørre om nestede strukturer, inkludert kart, strukturer og matriser.
Det tillater samtidige spørsmål med flere brukere og tillater også adgangskontroll på grunnlag av prioritering og kø i spørsmål.

Sammenligninger fra hodet til hodet mellom Hive vs Impala (Infographics)

Nedenfor er Topp 20-sammenligningen mellom Hive vs Impala

Nøkkelforskjellen mellom Hive vs Impala

Forskjellene mellom Hive vs Impala blir forklart i punkter presentert nedenfor:

Hive er utviklet av Jeffs team på Facebook, men Impala er utviklet av Apache Software Foundation .
Hive støtter filformat i Optimized row columnar (ORC) -format med Zlib-komprimering, men Impala støtter Parkettformatet med snappy komprimering .
Hive er skrevet i Java, men Impala er skrevet i C ++.
Forespørselshastigheten i Hive er treg, men Impala er 6-69 ganger raskere enn Hive .
I Hive Latency er høy, men i Impala er Latency lav .
Hive støtter lagring av RC-fil og ORC, men Impala- lagringsstøtter er Hadoop og Apache HBase .
Hive genererer spørringsuttrykk på kompileringstidspunktet, men i Impala-kodegenerering for '' store looper '' skjer under løpetur .
Hive støtter ikke parallell behandling, men Impala støtter parallell behandling.
Hive støtter MapReduce, men Impala støtter ikke MapReduce .
I Hive er det ingen sikkerhetsfunksjon, men Impala støtter Kerberos-godkjenning .
I en oppgradering av ethvert prosjekt der kompatibilitet og hastighet begge er viktig, er Hive et ideelt valg, men for et nytt prosjekt er Impala det ideelle valget .
Hive er feiltolerant, men Impala støtter ikke feiltoleranse .
Hive støtter kompleks type, men Impala støtter ikke komplekse typer .
Hive er batchbasert Hadoop MapReduce, men Impala er MPP-database .
Hive støtter ikke interaktiv databehandling, men Impala støtter interaktiv databehandling .
Hive-spørring har et problem med "kald start", men i Impala daemon-prosessen startes ved selve starttiden .
Hive-ressurssjef er YARN (Yet Another Resource Negotiator), men i Impala er ressursforvalter * YARN .
Hive Distribusjoner er alle Hadoop distribusjon, Hortonworks (Tez, LLAP), men i Impala distribusjon er Cloudera MapR (* Amazon EMR) .
Hive publikum er Data Engineers, men i Impala publikum er Data Analyst / Data forskere.
Bibelenes gjennomstrømning er høy, men i Impala er gjennomstrømningen lav .

Sammenligningstabel Hive vs Impala

Serienr.	Grunnlag for sammenligning	Hive	Impala
1.	Utviklet av	Facebook	Apache-programvare Fundament
2.	Filformat	Sekvensfil. Tekstfil. Optimalisert rad columnar (ORC) format med Zlib-komprimering. RC-filformat.	Parkettformat med snappy kompresjon. Avro LZO Sekvensfil.
3.	Språk	Skrevet i JAVA	Skrevet i C ++
4.	Behandlingshastighet	Hive er treg	Impala er rask
5.	Ventetid	Høy	Lav
6.	Lagringsstøtte	RC-fil, ORC	Hadoop, Apache HBase
7.	Kodekonvertering	Genererer spørringsuttrykk på kompileringstidspunktet	Kodegenerering skjer ved kjøretid.
8.	Støtter parallell behandling	Nei	Ja
9.	MapReduce support	Ja	Nei
10.	Hadoop Security	Nei	Støtter Kerberos-godkjenning.
11.	bruk	Ideell for prosjektoppgradering	Ideell for å starte nytt prosjekt.
12.	Feiltolerant	Hive er feiltolerant.	Støtter ikke feiltoleranse.
1. 3.	Komplekse typer	Hive støtter komplekse typer.	Impala støtter ikke komplekse typer.
14.	Databasetype	Hive er et batchbasert Hadoop MapReduce.	Det er MPP-database
15.	Interaktiv databehandling	Støtter ikke interaktiv databehandling.	Støtter interaktiv databehandling.
16.	Henrettelse	Hive-spørring har et problem med "Cold Start"	Impala-prosessen starter alltid på Boot-tiden av Daemons.
17.	Ressursforvaltning	YARN	Innfødt * Garn
18.	distribusjoner	HIVE - alle Hadoop Distribusjoner, Hortonworks (Tez, LLAP)	Cloudera MapR, (* Amazon EMR)
19.	Publikum	Dataingeniører	Dataanalytiker / dataforskere
20.	gjennomstrømming	Høy gjennomstrømming	Lav gjennomstrømning

Konklusjon - Hive vs Impala

I denne artikkelen har vi prøvd å vise at det er to teknologier, nemlig Hive og Impala, og også den grunnleggende forskjellen mellom disse teknologiene. Rent praktisk kan vi si at Hive og Impala ikke er konkurrentene de begge tilhører samme grunnlag som er kjent som MapReduce for å utføre spørsmålene. Bruken av begge kan skape forskjellen. I henhold til vårt behov kan vi bruke det sammen eller best etter kompatibilitet, behov og ytelse. Hive-spørrespråk er Hive QL som er veldig allsidig og universalt språk mens Impala er minneintensivt og ikke fungerer godt for behandling av tunge dataoperasjoner, f.eks. Hvis i prosjektarbeidet ditt er relatert til batchbehandling for en stor mengde data, vil Hive bedre i så fall, og hvis arbeidet ditt er relatert til sanntidsprosessen til et ad hoc-spørsmål om data, vil Impala bli bedre i den saken.

Anbefalt artikkel

Dette har vært en guide til Hive mot Impala, deres betydning, sammenligning av topp mot hod, nøkkelforskjeller, sammenligningstabell og konklusjon. Du kan også se på følgende artikler for å lære mer -