Introduksjon til Hive Alternatives

Før vi diskuterer alternativene til HIVE. La oss først forstå hva som er en HIVE? Så, HIVE er i utgangspunktet et datalagerverktøy som er utviklet på toppen av HDFS (Hadoop Distribuerte filsystem). Den brukes til å gi et SQL-lignende spørringsgrensesnitt til spørringsdata som er lagret i forskjellige filer integrert med Hadoop. Den konverterer SQL som spørringer til Map Reduce jobber som hjelper til med enkel utførelse av store datamengder.

Funksjoner

Nedenfor er noen av funksjonene til Hive:

  • I likhet med SQL har den et eget deklarativt språk kalt HiveQL.
  • Den har en tabellstruktur som ligner tabeller i Relasjonsdatabasen, og den gir også ETL (ekstrakt / støtte / last) støtte.
  • En interessant funksjon er at det tillater konvertering av format fra HIVE.

Begrensning av bikubalternativer

La oss kjenne noen begrensninger av Hive:

  • Den er ikke designet for OLTP (Online Transaction Processing), men støtter OLAP (Online Analytical Processing).
  • En viktig begrensning er at den ikke støtter oppdateringer og sletter.
  • I Hive støttes heller ikke forespørsler.

5 Viktige bikubalternativer

Nedenfor skal vi diskutere fem viktige alternativer til HIVE som er til stede i markedet:

1. Apache Impala

Det er en åpen kildekode for SQL-søkemotor for parallellbehandling for data som er lagret i en dataklynge som kjører Apache Hadoop. Det ble kunngjort i oktober 2012. Nedenfor er de fremtredende trekk ved Apache Impala som et alternativ til HIVE.

  • Impala er et godt valg for folk som kjører SQL-spørsmål på Hadoop og Apache HBase uten å transformere dataene, da det ikke er nødvendig å transformere eller flytte dataene, i motsetning til HIVE.
  • En annen forskjell mellom disse to er generasjonen av spørringsuttrykk. Impala genererer dem på kjøretid ved bruk av lvvm mens HIVE genererer dem på kompileringstidspunktet.
  • Hive Queries har et problem med kaldstart, noe som ikke er tilfellet med Impala-spørsmål, ettersom i Impala-demon-prosesser startes i selve oppstartstiden, alltid klar til å behandle en spørring som den unngår kaldstartproblemet.
  • Impala gjenkjenner Hadoop-filformater, Hadoop-sikkerhet, ODBC-driver.
  • Den viktigste USP for impala er den brute kraften i parallell prosessering. Så, Impala er et bedre alternativ hvis man starter et nytt prosjekt.

2. Presto DB

Presto er et annet alternativ for HIVE utviklet av facebook. USP er at den til og med kan søke data fra flere kilder i en enkelt spørring. Nedenfor er de fremtredende egenskapene til PrestoDB som et alternativ til HIVE.

  • Presto er en i minnet distribuert SQL-spørringsmotor som er. Den er også veldig rask ettersom spørsmotoren til Presto er rask og godt egnet for interaktiv analyse.
  • USP for Presto fremfor andre er plug and play-modellen med forskjellige datakilder. På grunn av denne plug-and-play-modellen er det veldig enkelt å prestere med spørsmål i forskjellige datakilder.
  • I Presto er sammenføyningstabeller med liten dimensjon blitt gjort raskere. Presto utmerker seg med de fleste andre distribuerte spørsmotorer.
  • Presto er ikke passende for store faktumforbindelser, da den ikke utnytter disk og bruker minne til prosessering.
  • Et viktigere poeng for presto er ressursfordelingen. Den har en prioritert købasert ressursallokering.
  • En avveining for god ytelse i Presto er at UDF-støtte ikke er tilgjengelig i presto, på grunn av hvilken man må skrive sin egen funksjon som øker overhead, ettersom den må bygges utelukkende for presto og hemmer interoperabiliteten.

3. Spark SQL

Det er en modul for også strukturert databehandling og også åpen kildekode. Den kan også fungere som en distribuert SQL-spørringsmotor, og også en unik del av dette er at den gir programmeringsabstraksjon kjent som datarammer. Den ble første gang utgitt i 2014 utviklet av Apache Software Foundation. Nedenfor er noen av de fremtredende egenskapene til Spark SQL som et alternativ til HIVE.

  • Det gode med Spark SQL er at det kan implementeres på Java, Scala, Python og R, mens HIVE kan implementeres på Java Language.
  • Det er fullstendig likhet i primærdatabasemodell mellom HIVE og gnist, da begge primærdatabasemodellene er relasjonell DBMS.
  • Det ligner også HIVE da begge støtter Key-Value-butikken som en tilleggsdatabasemodell.
  • Den har forhåndsdefinerte datatyper som flyter og dato.
  • Den støtter SQL da den har DML- og DDL-utsagn.
  • I motsetning til HIVE som støtter JDBC, ODBC og Thrift, støtter Spark SQL bare JDBC og ODBC.
  • Spark SQL bruker gnistkjerner for lagring av data i forskjellige noder.
  • En annen stor forskjell mellom gnist og HIVE er replikasjonsmetoder: Det er selektiv replikasjonsfaktor i HIVE for lagring av overflødige data på flere noder, men ingen replikasjonsfaktor er tilgjengelig i Spark SQL.
  • I Spark SQL er det ingen tilgangsrettigheter for brukere, mens vi i Apache Hive har tilgangsrettigheter for brukere, grupper.
  • Det støtter ikke et transaksjonstabell og ingen støtte for røye-type.

4. Hai

Det er en åpen kildekode SQL spørringsmotor som er skrevet i Scala. Det interessante faktum med Shark er i stedet for å bruke Map-Reduce for å utføre spørsmålene sine. Den bruker sine egne sett med arbeiderknuter. Nedenfor er noen av funksjonene til Shark:

  • Den bruker en kommandolinjeklient.
  • Det tilbyr interoperabilitet med Hive for deling av skjemaer.
  • Den gir støtte for eksisterende bikube-utvidelser som UDF-er.

Det er ikke veldig kjent ennå, men det gir et alternativ til HIVE.

5. BigSQL av IBM

Det er levert av Big Blue (IBM). IBM har sin egen Hadoop-distribusjon kalt Big Insights. Så stor SQL tilbys som en del av det. Det er ikke åpen kildekode, da det er levert av IBM. Noen av tingene de gir er som nedenfor:

  • De støtter både JDBC og OJDBC drivere.
  • De gir SQL-støtte
  • De kan brukes til å spørre om data fra HDFS.

Anbefalte artikler

Dette er en guide til Hive Alternatives. Her diskuterer vi funksjoner, begrensning og 5 viktige Hive-alternativer. Du kan også gå gjennom andre relaterte artikler for å lære mer-

  1. Hadoop-alternativer
  2. Tableau-alternativer
  3. Google Analytics-alternativer
  4. Hadoop Streaming
  5. Hive Bestill av
  6. Installasjon av bikube
  7. Datarammer i R

Kategori: