HBase vs Cassandra - Hvilken som er bedre (Infographics)

Innholdsfortegnelse:

Anonim

Forskjellen mellom HBase og Cassandra

HBase er en database som bruker Hadoop distribuert filsystem for lagring. HBase er en viktig del av HDFS og kjører på toppen av Hadoop Cluster. HBase er ikke en tradisjonell relasjonsdatabase, den krever ulik datamodellering. Cassandra jobber med datareplikasjonsmodellen, så i tilfelle noden ikke er tilgjengelig vil det ikke være tap av data. Cassandra er en distribuert database som betyr at data kan nås av en klient fra hvilken som helst klynge og fra hvilken som helst nod

1.1) Cassandra:

Det ble startet av Facebook for det er alltid på søknadskravet. Cassandra ble startet i 2005 og gjort tilgjengelig for publikum i 2008. Cassandra ble utviklet for brukbare applikasjoner som sosiale nettverk som Facebook og Twitter.

Cassandra jobber med “alltid-på” -arkitektur og har en Active-Active node-modell, så det er ingen SPoF (Enkelt feil punkt). CQL (Cassandra Query Language) er Cassandras spørrespråk, men har syntaks som SQL. Den støtter alle større operativsystemer som Linux, Unix, OSX og windows.

Alltid på:

Cassandra er en database med en distribusjonsmodell, og alle nodene er de samme i klyngen. Data replikeres på konfigurerbare noder, så i tilfelle feil av noen nei. av noder vil ikke resultere i tap av dataene.

(Alltid på modell)

I figur 1 er alle de fire nodene synkronisert med hverandre og replikert dataene i klyngen. Alle jobber med Active-Active Model, så i tilfelle knutepunktfeil vil ikke føre til tap av data. En klient kan lese dataene fra resten av tilgjengelige node / noder.

1.2) HBase:

HBase er en NoSQL-basert database og designet for behandling av spørsmål i store tabeller som har milliarder av rader med millioner av kolonner og kjører over en klynge med råvare / normal maskinvare. Det gir deg sanntids spørringsfunksjoner med hastigheten til en " nøkkel / verdibutikk " .

HBase baserer / jobber faktisk på en firedimensjonal datamodell.

  • Rad-ID / radtast
  • Kolonne Familie.
  • Nøkkelverdipar.

(Figur 2, eksempelskjema for tabellen i HBase.)

I figur 2 er tabellen samlingen av kolonnen familie og kolonnen familie er samlingen av kolonner. Kolonner er samlingen av nøkkelverdipar

(Figur 3, prøvetabell i HBase)

I figur 3 er kolonnefamilier samlingen av Alumni-studentens data, og rad-ID-er (radtaster) inneholder studentens rullenummer.

Faktisk har radtaster den unike verdien mot Column Family-dataene. Ved å bruke radtasten kan man trekke ut hele detaljene, grunner til at kolonneorienterte databaser er mye raskere enn tradisjonelle databaser.

Apache HBase kan brukes til tilfeldig lese / skrive tilgang, og det gir feilstøtte. Den støtter også replikering og arbeid med distribusjonsdatabasemodell.

Sammenligning av topp mot hode mellom HBase vs Cassandra (Infographics)

Nedenfor er topp 9-forskjellen mellom HBase vs Cassandra

Viktige forskjeller mellom HBase vs Cassandra

Nedenfor er listen over punkter, som beskriver de viktigste forskjellene mellom HBase og Cassandra:

1) For intern node-kommunikasjon bruker Cassandra GOSSIP-protokoll mens HBase er basert på Zookeeper. Tjenester til GOSSIP Protocol er integrert med Cassandra andre siden. Zookeeper er en helt egen distribusjonsapplikasjon.

2) I Cassandra-arkitektur fungerer alle nodene som Active Node mens HBase-arkitekt følger Master-Slave Node-modellen. I Active-Active Node-modellen er det ingen SPoF (Single Point of Failure). I HBase vil ikke master-noden gå ned hele klyngen.

3) HBase-støtte Binær tresøkemodell mens Cassandra ikke støtter B-tre-modell Uten B-tre, kan du ikke søke i brukers kolonnefamilie for alle med jubileum i april, mens du kan søke etter alle som bor i Beijing med en Jubileum i april.

4) HBase, støtte C, C ++, Java, Python, Scala skriptspråk mens Cassandra også støtter JavaScript og Ruby.

5) HBase har en funksjon som heter prosessor, mens Cassandra ikke har en funksjon som nå. Koprocessorer gir et bibliotek og et tidsmiljø for å utføre brukerkode på HBase region server og master prosesser.

6) HBase er designet for å støtte datavarehus mens Cassandra vil være perfekt for applikasjoner som web og mobilapplikasjoner.

7) HBase spørrespråk er et tilpasset språk som må læres mens Cassandra bruker sitt eget utviklede CQL (Cassandra Query Language) som er SQL-lignende språk

8) Å administrere Cassandra er mye enklere enn HBase. I Cassandra må en enkelt Java-prosess kjøres per node mens det er behov for HBase, fullt operativ HDFS, flere HBase-prosesser og et Zookeeper-system.

9) HBase gjør ikke alle endesjekker og automatisk rebalansering mens Cassandra ikke støtter rebalansering av klyngen totalt sett.

10) Basert på “ CAP Theorem”, jobber Cassandra på AP Model mens HBase er CP Model.

CAP-setning

Dette teoremet brukes til distribuerte systemer. C står for Konsistens, A betyr Tilgjengelighet og P er partisjonstoleranse. CAP teorem forklart nedenfor:

C (Konsistens): Konsistens betyr at hvis noen har skrevet en verdi til en database, kan andre umiddelbart lese den samme verdien.

A (Tilgjengelighet) : Tilgjengelighet betyr at hvis noen noder ikke er tilgjengelige i klyngen din (Noder Gikk ned / ikke bor i klyngen på grunn av noe problem), vil det ikke påvirke hele klyngen, og Distribuert system / database vil være tilgjengelig for tilgang til dataene. Klyngen vil være tilgjengelig for alle slags oppgaver.

P (Partition Tolerance): Partition Tolerance betyr at hvis ett datasenter går ned, ikke skal påvirke dataene som presenteres på nodene, og alle dataene skal være tilgjengelige når som helst. Betyr, Partisjonstoleranse tillater bedre replikering av data til andre Data Center så vel som i klyngemiljøet.

HBase vs Cassandra sammenligningstabell

PoengHBaseCassandra
CAP-setningKonsistens og tilgjengelighetTilgjengelighet og partisjonstoleranse
prosessorJaNei
rebalanseringHBase gir automatisk rebalansering i en klynge.Cassandra gir også rebalansering, men ikke for samlet klynge
ArkitekturmodellDen er basert på Master-Slave Architecture ModelCassandra er basert på Active-Active Node Modal
Base of DatabaseDen er basert på Google BigTableCassandra er basert på Amazon DynamoDB
SPoF (Single Point of Failure)Hvis Master Node ikke er tilgjengelig, vil ikke hele klyngen være tilgjengeligAlle noder som har samme rolle i klyngen, så ingen SPoF
DR (Disaster Recovery)DR er mulig hvis to hovednoder er konfigurert.Ja, da alle noder har samme rolle
HDFS-kompatibilitetJa, ettersom HBase lagrer alle metadata i HDFSNei
KonsistensSterkIkke sterk som HBase

Konklusjon - HBase vs Cassandra

Facebook og en annen side av sosialt nettverk foretrekker HBase (tidligere brukte begge Cassandra, referer til Facebook-innlegg) på grunn av tilgjengeligheten, siden andre domenesektorer ser etter sikkerhet for alle økonomiske transaksjoner, slik at de vil velge Cassandra over HBase.

Cassandra nøkkelegenskaper involverer høy tilgjengelighet, minimal administrasjon og ingen SPoF (single point of Failure) andre siden HBase er bra for raskere lesing og skriving av data med lineær skalerbarhet.

Selskaper som Verizon, Bloomberg, Bank of America og mye mer bruker HBase og Cassandra blir brukt av store sosiale nettverkssider som Twitter, Facebook osv …

Vi kan ikke konkludere hvilken som er best, HBase og Cassandra har begge sine fordeler og ulemper. Faktisk ytelse av både HBase og Cassandra databaser kan sees i produksjonsmiljøet.

Anbefalte artikler:

Dette har vært en guide til HBase vs Cassandra, deres betydning, sammenligning mellom hodet og hodet, nøkkelforskjeller, sammenligningstabell og konklusjon. Du kan også se på følgende artikler for å lære mer -

  1. Hadoop vs Apache Spark - Interessante ting du trenger å vite
  2. Hvordan knekke Hadoop-utviklerintervjuet?
  3. Topp 5 Big Data Trender
  4. 5 Utfordringer med Big Data Analytics