Data Warehouse vs Hadoop - 6 viktige forskjeller å vite

Innholdsfortegnelse:

Anonim

Forskjeller mellom Data Warehouse vs Hadoop

I hvert tiår opplever IT-bransjen en stor innovasjon som rister hele IT-bransjen. De siste årene har Apache Hadoop gjort det samme ved å blande datasentre med ny infrastruktur

Ved å gi kraften i parallell prosessering til programmereren Hadoop er på en slik eksponentiell økning i adopsjonen og økosystemet utvides i både dybde og bredde, er det naturlig å spørre om Hadoop's kommer til å erstatte tradisjonelle Data Warehouse.

La oss se hva Alasdair Anderson (konserndirektør i Nordea) sa på et Hadoop-toppmøte om dette hete temaet i byen.

“Det er ikke noe forhold mellom EDW og Hadoop akkurat nå - de kommer til å bli komplementære. Det handler IKKE om å rippe og erstatte: vi kommer ikke til å bli kvitt RDBMS eller MPP, men i stedet bruke riktig verktøy for den rette jobben - og det vil veldig mye bli drevet av pris.

Hver gang denne interessante diskusjonen starter, kommer mange spørsmål til oss som:

1) Hvis du har big data, trenger du et datavarehus?

2) Vil Hadoop erstatte datavarehuset?

3) Er dette dødsfallet i den tradisjonelle Data Warehouse-tiden?

For å vite svarene på alle disse spørsmålene må vi se på den større konteksten av dette bildet.

1. Hva er Hadoop?

Hvem har ikke hørt om Big Data i det siste? Med hundrevis av terabyte med data som genereres hver dag fra forskjellige kilder, er det tydelig at dagens moderne verden er en Big Data-verden

Når du begynner å snakke om Big Data vil du før eller siden begynne å diskutere det hotteste emnet i Big data-verdenen: Hadoop - men hva er det egentlig?

Hadoop er en åpen kildekode, et Java-basert programmeringsrammeverk som støtter prosessering og lagring av ekstremt store datasett i et distribuert datamiljø.

De 4 modulene fra Hadoop -

Hadoop består av 4 moduler -

  1. Distribuert filsystem

Distribuert filsystem lar data lagres i et lett tilgjengelig format over et stort antall koblede lagringsenheter.

  1. Kart reduksjon

Map Reduce er kombinasjonen av to operasjoner - å lese data fra databasen og sette dem i et format som er egnet for analyse (kart) og utføre matematiske operasjoner (redusere).

  1. Hadoop Common

Hadoop Common gir verktøyene som trengs for dataene som er lagret i HDFS (Hadoop Distribuert filsystem)

  1. YARN

YARN administrerer ressurser til systemene som lagrer dataene og kjører analysen.

2. Hva er et datavarehus?

Et datavarehus er en relasjonsdatabase som er designet for spørrings- og analysedata. Den inneholder vanligvis historiske data hentet fra forskjellige kilder.

Datavarehusmiljøet inkluderer ETL-løsninger, en online analytisk prosessering (OLAP) -motor, klientanalyseværktøy og andre applikasjoner som administrerer prosessen med å analysere data og levere dem til forretningsbrukere.

La oss oppsummere hva datavarehus er -

  1. Subject-orientert

Et datavarehus kan brukes til å analysere et bestemt emne som salg, økonomi og varelager. Hvert fagområde inneholder detaljerte data.

  1. integrert

Et datavarehus integrerer data fra flere datakilder. Datoer er for eksempel i samme format, mannlige / kvinnelige koder er konsistente. I et datavarehus vil det bare være en enkelt måte å identifisere et produkt på, og de bruker den samme kundeposten, ikke kopier

  1. Ikke-flyktig

Data lagres i datavarehuset umodifisert, og de vil ikke endre seg. Så historiske data i et datavarehus bør aldri endres.

  1. Time-variant

man kan hente data fra 3 måneder, 6 måneder, 12 måneder eller til og med eldre data fra et datavarehus.

  1. Ikke virtuell

Datavarehuset er et fysisk, vedvarende depot.

Data Warehouse vs Hadoop (Infographics)

Nedenfor er de 6 beste sammenligningene mellom Data Warehouse vs Hadoop

Data Warehouse vs Hadoop - hvilken du skal bruke?

  • Hvis du har rene, konsistente og høykvalitetsdata, bør du gå for Data Warehouse fordi Hadoop mangler datakvalitet i noen av løsningene.
  • Hvis du har rå ustrukturerte data, bør du gå for Hadoop fordi Hadoop fungerer bra med ustrukturerte / rå data, men Data Warehouse fungerer bare med strukturerte data.
  • For rapporter med lav latens og interaktive forhold, bør du gå til Data Warehouse
  • For OLTP / Real-time / Point Queries bør du gå for Data Warehouse fordi Hadoop fungerer godt med batchdata.
  • For datasett med stort volum, bør du gå for Hadoop fordi Hadoop er designet for å løse Big data-problemer.

Sammenligningstabel mellom hodet til hodet mellom Data Warehouse vs Hadoop

Nedenfor er listen over punkter som beskriver sammenligningene mellom datavarehus vs Hadoop

Grunnlag for sammenligningDatavarehusHadoop
DataI Data Warehouse analyserer vi strukturerte og behandlede dataI Hadoop kan vi behandle alle slags data inkludert strukturert / ustrukturert / semistrukturert og rått
BehandlingBehandlingen er basert på skjema-på-skriv-konsepterBehandlingen er basert på skjema-på-les-konsepter
OppbevaringPasser for data med lite volum, og det er for mye dyrt for store volumdataDet fungerer bra med store datasett med stort volum, hastighet og variasjon
SmidighetDet er mindre smidig og med fast konfigurasjonDet er svært smidig, konfigurer og konfigurer etter behov
SikkerhetData Warehouse-teknologier har eksistert i flere tiår. I sikkerhetstiden kan vi derfor stole på Data WarehouseMens Hadoop-teknologiene er relativt nye i forhold til Data Warehouse, så er sikkerhet en stor bekymring her
brukereForretningsfolk bruker vanligvis datavarehusHadoop er ganske kjent innen datavitenskap og datateknikk

Konklusjon - Data Warehouse vs Hadoop

Nå vet vi om Data Warehouse og Hadoop begge, la oss gå tilbake og undersøke spørsmålet som vi stilte i begynnelsen av denne Data Warehouse og Hadoop artikkelen -

1) Hvis du har big data, trenger du et datavarehus?

Svar - så lenge organisasjonen din trenger pålitelige, troverdige og tilgjengelige data, trenger du et datavarehus.

2) Vil Hadoop erstatte datavarehuset?

Svar - Sammenligning av Data Warehouse vs Hadoop er som å sammenligne epler og appelsiner. De begge Data Warehouse og Hadoop har sine egne fordeler i forskjellige case-scenarier. I noen tilfeller er vi fremdeles avhengige av tradisjonelle Data Warehouse-teknikker, men etter hvert som tiden endres fokuserer vi mer på Hadoop Framework for å håndtere Big Data-problemer.

3) Er dette et dødsfall fra den tradisjonelle Data Warehouse-tiden?

Svar - Som du ser er dette egentlig ikke et enkelt spørsmål og egner seg derfor ikke godt til et enkelt svar. Det er sant at big data kommer til å endre den tradisjonelle datalagringstilnærmingen de neste årene, men det vil ikke foreldes konseptene og praksisen med datavarehus.

Anbefalt artikkel

Dette har vært en nyttig guide til Data Warehouse vs Hadoop her vi har diskutert deres betydning, sammenligning av hodet til hodet, nøkkelforskjellen og konklusjonen. Du kan også se på følgende artikkel for å lære mer -

  1. Hadoop vs Splunk - Finn ut de beste 7 forskjellene
  2. Hadoop vs Elasticsearch - Hvilken er mer nyttig
  3. Big Data vs Data Warehouse - Finn ut de beste forskjellene
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios