Hadoop Cluster Intervju Spørsmål og svar

Hensikten med denne artikkelen er å hjelpe alle Big Data-aspirantene til å svare på alle Hadoop Cluster Interview-spørsmålene relatert til oppsett Big Data Environment i en organisasjon. Dette spørreskjemaet hjelper deg med å sette opp datanoder, navn på node og definere kapasiteten til Big Data daemons 'hostede server.

Så hvis du endelig har funnet drømmejobben din i Hadoop Cluster, men lurer på hvordan du kan knekke Hadoop Cluster-intervjuet og hva som kan være de sannsynlige spørsmålene om Hadoop Cluster Interview. Hvert intervju er forskjellig, og omfanget av en jobb er også annerledes. Med dette i bakhodet har vi designet de vanligste spørsmålene og svarene til Hadoop Cluster Interview Interviews for å hjelpe deg med å få suksess i intervjuet.

Noen av de viktigste Hadoop Cluster Interview Questions som ofte stilles i et intervju er som følger:

1.Hva er de viktigste Hadoop-komponentene i Hadoop-klyngen?

Svar :
Hadoop er et rammeverk der vi behandler big data eller Hadoop er plattformen der man kan behandle den enorme datamengden på varetjenere. Hadoop er kombinasjonen av mange komponenter. Følgende er de viktigste komponentene i Hadoop-miljøet.
Navn Node : Det er Master Node som tar seg av all informasjon om datakoder og datalagring i metadataformat.
Sekundær navnnode : Det fungerer som primær navneknute hvis primærnavnnoden går ned.
HDFS (Hadoop Distribuert filsystem) : Den tar seg av all lagring av Hadoop-klyngen.
Datanoder : Datanoder er slaveknuter. Faktiske data blir lagret på Slave Nodes for behandling.
YARN (Yet Another Resource Negotiator) : En programvareramme for å skrive applikasjonene og til å behandle store datamengder. Den gir samme funksjoner som MapReduce i tillegg vil det tillate hver batchjobb å kjøre parallelt i Hadoop-klyngen.

2.Hvordan planlegge datalagring i Hadoop-klyngen?

Svar :
Lagring er basert på formel (Lagring = Daglig inntak av data * Replikering).
Hvis Hadoop-klyngen får data 120 TB på daglig basis og vi har standard replikeringsfaktor, så vil det daglige kravet til datalagring være
Lagringskrav = 120 TB (daglig inntak av data) * 3 (standardreplikasjon) => 360 TB
Som et resultat må vi sette opp minst 360 TB dataklynge for daglig inntak av data.
Lagring avhenger også av datalagringskravet. I tilfelle vi vil at data skal lagres i 2 år i samme klynge, så vi må ordne dataknuter i henhold til oppbevaringskravet.

3. Beregn antall datanode.

Svar :
Vi må beregne et antall datanoder som er nødvendige for Hadoop-klyngen. Anta at vi har servere med JBOD på 10 disker, og hver disk har 4 TB lagringsstørrelse, så hver server har 40 TB lagring. Hadoop-klyngen får data 120 TB per dag og 360 TB etter bruk av standard replikeringsfaktor.
Antall datakoder = Daglig inntak av data / dataknute
Antall datanoder = 360/40 => 9 datanoder
For at Hadoop-klyngen får 120 TB-data med konfigurasjon ovenfor, trenger du bare å konfigurere 9 datanoder.

4.Hvordan endre replikasjonsfaktor i Hadoop-klyngen?

Svar :
Rediger hdfs-site.xml-filen. Standardsti er under conf / mappe i Hadoop installasjonskatalog. endre / legg til følgende eiendommer i hdfs-site.xml:
dfs.replication
3
Blokker replikering
Det er ikke obligatorisk å ha replikasjonsfaktor 3. Den kan også angis som 1. Replikasjonsfaktor 5 fungerer også i Hadoop-klyngen. Å sette opp standardverdi gjør klyngen mer effektiv og minimum maskinvare kreves.
Å øke replikasjonsfaktoren vil øke maskinvarebehovet fordi datalagringen blir multiplisert med replikasjonsfaktor.

5. Hva er standard datablokkestørrelse i Hadoop, og hvordan endrer jeg det?

Svar :
Blokkestørrelse kutt / del dataene i blokker og lagre dem på forskjellige forskjellige datanoder.
Som standard er blokkstørrelse 128 MB (i Apache Hadoop), og vi kan endre standardblokkstørrelse.
Rediger hdfs-site.xml-filen. Standardsti er under conf / mappe i Hadoop installasjonskatalog. endre / legg til følgende eiendommer i hdfs-site.xml:
dfs.block.size
134217728
Blokkstørrelse
blokkstørrelse i byte er 134 217 728 eller 128 MB. Spesifiser også størrelsen med suffikset (ufølsom i store og små bokstaver) som k (kilo-), m (mega-), g (giga-) eller t (tera-) for å stille inn blokkstørrelse i KB, MB, TB osv. …

6.Hvor lang tid burde Hadoop-klyngen oppbevare en slettet HDFS-fil i katalogen for slette / søppel?

Svar :
"Fs.trash.interval" er parameteren som spesifiserer hvor lenge HDFS kan beholde en slettet fil i Hadoop-miljøet for å hente den slettede filen.
Intervallperiode kan bare defineres i minutter. I 2 dager utvinningsintervall må vi spesifisere egenskapen i et flytende format.
Rediger filen core-site.xml og legg til / modifiser den med følgende eiendom
fs.trash.interval
2880
Som standard er hentingsintervallet 0, men Hadoop-administrator kan legge til / endre over egenskapen per krav.

7.Hva er de grunnleggende kommandoene til Start og Stopp Hadoop-demoner?

Svar :
Alle kommandoene for å starte og stoppe demoner som er lagret i sbin / mappe.
./sbin/stop-all.sh - For å stoppe alle demoner på en gang.
hadoop-daemon.sh startnavn node
Hadoop-daemon.sh startdata node
garn-daemon.sh, start ressurssjef
garn-daemon.sh, start node manager
mr-jobhistory-daemon.sh start historie server

8.Hva er egenskapen for å definere minnetildeling for oppgaver som administreres av YARN?

Svar :
Egenskapen "yarn.nodemanager.resource.memory-mb" må modifiseres / legges til for å endre minnetildelingen for alle oppgavene som administreres av YARN.
Den spesifiserer mengden RAM i MB. Datanoder tar 70% av faktisk RAM som skal brukes til YARN. Datanode med 96 GB vil bruke 68 GB for YARN, resten av RAM brukes av Data Node daemon for "Ikke-YARN-Work"
Rediger filen “yarn.xml file” og legg til / modifiser følgende eiendom.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb standardverdi er 8192 MB (8GB). Hvis datakoder har stor RAM-kapasitet, må vi endre til verdi til opptil 70% ellers vil vi kaste bort minnet.

9.Hva er anbefalingene for dimensjonering av navneknute?

Svar :
Følgende detaljer anbefales for å sette opp Master Node på et veldig innledende stadium.
Prosessorer: For prosesser er enkelt CPU med 6-8 kjerner nok.
RAM-minne: For data- og jobbbehandler skal serveren ha minst 24-96 GB RAM.
Lagring: Siden ingen HDFS-data er lagret på hovednoden. Du kan 1-2 TB som lokal lagring
Siden det er vanskelig å bestemme fremtidige arbeidsmengder, så design klyngen din ved å velge maskinvare som CPU, RAM og minne som er lett å oppgradere over tid.

10.Hva er standardportene i Hadoop-klyngen?

Svar :

Daemon Navn	Standard portnummer
Navn Node.	50070
Datanoder.	50075
Sekundær navn Node.	50090
Sikkerhetskopi / Kontrollpunkt node.	50105
Jobbsporeren.	50030
Oppgave trackere.	50060

Anbefalte artikler

Dette har vært en guide til List Of Hadoop Cluster Interview Questions and Answers, slik at kandidaten lett kan slå sammen disse Hadoop Cluster Interview Questions. Du kan også se på følgende artikler for å lære mer -

Elasticsearch intervju spørsmål og svar-toppen og mest nyttige
9 Fantastiske MapReduce intervjuspørsmål og svar
8 Mest nyttige guide til Big Data-intervjuspørsmål
ETL intervju spørsmål og svar du bør vite

Hadoop Cluster Intervju Spørsmål og svar - Topp 10 mest nyttige

Innholdsfortegnelse: