Introduksjon til Hadoop Admin Intervju Spørsmål og svar

Så du har endelig funnet drømmejobben din i Hadoop Admin, men lurer på hvordan du kan knekke Hadoop Admin-intervjuet og hva som kan være de sannsynlige spørsmålene til Hadoop Admin-intervju. Hvert intervju er forskjellig, og omfanget av en jobb er også annerledes. Med dette i bakhodet har vi designet de vanligste Hadoop Admin Intervju Spørsmål og svar for å hjelpe deg med å få suksess i intervjuet.

Følgende er Hadoop Admin Interview Questions som vil hjelpe deg med å knekke et intervju med Hadoop.

1. Hva er rackbevissthet? Og hvorfor er det nødvendig?

Svar:
Rack-bevissthet handler om å distribuere dataknuter over flere rack.HDFS følger rack-bevissthetsalgoritmen for å plassere datablokkene. Et rack inneholder flere servere. Og for en klynge kan det være flere stativer. La oss si at det er en Hadoop-klynge satt opp med 12 noder. Det kan være 3 stativer med 4 servere på hver. Alle de 3 stativene er koblet slik at alle 12 noder er koblet sammen og som danner en klynge. Mens du bestemmer deg for antall rack, er det viktige poenget å vurdere replikeringsfaktoren. Hvis det er 100 GB data som kommer til å strømme hver dag med replikeringsfaktoren 3. Da er det 300 GB data som må ligge i klyngen. Det er et bedre alternativ å få dataene kopiert over stativene. Selv om noen node går ned, vil kopien være i et annet rack.

2. Hva er standardblokkstørrelse, og hvordan er den definert?

Svar:
128 MB og den er definert i hdfs-site.xml, og også denne kan tilpasses avhengig av datamengden og tilgangsnivået. Si at 100 GB data som strømmer på en dag, blir dataene segregerte og lagret over klyngen. Hva blir antall filer? 800 filer. (1024 * 100/128) (1024 à konverterte en GB til MB.) Det er to måter å angi tilpassing av datablokkestørrelse.

  1. hadoop fs -D fs.local.block.size = 134217728 (i biter)
  2. Legg til denne egenskapen i hdfs-site.xml à block.size med bitsstørrelse.

Hvis du endrer standardstørrelse til 512MB ettersom datastørrelsen er enorm, vil no.of-filene som genereres være 200. (1024 * 100/512)

3. Hvordan får du rapporten om hdfs filsystem? Om disktilgjengelighet og antall aktive noder?

Svar:
Kommando: sudo -u hdfs dfsadmin –rapport

Dette er listen over informasjon den viser,

  1. Konfigurert kapasitet - Total kapasitet tilgjengelig i hdfs
  2. Nåværende kapasitet - Dette er den totale mengden plass som er tildelt ressursene til å ligge ved siden av metastore og fsimage-bruk av plass.
  3. Gjenværende DFS - Det er mengden lagringsplass som fortsatt er tilgjengelig for HDFS for å lagre flere filer
  4. DFS brukt - Det er lagringsplassen som er brukt opp av HDFS.
  5. DFS brukt% - i prosent
  6. Under repliserte blokker - Antall blokker
  7. Blokker med korrupte kopier - Hvis noen ødelagte blokker
  8. Manglende blokker
  9. Manglende blokker (med replikeringsfaktor 1)

4. Hva er Hadoop-balanser, og hvorfor er det nødvendig?

Svar:
Dataene spredt over nodene er ikke fordelt i riktig proporsjon, noe som betyr at bruken av hver node kanskje ikke er balansert. Den ene noden kan være overutnyttet, og den andre kan være underutnyttet. Dette fører til en høy kostnadseffekt mens du kjører en hvilken som helst prosess, og det vil ende opp med å bruke tung bruk av disse nodene. For å løse dette brukes Hadoop balanser som vil balansere bruken av dataene i nodene. Så når en balanse utføres, blir dataene flyttet over der de underutnyttede nodene blir fylt ut og de over utnyttede nodene blir frigjort.

5. Forskjell mellom Cloudera og Ambari?

Svar:

Cloudera ManagerAmbari
Administrasjonsverktøy for ClouderaAdministrasjonsverktøy for Horton fungerer
Overvåker og administrerer hele klyngen og rapporterer bruken og eventuelle problemerOvervåker og administrerer hele klyngen og rapporterer bruken og eventuelle problemer
Leveres med betalt tjeneste fra ClouderaÅpen kilde

6. Hva er hovedhandlingene utført av Hadoop-administratoren?

Svar:
Overvåk helse av klynge -Det er mange applikasjonssider som må overvåkes hvis noen prosesser kjører. (Jobbhistorikkserver, YARN ressurssjef, Cloudera manager / ambary avhengig av distribusjon)

slå på sikkerhet - SSL eller Kerberos

Tune performance - Hadoop balancer

Legg til nye dataknuter etter behov - Infrastrukturendringer og konfigurasjoner

Valgfritt for å slå på MapReduce Job History Tracking Server à Noen ganger vil det å starte opp tjenestene bidra til å frigjøre hurtigbufferminnet. Dette er når klyngen med en tom prosess.

7. Hva er Kerberos?

Svar:
Det er en godkjenning som kreves for at hver tjeneste skal synkroniseres for å kjøre prosessen. Det anbefales å aktivere Kerberos. Siden vi har å gjøre med distribuert databehandling, er det alltid god praksis å ha kryptering mens du får tilgang til dataene og behandler dem. Når hver node er tilkoblet og all informasjonstransport er over et nettverk. Ettersom Hadoop bruker Kerberos, er ikke passord sendt over nettverkene. I stedet brukes passord for å beregne krypteringsnøklene. Meldingene blir utvekslet mellom klienten og serveren. Enkelt sagt gir Kerberos identitet til hverandre (noder) på en sikker måte med krypteringen.

Konfigurasjon i core-site.xml
Hadoop.security.authentication: Kerberos

8. Hva er den viktige listen over hdfs-kommandoer?

Svar:

kommandoerHensikt
hdfs dfs –lsSlik viser du filene fra hdfs-filsystemet.
Hdfs dfs –putKopier fil fra det lokale systemet til hdfs-filsystemet
Hdfs dfs –chmod 777Gi en lese, skrive, utføre tillatelse til filen
Hdfs dfs –getKopier filen fra hdfs filsystem til det lokale filsystemet
Hdfs dfs –kattVis filinnholdet fra hdfs-filsystemet
Hdfs dfs –rmFjern filen fra hdfs-filsystemet. Men den blir flyttet til søppelfilstien (det er som en papirkurv i vinduer)
Hdfs dfs –rm –skipTrashFjerner filen permanent fra klyngen.
Hdfs dfs –ouchouchOpprett en fil i hdfs-filsystemet

9. Hvordan sjekke loggene til en Hadoop-jobb som er sendt inn i klyngen, og hvordan avslutte allerede kjørende prosess?

Svar:
garnlogger –applicationId - Applikasjonsmesteren genererer logger på beholderen, og den blir lagt til med ID-en den genererer. Dette vil være nyttig for å overvåke prosessens kjørestatus og logginformasjonen.

garn-applikasjon –kill - Hvis en eksisterende prosess som kjørte i klyngen må avsluttes, brukes kill-kommando der applikasjons-ID brukes til å avslutte jobben i klyngen.

Anbefalt artikkel

Dette har vært en guide til Liste over Hadoop Admin Intervju Spørsmål og svar, slik at kandidaten enkelt kan slå sammen disse Hadoop Admin Intervju Spørsmål. Du kan også se på følgende artikler for å lære mer

  1. Hadoop Cluster Intervju Spørsmål og svar - Topp 10 mest nyttige
  2. Datamodelleringsintervju - 10 viktige spørsmål
  3. SAS System Interview Questions - Topp 10 nyttige spørsmål