HDFS-kommando - Grunnleggende til avansert kommando med tips og triks

Innholdsfortegnelse:

Anonim

Introduksjon til HDFS-kommandoer

Big data er et ord for datasett som er så store eller sammensatte at konvensjonell databehandlingsprogramvare ikke er nok til å pakke med dem. Hadoop er et åpen kildekode, Java-basert programmeringsrammeverk som kjeder behandlingen og lagringsplassen til enormt klumpete datasett i et formidlet databehandlingsmiljø. Apache-programvarefundament er nøkkelen for å installere Hadoop

Funksjoner ved HDFS:

  • HDFS kjører på Master / slavearkitektur
  • Filer brukes av HDFS for lagring av brukerrelaterte data
  • har et stort sett kataloger og filer som er lagret i et hierarkisk format.
  • På innsiden blir en fil revet i mindre blokker, og disse blokkene lagres i et sett med Datanodes.
  • Namenode og Datanode er den delen av programvare som er ment å kjøre på produktmaskiner som klassisk kjører på GNU / Linux OS.

Namenode:

  • Her vedlikeholdes filsystemet ved navn node
  • Namenode er også ansvarlig for å logge alle endringene i filsystemet og opprettholder et bilde av hele filsystemets navnerom og filblokkemappe i minnet
  • Kontrollpoeng utføres med jevne mellomrom. derav lett å komme seg til scenen før krasjpunktet kan oppnås her.

Datanode:

  • En Datanode inneholder data i filer i det lokale filsystemet
  • For å intime om dens eksistens, sender datanoden hjerteslag til navnekoden
  • En blokkrapport vil bli generert for hver tiende mottatte hjerterytme
  • Replikasjon er underforstått på dataene som er lagret i disse dataknodene

Datareplikering:

  • Her danner sekvensen av blokker en fil med en standardblokkstørrelse på 128 MB
  • Alle blokker i filen bortsett fra finalen har samme størrelse.
  • Fra hver enkelt datanoder i klyngen får namenodeelementet et hjerteslag
  • BlockReport inneholder alle blokkene på en Datanode.
  • har et stort sett kataloger og filer som er lagret i et hierarkisk format.
  • På innsiden blir en fil revet i mindre blokker, og disse blokkene lagres i et sett med Datanodes.
  • Namenode og Datanode er den delen av programvare som er ment å kjøre på produktmaskiner som klassisk kjører på GNU / Linux OS.

Jobbspor : JobTracker-debatt til NameNode for å konkludere plasseringen av dataene. Finn også de beste TaskTracker-noder for å utføre oppgaver basert på datalokaliteten

Task tracker: A TaskTracker er en node i klyngen som godtar oppgaver - Kart, reduser og bland blanding - fra en JobTracker.

Sekundær navn node (eller) sjekkpunkt node: Henter EditLog fra navn node med jevne mellomrom og gjelder for FS-bildet. Og kopierer et fullført FS-bilde tilbake til navneknuten under omstart. Secondary Name-nodens hele formål er å ha et sjekkpunkt i HDFS.

Garn:

  • YARN har en sentral ressursforvalterkomponent som administrerer ressurser og tildeler ressursene til hver applikasjon.
  • Her er ressursbehandleren masteren som bedømmer ressursene som er knyttet til klyngen, ressurssjefen er samlet av to komponenter applikasjonsbehandleren og en planlegger disse to komponentene sammen administrerer jobbene på klyngesystemene. en annen komponent kaller Node Manager (NM) som er ansvarlig for å administrere brukernes jobber og arbeidsflyt på en gitt node.
  • En nøyaktig replikering av dataene i aktiv namenode holdes av Standby NameNode. Den fungerer som en slave, opprettholder tilstrekkelig tilstand til å levere en rask failover, hvis nødvendig.

Grunnleggende HDFS-kommandoer:

Grunnleggende HDFS-kommandoer

Sr.NoHDFS kommandoeiendomHDFS-kommando
1Trykk hadoop-versjon$ hadoop-versjon
2Liste over innholdet i rotkatalogen i HDFS$ hadoop fs -ls
3Rapporter hvor mye plass som er brukt og tilgjengelig i et for øyeblikket montert filsystem$ hadoop fs -df hdfs: /
4HDFS-balanser balanserer data over DataNodes på nytt, og flytter blokker fra overutnyttede til underutnyttede noder.$ hadoop-balanser
5Hjelp kommando$ hadoop fs -hjelp

Midlertidige HDFS-kommandoer:

Midlertidige HDFS-kommandoer

Sr.NoHDFS kommandoeiendomHDFS-kommando
6oppretter en katalog på det spesifiserte HDFS-stedet$ hadoop fs -mkdir / bruker / cloudera /
7Kopierer data fra ett sted til et annet$ hadoop fs -data / sample.txt / bruker / trening / hadoop
8Se plassen som er besatt av en bestemt katalog i HDFS$ hadoop fs -du -s -h / bruker / cloudera /
9Fjern en katalog i Hadoop$ hadoop fs -rm -r / bruker / cloudera / pigjobs /
10Fjerner alle filene i den gitte katalogen$ hadoop fs -rm -skipTrash hadoop / retail / *
11For å tømme søpla$ hadoop fs-utslipp
12kopierer data fra og til lokalt til HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / bruker / cloudera / pigjobs / * / home / cloudera / oozie /

Avanserte HDFS-kommandoer:

Midlertidige HDFS-kommandoer

Sr.NoHDFS kommandoeiendomHDFS-kommando
1. 3endre filtillatelser$ sudo -u hdfs hadoop fs -chmod 777 / bruker / cloudera / flume /
14angi replikeringsfaktor for en fil$ hadoop fs -setrep -w 5 / bruker / cloudera / pigjobs /
15Telle antall kataloger, filer og byte under hdfs$ hadoop fs-antall hdfs: /
16gjøre at namenode eksisterer i sikker modus$ sudo -u hdfs hdfs dfsadmin -safemode permisjon
17Hadoop formaterer en navnekode$ hadoop namenode-format

HDFS tips og triks:

1) Vi kan oppnå raskere utvinning når antall klyngebnoder er høyere.

2) Økningen i lagring per tidsenhet øker gjenopprettingstiden.

3) Namenode-maskinvare må være veldig pålitelig.

4) Sofistikert overvåking kan oppnås gjennom ambari.

5) Systemets sulting kan reduseres ved å øke reduksjonsantallet.

Anbefalte artikler

Dette har vært en guide til HDFS-kommandoer. Her diskuterte vi HDFS-kommandoer, funksjoner, dens grunnleggende, mellomliggende og avanserte kommandoer med billedlig fremstilling, tips og triks om kommandoene. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Node kommandoer
  2. Matlab-kommandoer
  3. Fordeler med DBMS
  4. Hadoop økosystem
  5. Hadoop fs Kommandoer