Introduksjon til HDFS-kommandoer
Big data er et ord for datasett som er så store eller sammensatte at konvensjonell databehandlingsprogramvare ikke er nok til å pakke med dem. Hadoop er et åpen kildekode, Java-basert programmeringsrammeverk som kjeder behandlingen og lagringsplassen til enormt klumpete datasett i et formidlet databehandlingsmiljø. Apache-programvarefundament er nøkkelen for å installere Hadoop
Funksjoner ved HDFS:
- HDFS kjører på Master / slavearkitektur
- Filer brukes av HDFS for lagring av brukerrelaterte data
- har et stort sett kataloger og filer som er lagret i et hierarkisk format.
- På innsiden blir en fil revet i mindre blokker, og disse blokkene lagres i et sett med Datanodes.
- Namenode og Datanode er den delen av programvare som er ment å kjøre på produktmaskiner som klassisk kjører på GNU / Linux OS.
Namenode:
- Her vedlikeholdes filsystemet ved navn node
- Namenode er også ansvarlig for å logge alle endringene i filsystemet og opprettholder et bilde av hele filsystemets navnerom og filblokkemappe i minnet
- Kontrollpoeng utføres med jevne mellomrom. derav lett å komme seg til scenen før krasjpunktet kan oppnås her.
Datanode:
- En Datanode inneholder data i filer i det lokale filsystemet
- For å intime om dens eksistens, sender datanoden hjerteslag til navnekoden
- En blokkrapport vil bli generert for hver tiende mottatte hjerterytme
- Replikasjon er underforstått på dataene som er lagret i disse dataknodene
Datareplikering:
- Her danner sekvensen av blokker en fil med en standardblokkstørrelse på 128 MB
- Alle blokker i filen bortsett fra finalen har samme størrelse.
- Fra hver enkelt datanoder i klyngen får namenodeelementet et hjerteslag
- BlockReport inneholder alle blokkene på en Datanode.
- har et stort sett kataloger og filer som er lagret i et hierarkisk format.
- På innsiden blir en fil revet i mindre blokker, og disse blokkene lagres i et sett med Datanodes.
- Namenode og Datanode er den delen av programvare som er ment å kjøre på produktmaskiner som klassisk kjører på GNU / Linux OS.
Jobbspor : JobTracker-debatt til NameNode for å konkludere plasseringen av dataene. Finn også de beste TaskTracker-noder for å utføre oppgaver basert på datalokaliteten
Task tracker: A TaskTracker er en node i klyngen som godtar oppgaver - Kart, reduser og bland blanding - fra en JobTracker.
Sekundær navn node (eller) sjekkpunkt node: Henter EditLog fra navn node med jevne mellomrom og gjelder for FS-bildet. Og kopierer et fullført FS-bilde tilbake til navneknuten under omstart. Secondary Name-nodens hele formål er å ha et sjekkpunkt i HDFS.
Garn:
- YARN har en sentral ressursforvalterkomponent som administrerer ressurser og tildeler ressursene til hver applikasjon.
- Her er ressursbehandleren masteren som bedømmer ressursene som er knyttet til klyngen, ressurssjefen er samlet av to komponenter applikasjonsbehandleren og en planlegger disse to komponentene sammen administrerer jobbene på klyngesystemene. en annen komponent kaller Node Manager (NM) som er ansvarlig for å administrere brukernes jobber og arbeidsflyt på en gitt node.
- En nøyaktig replikering av dataene i aktiv namenode holdes av Standby NameNode. Den fungerer som en slave, opprettholder tilstrekkelig tilstand til å levere en rask failover, hvis nødvendig.
Grunnleggende HDFS-kommandoer:
Grunnleggende HDFS-kommandoer |
||
Sr.No | HDFS kommandoeiendom | HDFS-kommando |
1 | Trykk hadoop-versjon | $ hadoop-versjon |
2 | Liste over innholdet i rotkatalogen i HDFS | $ hadoop fs -ls |
3 | Rapporter hvor mye plass som er brukt og tilgjengelig i et for øyeblikket montert filsystem | $ hadoop fs -df hdfs: / |
4 | HDFS-balanser balanserer data over DataNodes på nytt, og flytter blokker fra overutnyttede til underutnyttede noder. | $ hadoop-balanser |
5 | Hjelp kommando | $ hadoop fs -hjelp |
Midlertidige HDFS-kommandoer:
Midlertidige HDFS-kommandoer |
||
Sr.No | HDFS kommandoeiendom | HDFS-kommando |
6 | oppretter en katalog på det spesifiserte HDFS-stedet | $ hadoop fs -mkdir / bruker / cloudera / |
7 | Kopierer data fra ett sted til et annet | $ hadoop fs -data / sample.txt / bruker / trening / hadoop |
8 | Se plassen som er besatt av en bestemt katalog i HDFS | $ hadoop fs -du -s -h / bruker / cloudera / |
9 | Fjern en katalog i Hadoop | $ hadoop fs -rm -r / bruker / cloudera / pigjobs / |
10 | Fjerner alle filene i den gitte katalogen | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | For å tømme søpla | $ hadoop fs-utslipp |
12 | kopierer data fra og til lokalt til HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / bruker / cloudera / pigjobs / * / home / cloudera / oozie / |
Avanserte HDFS-kommandoer:
Midlertidige HDFS-kommandoer |
||
Sr.No | HDFS kommandoeiendom | HDFS-kommando |
1. 3 | endre filtillatelser | $ sudo -u hdfs hadoop fs -chmod 777 / bruker / cloudera / flume / |
14 | angi replikeringsfaktor for en fil | $ hadoop fs -setrep -w 5 / bruker / cloudera / pigjobs / |
15 | Telle antall kataloger, filer og byte under hdfs | $ hadoop fs-antall hdfs: / |
16 | gjøre at namenode eksisterer i sikker modus | $ sudo -u hdfs hdfs dfsadmin -safemode permisjon |
17 | Hadoop formaterer en navnekode | $ hadoop namenode-format |
HDFS tips og triks:
1) Vi kan oppnå raskere utvinning når antall klyngebnoder er høyere.
2) Økningen i lagring per tidsenhet øker gjenopprettingstiden.
3) Namenode-maskinvare må være veldig pålitelig.
4) Sofistikert overvåking kan oppnås gjennom ambari.
5) Systemets sulting kan reduseres ved å øke reduksjonsantallet.
Anbefalte artikler
Dette har vært en guide til HDFS-kommandoer. Her diskuterte vi HDFS-kommandoer, funksjoner, dens grunnleggende, mellomliggende og avanserte kommandoer med billedlig fremstilling, tips og triks om kommandoene. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -
- Node kommandoer
- Matlab-kommandoer
- Fordeler med DBMS
- Hadoop økosystem
- Hadoop fs Kommandoer