Introduksjon til Sqoop intervjuspørsmål og svar

Sqoop er et open source dataoverføringsverktøy, Sqoop tool overfører dataene mellom Hadoop Ecosystem og Relational Database Servers (RDBMS). Den importerer dataene til Hadoop-filsystemet (HDFS), fra relasjonsdatabaser som Oracle, MySQL, osv., Og eksporterer også data fra Hadoop-filsystemet til RDMS.

Nedenfor er de 15 viktige spørsmålene og svarene i Sqoop-intervjuet i 2019:

Så du har endelig funnet drømmejobben din i Sqoop, men lurer på hvordan du kan knekke Sqoop-intervjuet, og hva som kan være sannsynlige Sqoop-intervjuspørsmål fra 2019. Hvert intervju er forskjellig, og omfanget av en jobb er også annerledes. Med dette i bakhodet har vi designet de vanligste spørsmålene og svarene til Sqoop-intervjuer for å hjelpe deg med å få suksess i intervjuet.

Disse spørsmålene er delt inn i to deler er som følger:

Del 1 - Spørsmål om Sqoop-intervjuer (grunnleggende)

Denne første delen dekker grunnleggende spørsmål og svar fra Sqoop-intervju.

1. Definer Sqoop, og hvorfor bruker vi Sqoop?

Svar:
Sqoop er et open source dataoverføringsverktøy, som er designet for å overføre data mellom Hadoop Ecosystem og Relational Database Servers (RDBMS). Sqoop brukes til å importere dataene fra relasjonsdatabaser som Oracle, MySQL, osv., Til Hadoop-filsystemet (HDFS), og også for å eksportere data fra Hadoop-filsystemet til relasjonsdatabaser.

2. Hva er de forskjellige funksjonene i Sqoop?

Svar:
Nedenfor er de forskjellige funksjonene som støttes av Sqoop -

  1. Lastekapasitet
  2. Full lasting og trinnvis lasting
  3. Datakomprimeringsteknikker
  4. Importere SQL-spørreresultatene
  5. Datakontakter for alle de store databasene
  6. Direkte datalasterstøtte til Hadoop File Systems
  7. Sikkerhetskonfigurasjoner som Kerberos
  8. Samtidig import- eller eksportfunksjoner

La oss gå til de neste spørsmålene om Sqoop-intervjuer.

3. Nevn de relasjonsdatabaser og Hadoop økosystemkilder som støttes i Sqoop?

Svar:
Sqoop støtter for tiden MySQL, PostgreSQL, Oracle, MSSQL, Teradata og IBMs Netezza som en del av Relasjonsdatabaser.

Støttede Hadoop Eco-system destinasjonstjenester er HDFC, Hive, HBase, H Catalog og Accumulo.

Sqoop bruker MySQL som standard database.

4. Hvordan fungerer Sqoop?

Svar:
Dette er de vanlige spørsmålene om Sqoop-intervju som stilles i et intervju. For å utføre dataoverføring bruker Sqoop eksport- og importkommandoer. Map Reduce-programmet vil bli brukt i Sqoop internt for lagring av datasett til HDFS. Kommandoer vil bli assosiert med kartoppgaver for å hente data fra relasjonsdatabaser; Redusere oppgaven vil ta ansvaret for å plassere de hentede dataene til destinasjonene (HDFS / HBase / Hive)

Sqoop bruker også forskjellige API-kontakter for tilkobling med flere databaser. Sqoop gir også muligheten til å lage tilpassede kontakter som oppfyller spesifikke krav.

La oss se eksemplet på kommandoene nedenfor for import og eksport

En kommando for tilkobling til MySQL-database for import av data fra 'Logg' -tabellen

sqoop import –koble til jdbc: mysql: // localhost / –username –password –table –m 1
sqoop import –koble jdbc: mysql: // localhost / mytestdb –brukernavnrot –passord admin123 –tabellogg –m 1

En kommando for å eksportere data fra HDFS til relasjonsdatabase

sqoop export –connect jdbc: mysql: // localhost / sqoop_export –tabell export-dir / sqoop / emp_last / part-m-00000 –oppdatering-nøkkel-ID
sqoop export –connect jdbc: mysql: // localhost / sqoop_export –tabel log_table – export-dir / sqoop / data / foler1 / part-m-00000

5. Hva er Sqoop Metastore? Forklar det?

Svar:
Sqoop Metastore er et verktøy som er tilgjengelig i Sqoop som vil bli brukt til å konfigurere Sqoop-applikasjonen for å muliggjøre hosting av et delt depot i form av metadata. Denne Metastore kan brukes til å utføre jobbene og administrere et antall brukere basert på brukerroller og aktiviteter. Alle flere brukere kan utføre flere oppgaver eller operasjoner samtidig for å oppnå oppgavene effektivt. Sqoop Metastore blir som standard implementert som en minne-representasjon. Når en jobb opprettes i Sqoop, lagres jobbdefinisjonen i Metastore og vil bli oppført ved bruk av Sqoop-jobber om nødvendig.

6. Hvilke filformater støtter Sqoop under import av dataene?

Svar:
Sqoop bruker to filformater for dataimport. De er: - Avgrenset testfilformat og sekvensfilformat.

Avgrenset tekstfilformat : Avgrenset tekstformat er standardfilformat for import. Vi kan fortsatt eksplisitt spesifisere ved bruk av –as- tekstilargumentet. På samme måte som å sende argumentet, vil skilletegnene settes mellom rader og kolonner.

Sekvensfilformat : Dette filformatet kan vi si at det er et binært filformat. Denne typen formatfiloppføringer lagres i spesiallagde postspesifikke datatyper som blir eksponert som Java-klasser.

La oss gå til de neste spørsmålene om Sqoop-intervjuer.

7. Kan vi kontrollere et antall kartverk i sqoop? Hvis ja, hvordan?

Svar:
Ja, vi kan kontrollere antall kartleggere i Sqoop ved å spesifisere parameteren “-num-kartleggere” i sqoop-kommandoen. Denne parameteren kan kontrollere antall kartoppgaver, det er ingenting annet enn graden av parallellitet vil bli brukt av sqoop. Antallet blir bestemt ut fra kravet.

Syntaks: Bruk disse flaggene til å kontrollere antall kartleggere: m, -nummerkort

Del 2 - Spørsmål om Sqoop-intervjuer (avansert)

La oss nå se på de avanserte spørsmålene til Sqoop Interview.

8. Hva er Sqoop-merge og forklare bruken?

Svar:
Sqoop merge er et verktøy som kombinerer to forskjellige datasett som opprettholder den eneste versjonen ved å overskrive oppføringene i en eldre versjon av et datasett med nye filer for å gjøre det til den nyeste versjonen datasettet. Det skjer en prosess med utflating mens du slår sammen de to forskjellige datasettene som bevarer dataene uten tap og med effektivitet og sikkerhet. For å utføre denne operasjonen, vil kommando av flettetast brukes som “–merge-key”

9. Hva er forskjellene mellom Sqoop, flume og distcp?

Svar:
Både Distcp og Sqoop brukes til å overføre dataene. Sqoop brukes til å overføre alle typer data fra en Hadoop-klynge til en annen klynge, mens Sqoop overfører data mellom relasjonsdatabaser og Hadoop-økosystem som Hive, HDFS og HBase, etc. Men begge metodene bruker samme tilnærming for å kopiere dataene, som er pull / transfer.

Flume har distribuert et verktøy, følger agentbasert arkitektur, for å streame loggene til Hadoop-økosystemet. Mens Sqoop er en koblingsbasert arkitektur.

Flume samler og samler inn enorme mengder loggdata. Flume kan samle inn dataene fra en annen type ressurser; den vurderer ikke skjemaet eller strukturerte / ustrukturerte data. Flume kan trekke alle typer data. Mens Sqoop bare kan importere relasjonsdatabasedataene, så skjema er obligatorisk for sqoop å behandle. Generelt, for flytting av bulk arbeidsmengder, er flume det beste alternativet.

La oss gå til de neste spørsmålene om Sqoop-intervjuer.

10. Hva støttes datakildene av Apache Sqoop?

Svar:
De forskjellige datakildene fra forskjellige applikasjoner som støttes av Apache Sqoop, er som nedenfor:

  1. Hive
  2. HBase
  3. Hadoop Distribuert filsystem (HDFS)
  4. HCatalog
  5. Accumulo

11. Hva er de mest brukte kommandoene / funksjonene i Sqoop?

Svar:

Dette er de avanserte spørsmålene fra Sqoop Interview Interview som stilles i et intervju. Liste over grunnleggende kommandoer som brukes i Sqoop er som følger:

Codegen -Codegen brukes til å generere kode for å kommunisere med databaseposter.

Eval -Sqoop Eval hjelper med å kjøre eksempler på SQL-spørsmål mot databasene og gir resultatene på konsollen.

Hjelp - Hjelp liste over tilgjengelige kommandoer

Import -Import vil importere tabellen til Hadoop Ecosystem

Eksport - Eksport brukes til å eksportere HDFS-data til relasjonsdatabaser.

Create-hive-table - Denne kommandoen er nyttig for å importere tabelldefinisjon til Hive

Import-alle-tabeller -Import-alle-tabeller vil importere tabellene for å danne relasjonsdatabaser til HDFS.

Listedatabaser -Det vil liste opp alle databasene som er til stede på en server.

Listetabeller -Det vil liste opp alle tabellene som er til stede i en database.

Versjoner -Det vil vise versjonsinformasjonen.

Funksjoner -Parallell import / eksport, Full belastning, Trinnvis belastning, Full belastning, Sammenligning, Koblinger for RDBMS-databaser, Kerberos Security Integration, Last inn data direkte i HDFS (Hive / HBase)

12. Forklar Best Practices mens du importerer tabeller fra MySQL eller andre databaser ved å bruke Sqoop?

Svar:
Mens vi importerer tabellene fra MySQL, bør vi sørge for noen få ting som autentisering og autorisasjon til målserveren og databasene. Vi må sørge for at vi har gitt nødvendige rettigheter på databasene, som skal nås, og også sørge for vertsnavnoppløsningen når vi kobler til kildene og destinasjonsnavnene. Hvis vi ikke har den nødvendige tillatelsen, vil vi få et unntak av tilkoblingssvikt mens vi kobler til databasen.

13. Hvordan oppdaterer du dataene eller radene som allerede er eksportert?

Svar:
For å oppdatere radene, som allerede er eksportert destinasjonen, kan vi bruke parameteren “–oppdateringsnøkkel”. I dette brukes en kommaseparert kolonneliste som unikt identifiserer en rad og alle disse kolonnene blir brukt i WHERE-leddet i den genererte UPDATE-spørringen. SET en del av spørringen vil ta vare på alle de andre tabellkolonnene.

La oss gå til de neste spørsmålene om Sqoop-intervjuer.

14. Hvordan konfigurerer og installerer JDBC-driveren i Apache Sqoop?

Svar:
JDB-driverne i Apache Sqoop kan konfigureres basert på Hadoop-leverandøren som Cloudera eller Hortonworks, hvor den varierer litt i konfigurasjonen, basert på Hadoop-leverandøren. JDBC i Cloudera kan konfigureres som ved å opprette en bibliotekmappe som / var / lib /. Dette kan gjøres for ethvert tredjeparts bibliotek som kreves konfigurert i henhold til kravet. På denne måten kan alle typer databaser konfigureres ved hjelp av JDBC-driveren. Bortsett fra JDBC-driveren, krever Apache Sqoop en kontakt for å opprette en forbindelse mellom forskjellige relasjonsdatabaser. De viktigste komponentene som kreves for å etablere en forbindelse med databasene, er gjennom Driver og Connector til den aktuelle databaseleverandøren.

15. Hva er den delte klausulen, og når bruker vi den?

Svar:
En delt parameter er for å skive dataene som skal importeres til flere parallelle oppgaver. Ved hjelp av denne parameteren kan vi spesifisere navnene på kolonnen, dette er kolonnenavn basert på hvilken sqoop som skal dele dataene som skal importeres i flere biter, og de kjører på en parallell måte. Det er en av teknikkene for å stille inn forestillingen i Sqoop.

Anbefalte artikler

Dette har vært en guide til Liste over Sqoop-intervjuspørsmål og svar, slik at kandidaten enkelt kan slå sammen disse spørsmålene til Sqoop-intervjuet. Du kan også se på følgende artikler for å lære mer -

  1. Hadoop vs Teradata -Det er gunstig
  2. 13 Fantastiske spørsmål om databasetesting av intervjuer
  3. Topp 10 mest nyttige HBase-intervjuspørsmål
  4. 10 mest fantastiske PHP-intervjuspørsmål for erfarne
  5. Kjenn De 5 nyttige spørsmålene om DBA-intervju