Spark Interview Questions - Topp 12 spørsmål oppdatert for 2018

Innholdsfortegnelse:

Anonim

Introduksjon til Spark Interview Interview Spørsmål og svar

Apache Spark er et rammeverk med åpen kildekode. Spark, siden det er en åpen kildekode-plattform, kan vi bruke flere programmeringsspråk som java, python, Scala, R. Sammenlignet med Map-Reduce prosessytelse hjelper gnist med å forbedre utførelsesytelsen. Det gir også 100 ganger raskere kjøring i minnet enn Map-Reduce. På grunn av gnistens prosessorkraft i dag foretrekker industrier gnist.

Så du har endelig funnet drømmejobben din i Spark, men lurer på hvordan du kan knekke Spark-intervjuet og hva som kan være de sannsynlige Spark Interview-spørsmålene for 2018. Hvert intervju er forskjellig, og omfanget av en jobb er også annerledes. Med dette i bakhodet har vi designet de vanligste Spark Interview Questions and Answers for 2018 for å hjelpe deg med å få suksess i intervjuet ditt.

Disse spørsmålene er delt inn i to deler

Del 1 - Spark Interview Questions (Basic)

Denne første delen dekker grunnleggende Spark-intervjuspørsmål og svar

1. Hva er Spark?

Svar:
Apache Spark er et rammeverk med åpen kildekode. Det forbedrer utførelsesytelsen enn Map-Reduce-prosessen. Det er en åpen plattform hvor vi kan bruke flere programmeringsspråk som Java, Python, Scala, R. Spark gir kjøring i minnet som er 100 ganger raskere enn Map-Reduce. Den bruker begrepet RDD. RDD er et spenstig distribuert datasett som gjør det mulig å lagre data på minnet på en transparent måte og fortsette å skive bare det er nødvendig. Det er her det vil redusere tiden for å få tilgang til dataene fra minnet i stedet for Disk. I dag foretrekker industrien Spark på grunn av sin prosessorkraft.

2.Differanse mellom Hadoop og Spark?

Svar:

FunksjonskriterierApache SparkHadoop
Hastighet10 til 100 ganger raskere enn HadoopNormal hastighet
BehandlingSanntids- og batch-behandling, In-memory, CacheBare batchbehandling, Diskavhengig
VanskelighetEnkelt på grunn av moduler på høyt nivåVanskelig å lære
GjenopprettingTillater gjenoppretting av partisjoner ved bruk av RDDFeiltolerant
interaktivitetHar interaktive, interaktive modusIngen interaktiv modus bortsett fra Pig & Hive, Ingen iterativ modus

Normal Hadoop-arkitektur følger grunnleggende Map-Reduce, For den samme prosessen gir gnist utførelse i minnet. I stedet for å lese-skrive fra harddisken for Map-Reduce, gir gnist lesing av virtuelt minne.

La oss gå til de neste Spark-intervjuspørsmål

3. Hva er funksjonene i Spark?

Svar:

  1. Gi integrasjonsanlegg med Hadoop og filer på HDFS. Gnist kan kjøres på toppen av Hadoop ved å bruke YARN-ressursklynging. Spark har kapasitet til å erstatte Hadoop's Map-Reduce-motor.
  2. Polyglot: Spark Gi API på høyt nivå for Java, Python, Scala og R. Gnistkode kan skrives på et av disse fire språkene. IT gir et uavhengig skall for skala (språket som gnist er skrevet i) og en pytontolk. Hvilket vil bidra til å samhandle med gnistmotor? Scala shell kan nås via ./bin/spark-shell og Python shell gjennom ./bin/pyspark fra den installerte katalogen.
  3. Hastighet: Gnistmotor er 100 ganger raskere enn Hadoop Map-Reduce for databehandling i stor skala. Hastighet oppnås gjennom partisjonering for parallellisering av distribuert databehandling med minimal nettverkstrafikk. Spark Provide RDD (Resilient Distribuerte Datasett), som kan bufres på tvers av databehandlingsnoder i en klynge
  4. Flere formater: Spark har en datakilde API. Det vil gi en mekanisme for tilgang til strukturerte data gjennom gnist SQL. Datakilder kan være hva som helst, Spark vil bare lage en mekanisme for å konvertere dataene og trekke dem til gnisten. Spark støtter flere datakilder som Hive, HBase, Cassandra, JSON, Parkett, ORC.
  5. Spark gir noen innebygde biblioteker for å utføre flere oppgaver fra samme kjerne som batchbehandling, steaming, maskinlæring, interaktive SQL-spørsmål. Hadoop støtter imidlertid bare batchbehandling. Spark Provide MLIb (Machine learning libraries) som vil være nyttig for Big-Data Developer å behandle dataene. Dette bidrar til å fjerne avhengigheter av flere verktøy for et annet formål. Spark gir en kraftig plattform til dataingeniører og dataforskere med både rask ytelse og enkel å bruke.
  6. Apache Spark forsinker prosessutførelsen til handlingen er nødvendig. Dette er en av nøkkelfunksjonene til gnist. Spark vil legge til hver transformasjon til DAG (Direct Acyclic Graph) for utførelse, og når handling ønsker å utføre vil den faktisk utløse DAG til å behandle.
  7. Realtime Streaming: Apache Spark Gir beregninger i sanntid og lav latens, på grunn av kjøring i minnet. Spark er designet for store skalerbarheter som en tusen knute av klyngen og flere modeller for beregninger.

4. Hva er YARN?

Svar:
Dette er de grunnleggende Spark Interview Questions som stilles i et intervju. YARN (Yet Another Resource Negotiator) er ressurssjefen. Spark er en plattform som gir rask utførelse. Spark vil bruke YARN for utførelsen av jobben til klyngen, i stedet for sin egen innebygde manager. Det er noen konfigurasjoner som kjører Yarn. De inkluderer master, distribusjonsmodus, driver-minne, eksekutorminne, eksekutorkjerner og kø. Dette er de vanlige gnistintervjuet Spørsmål som blir stilt i et intervju nedenfor er fordelene med gnist:

Fordeler med Spark over Map-Reduce

Gnist har fordeler fremfor Map-Reduce som følger: -
På grunn av evnen til prosess i minnet, kan Spark utføre 10 til 100 ganger raskere enn Map-Reduce. Hvor Map-Reduce kan brukes for utholdenhet av data i kart- og reduksjonsstadiet.

Apache Spark gir et høyt nivå av innebygde biblioteker for å behandle flere oppgaver samtidig som batchbehandling, sanntidsstrømming, Spark-SQL, strukturert streaming, MLib, etc. Samtidig gir Hadoop bare batchbehandling.
Hadoop Map-Reduce-prosessen vil være diskavhengig, der Spark gir hurtigbufring og internminne.

Spark har både iterativt, utfør beregningsmultipel på samme datasett og interaktivt, utfører beregning mellom forskjellige datasett der Hadoop ikke støtter iterativ beregning.

5. Hva støttes av Spark?

Svar:
Spark support scala, Python, R og Java. I markedet foretrekker stort datautvikler stort sett scala og python. For en skala for å kompilere koden trenger vi Angi sti for skala / bin-katalog eller for å lage en krukkefil.

6. Hva er RDD?

Svar:
RDD er en abstraksjon av Resilient Distribuerte datasett, som gir en samling av elementer som er partisjonert over alle noder i klyngen, som vil bidra til å utføre flere prosesser parallelt. Ved å bruke RDD-utvikler kan du lagre dataene i minnet eller cachen, for å bli brukt på nytt for parallell utføring av operasjoner. RDD kan enkelt gjenopprettes fra knutepunktfeil.

Del 2 - Spark Interview Questions (Advanced)

La oss nå se på de avanserte Spark Interview Questions.

7. Hva er faktorene som er ansvarlige for henrettelsen av Spark?

Svar:
1. Spark gir utførelse i minnet i stedet for diskavhengig som Hadoop Map-Reduce.
2.RDD Resilient Distribuerte datasett, som er en ansvarlig parallell utførelse av flere operasjoner på alle noder i en klynge.
3. Spark gir en delt variabel-funksjon for parallell utførelse. Disse variablene er med på å redusere dataoverføring mellom noder og dele en kopi av alle noder. Det er to variabler.
4.Broadcast Variable: Denne variabelen kan brukes til å cache en verdi i minnet på alle noder
5.Accumulators Variable: Denne variabelen er bare "lagt til", for eksempel tellere og summer.

8. Hva er eksekutorminne?

Svar:
Dette er de ofte stilte Spark Interview Questions i et intervju. Det er stor størrelse som er tildelt for gnistutførende. Denne egenskapen kan styres av spark.executor.memory-egenskapen til flagget –executor-memory. Hver Spark-applikasjon har en eksekutør for hver arbeiderknute. Denne egenskapen refererer til hvor mye minne for arbeidernodene som skal tildeles til en applikasjon.

9. Hvordan bruker du Spark Stream? Forklar en brukssak?

Svar:
Spark Stream er en av funksjonene som er nyttige for en saks i brukstid. Vi kan bruke flume, Kafka med en gnist til dette formålet. Flume vil utløse dataene fra en kilde. Kafka vil fortsette dataene til emnet. Fra Kafka vil Spark trekke dataene ved hjelp av strømmen, og den vil D-streame dataene og utføre transformasjonen.

Vi kan bruke denne prosessen til en mistenkelige transaksjon i sanntid, tilbud i sanntid osv.

La oss gå til de neste Spark-intervjuspørsmål

10. Kan vi bruke Spark til ETL-prosessen?

Svar:
Ja, vi kan bruke gnistplattform for ETL-prosessen.

11. Hva er Spark SQL?

Svar:
Det er en spesiell komponent av gnist som vil støtte SQL-spørsmål.

12. Hvilken lat evaluering?

Svar:
Når vi jobber med en gnist, blir transformasjoner ikke evaluert før du utfører en handling. Dette hjelper til med å optimalisere den generelle arbeidsbehandlingen for databehandling. Når du definerer transformasjon vil den legge til DAG (Direct Acyclic Graph). Og på handlingstidspunktet vil det begynne å utføre trinnvise transformasjoner. Dette er den nyttige Spark Interview-spørsmålet som ble stilt i et intervju.

Anbefalt artikkel

Dette har vært en guide til Liste over Spark-intervjuspørsmål og svar, slik at kandidaten lett kan slå sammen disse Spark Interview-spørsmålene. Du kan også se på følgende artikler for å lære mer-

  1. Java vs Node JS forenkler forskjellene
  2. Mongo Database Interview Questions | Nyttig og mest spurt
  3. 15 mest vellykkede spørsmål og svar på R-intervju
  4. Perl intervju spørsmål og svar
  5. SAS System Interview Questions - Topp 10 nyttige spørsmål