Installer Spark - Komplett guide for installasjon av gnist

Innholdsfortegnelse:

Anonim

Hvordan installere gnist?

Spark er et open source-rammeverk for å kjøre analytiske applikasjoner. Det er en databehandlingsmotor som er vert hos leverandør - uavhengig Apache Software Foundation for å jobbe med store datasett eller big data. Det er et databladsystem for generelle formål som gir APIer på høyt nivå i Scala, Python, Java og R. Det ble utviklet for å overvinne begrensningene i MapReduce-paradigmet til Hadoop. Data forskere mener at Spark kjører 100 ganger raskere enn MapReduce, da det kan cache data i minnet, mens MapReduce fungerer mer ved å lese og skrive på disker. Den utfører prosessering i minnet som gjør den kraftigere og raskere.

Spark har ikke sitt eget filsystem. Den behandler data fra forskjellige datakilder som Hadoop Distribuert File System (HDFS), Amazons S3-system, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Den kan kjøres på Hadoop YARN (Yet Another Resource Negotiator), på Mesos, på EC2, på Kubernetes eller ved å bruke frittstående klyngemodus. Den bruker RDDer (Resilient Distribuerte datasett) for å delegere arbeidsmengder til individuelle noder som støtter i iterative applikasjoner. På grunn av RDD er programmering enkelt sammenlignet med Hadoop.

Spark består av forskjellige komponenter som kalles Spark Ecosystem Components.

  • Spark Core: Det er grunnlaget for Spark-applikasjonen som andre komponenter er direkte avhengige av. Det gir en plattform for et bredt spekter av applikasjoner som planlegging, distribuert oppgaveutsending, i minneprosessering og datahenvisning.
  • Spark Streaming: Det er komponenten som fungerer på live streaming data for å gi sanntidsanalyse. Live-dataene blir inntatt i diskrete enheter kalt batches som utføres på Spark Core.
  • Spark SQL: Det er komponenten som fungerer på toppen av Spark core for å kjøre SQL-spørringer på strukturerte eller semistrukturerte data. Data Frame er måten å samhandle med Spark SQL.
  • GraphX: Det er grafikkberegningsmotoren eller rammeverket som gjør det mulig å behandle grafdata. Den gir forskjellige grafalgoritmer å kjøre på Spark.
  • MLlib: Den inneholder algoritmer for maskinlæring som gir rammer for maskinlæring i et minnebasert distribuert miljø. Den utfører iterative algoritmer effektivt på grunn av prosesseringsevne i minnet.
  • SparkR: Spark gir en R-pakke for å kjøre eller analysere datasett ved bruk av R shell.

Det er tre måter å installere eller distribuere gnist til systemene dine på:

  1. Frittstående modus i Apache Spark
  2. Hadoop YARN / Mesos
  3. SIMR (Spark in MapReduce)

La oss se distribusjonen i frittstående modus.

Spark frittstående modus for distribusjon:

Trinn 1: Oppdater pakkeindeksen

Dette er nødvendig for å oppdatere alle nåværende pakker på maskinen din.

Bruk kommandoen : $ sudo apt-get update

Trinn 2: Installer Java Development Kit (JDK)

Dette vil installere JDK på maskinen din og vil hjelpe deg med å kjøre Java-applikasjoner.

Trinn 3: Sjekk om Java har installert riktig

Java er en forutsetning for å bruke eller kjøre Apache Spark Applications.

Bruk kommandoen : $ java –version

Dette skjermbildet viser java-versjonen og sikrer tilstedeværelsen av java på maskinen.

Trinn 4: Installer Scala på maskinen din

Som Spark er skrevet i skala, så skal det installeres skala for å få gnist på maskinen din.

Bruk kommando: $ sudo apt-get install scala

Trinn 5: Kontroller om Scala er riktig installert

Dette vil sikre en vellykket installasjon av skalaer på systemet ditt.

Bruk kommando : $ skala –versjon

Trinn 6: Last ned Apache Spark

Last ned Apache Spark i henhold til Hadoop-versjonen din fra https://spark.apache.org/downloads.html

Når du går over linken ovenfor, vises et vindu.

Trinn 7: Velg riktig versjon i henhold til Hadoop-versjonen din og klikk på lenken som er merket.

Et annet vindu ville dukke opp.

Trinn 8: Klikk på lenken som er merket, og Apache gnist vil bli lastet ned i systemet ditt.

Kontroller om .tar.gz- filen er tilgjengelig i nedlastingsmappen.

Trinn 9: Installer Apache Spark

For installasjon av Spark må tjærefil trekkes ut.

Bruk kommando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Du må endre versjonen som er nevnt i kommandoen i henhold til den nedlastede versjonen. I denne har vi lastet ned spark-2.4.0-bin-hadoop2.7 versjon.

Trinn 10: Oppsettmiljøvariabel for Apache Spark

Bruk Kommando: $ kilde ~ / .bashrc

Legg til linje : eksport PATH = $ PATH: / usr / local / spark / bin

Trinn 11: Bekreft installasjonen av Apache Spark

Bruk kommando : $ gnist-skall

Hvis installasjonen var vellykket, vil følgende utgang produseres.

Dette betyr vellykket installasjon av Apache Spark på maskinen din, og Apache Spark starter i Scala.

Deployment of Spark på Hadoop YARN:

Det er to moduser å distribuere Apache Spark på Hadoop YARN.

  1. Cluster-modus: I denne modusen administrerer YARN på cluster Spark-driveren som kjører i en applikasjonsmesterprosess. Etter å ha startet applikasjonen kan klienten gå.
  2. Klientmodus: I denne modusen blir ressursene forespurt fra YARN av applikasjonsmester og Spark-driver kjører i klientprosessen.

For å distribuere et Spark-program i klyngemodus, bruk kommando:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Kommandoen ovenfor vil starte et YARN-klientprogram som vil starte standard Application Master.

For å distribuere en Spark-applikasjon i klientmodus, bruk kommando:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Du kan kjøre gnisterskall i klientmodus ved å bruke kommandoen:

$ spark-shell –master yarn –deploy-mode client

Tips og triks for å bruke gnistinstallasjon:

  1. Forsikre deg om at Java er installert på maskinen din før du installerer gnist.
  2. Hvis du bruker skalaspråk, må du forsikre deg om at skalaen allerede er installert før du bruker Apache Spark.
  3. Du kan bruke Python også i stedet for Scala for programmering i Spark, men det må også være forhåndsinstallert som Scala.
  4. Du kan kjøre Apache Spark på Windows også, men det foreslås å lage en virtuell maskin og installere Ubuntu ved å bruke Oracle Virtual Box eller VMWare Player .
  5. Gnist kan kjøres uten Hadoop (dvs. frittstående modus), men hvis det kreves et multi-nodeoppsett, er ressurssjefer som YARN eller Mesos nødvendig.
  6. Når du bruker YARN, er det ikke nødvendig å installere Spark på alle tre noder. Du må bare installere Apache Spark på en node.
  7. Når du bruker YARN hvis du er i samme lokale nettverk med klyngen, kan du bruke klientmodus, mens hvis du er langt borte, kan du bruke klyngemodus.

Anbefalte artikler - Spark Install

Dette har vært en guide for hvordan du installerer Spark. Her har vi sett hvordan du distribuerer Apache Spark i frittstående modus og på toppen av ressurssjef YARN og også Noen tips og triks er også nevnt for en jevn installasjon av Spark. Du kan også se på følgende artikkel for å lære mer -

  1. Slik bruker du gnistkommandoer
  2. En karriere i Spark - You Must Try
  3. Forskjeller av Splunk vs Spark
  4. Spark Interview Spørsmål og svar
  5. Fordeler med gniststrømming
  6. Typer ledd i Spark SQL (eksempler)