Installer Spark - Komplett guide for installasjon av gnist

Hvordan installere gnist?

Spark er et open source-rammeverk for å kjøre analytiske applikasjoner. Det er en databehandlingsmotor som er vert hos leverandør - uavhengig Apache Software Foundation for å jobbe med store datasett eller big data. Det er et databladsystem for generelle formål som gir APIer på høyt nivå i Scala, Python, Java og R. Det ble utviklet for å overvinne begrensningene i MapReduce-paradigmet til Hadoop. Data forskere mener at Spark kjører 100 ganger raskere enn MapReduce, da det kan cache data i minnet, mens MapReduce fungerer mer ved å lese og skrive på disker. Den utfører prosessering i minnet som gjør den kraftigere og raskere.

Spark har ikke sitt eget filsystem. Den behandler data fra forskjellige datakilder som Hadoop Distribuert File System (HDFS), Amazons S3-system, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Den kan kjøres på Hadoop YARN (Yet Another Resource Negotiator), på Mesos, på EC2, på Kubernetes eller ved å bruke frittstående klyngemodus. Den bruker RDDer (Resilient Distribuerte datasett) for å delegere arbeidsmengder til individuelle noder som støtter i iterative applikasjoner. På grunn av RDD er programmering enkelt sammenlignet med Hadoop.

Spark består av forskjellige komponenter som kalles Spark Ecosystem Components.

Spark Core: Det er grunnlaget for Spark-applikasjonen som andre komponenter er direkte avhengige av. Det gir en plattform for et bredt spekter av applikasjoner som planlegging, distribuert oppgaveutsending, i minneprosessering og datahenvisning.
Spark Streaming: Det er komponenten som fungerer på live streaming data for å gi sanntidsanalyse. Live-dataene blir inntatt i diskrete enheter kalt batches som utføres på Spark Core.
Spark SQL: Det er komponenten som fungerer på toppen av Spark core for å kjøre SQL-spørringer på strukturerte eller semistrukturerte data. Data Frame er måten å samhandle med Spark SQL.
GraphX: Det er grafikkberegningsmotoren eller rammeverket som gjør det mulig å behandle grafdata. Den gir forskjellige grafalgoritmer å kjøre på Spark.
MLlib: Den inneholder algoritmer for maskinlæring som gir rammer for maskinlæring i et minnebasert distribuert miljø. Den utfører iterative algoritmer effektivt på grunn av prosesseringsevne i minnet.
SparkR: Spark gir en R-pakke for å kjøre eller analysere datasett ved bruk av R shell.

Det er tre måter å installere eller distribuere gnist til systemene dine på:

Frittstående modus i Apache Spark
Hadoop YARN / Mesos
SIMR (Spark in MapReduce)

La oss se distribusjonen i frittstående modus.

Spark frittstående modus for distribusjon:

Trinn 1: Oppdater pakkeindeksen

Dette er nødvendig for å oppdatere alle nåværende pakker på maskinen din.

Bruk kommandoen : $ sudo apt-get update

Trinn 2: Installer Java Development Kit (JDK)

Dette vil installere JDK på maskinen din og vil hjelpe deg med å kjøre Java-applikasjoner.

Trinn 3: Sjekk om Java har installert riktig

Java er en forutsetning for å bruke eller kjøre Apache Spark Applications.

Bruk kommandoen : $ java –version

Dette skjermbildet viser java-versjonen og sikrer tilstedeværelsen av java på maskinen.

Trinn 4: Installer Scala på maskinen din

Som Spark er skrevet i skala, så skal det installeres skala for å få gnist på maskinen din.

Bruk kommando: $ sudo apt-get install scala

Trinn 5: Kontroller om Scala er riktig installert

Dette vil sikre en vellykket installasjon av skalaer på systemet ditt.

Bruk kommando : $ skala –versjon

Trinn 6: Last ned Apache Spark

Last ned Apache Spark i henhold til Hadoop-versjonen din fra https://spark.apache.org/downloads.html

Når du går over linken ovenfor, vises et vindu.

Trinn 7: Velg riktig versjon i henhold til Hadoop-versjonen din og klikk på lenken som er merket.

Et annet vindu ville dukke opp.

Trinn 8: Klikk på lenken som er merket, og Apache gnist vil bli lastet ned i systemet ditt.

Kontroller om .tar.gz- filen er tilgjengelig i nedlastingsmappen.

Trinn 9: Installer Apache Spark

For installasjon av Spark må tjærefil trekkes ut.

Bruk kommando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Du må endre versjonen som er nevnt i kommandoen i henhold til den nedlastede versjonen. I denne har vi lastet ned spark-2.4.0-bin-hadoop2.7 versjon.

Trinn 10: Oppsettmiljøvariabel for Apache Spark

Bruk Kommando: $ kilde ~ / .bashrc

Legg til linje : eksport PATH = $ PATH: / usr / local / spark / bin

Trinn 11: Bekreft installasjonen av Apache Spark

Bruk kommando : $ gnist-skall

Hvis installasjonen var vellykket, vil følgende utgang produseres.

Dette betyr vellykket installasjon av Apache Spark på maskinen din, og Apache Spark starter i Scala.

Deployment of Spark på Hadoop YARN:

Det er to moduser å distribuere Apache Spark på Hadoop YARN.

Cluster-modus: I denne modusen administrerer YARN på cluster Spark-driveren som kjører i en applikasjonsmesterprosess. Etter å ha startet applikasjonen kan klienten gå.
Klientmodus: I denne modusen blir ressursene forespurt fra YARN av applikasjonsmester og Spark-driver kjører i klientprosessen.

For å distribuere et Spark-program i klyngemodus, bruk kommando:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Kommandoen ovenfor vil starte et YARN-klientprogram som vil starte standard Application Master.

For å distribuere en Spark-applikasjon i klientmodus, bruk kommando:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Du kan kjøre gnisterskall i klientmodus ved å bruke kommandoen:

$ spark-shell –master yarn –deploy-mode client

Tips og triks for å bruke gnistinstallasjon:

Forsikre deg om at Java er installert på maskinen din før du installerer gnist.
Hvis du bruker skalaspråk, må du forsikre deg om at skalaen allerede er installert før du bruker Apache Spark.
Du kan bruke Python også i stedet for Scala for programmering i Spark, men det må også være forhåndsinstallert som Scala.
Du kan kjøre Apache Spark på Windows også, men det foreslås å lage en virtuell maskin og installere Ubuntu ved å bruke Oracle Virtual Box eller VMWare Player .
Gnist kan kjøres uten Hadoop (dvs. frittstående modus), men hvis det kreves et multi-nodeoppsett, er ressurssjefer som YARN eller Mesos nødvendig.
Når du bruker YARN, er det ikke nødvendig å installere Spark på alle tre noder. Du må bare installere Apache Spark på en node.
Når du bruker YARN hvis du er i samme lokale nettverk med klyngen, kan du bruke klientmodus, mens hvis du er langt borte, kan du bruke klyngemodus.

Anbefalte artikler - Spark Install

Dette har vært en guide for hvordan du installerer Spark. Her har vi sett hvordan du distribuerer Apache Spark i frittstående modus og på toppen av ressurssjef YARN og også Noen tips og triks er også nevnt for en jevn installasjon av Spark. Du kan også se på følgende artikkel for å lære mer -

Slik bruker du gnistkommandoer
En karriere i Spark - You Must Try
Forskjeller av Splunk vs Spark
Spark Interview Spørsmål og svar
Fordeler med gniststrømming
Typer ledd i Spark SQL (eksempler)

Installer Spark - Komplett guide for installasjon av gnist

Innholdsfortegnelse:

Hvordan installere gnist?

Spark består av forskjellige komponenter som kalles Spark Ecosystem Components.

Det er tre måter å installere eller distribuere gnist til systemene dine på:

Spark frittstående modus for distribusjon:

Trinn 1: Oppdater pakkeindeksen

Trinn 2: Installer Java Development Kit (JDK)

Trinn 3: Sjekk om Java har installert riktig

Trinn 4: Installer Scala på maskinen din

Trinn 5: Kontroller om Scala er riktig installert

Trinn 6: Last ned Apache Spark

Trinn 7: Velg riktig versjon i henhold til Hadoop-versjonen din og klikk på lenken som er merket.

Trinn 8: Klikk på lenken som er merket, og Apache gnist vil bli lastet ned i systemet ditt.

Trinn 9: Installer Apache Spark

Trinn 10: Oppsettmiljøvariabel for Apache Spark

Trinn 11: Bekreft installasjonen av Apache Spark

Deployment of Spark på Hadoop YARN:

Tips og triks for å bruke gnistinstallasjon:

Anbefalte artikler - Spark Install

Netto arbeidskapitalformel - Kalkulator (Excel-mal)

Netto kontantstrømformel - Kalkulator (eksempler med Excel-mal)

Nettverksenheter - Liste over de fleste nettverksenheter med fordel

Nettverkskommandoer - Topp 9 kommandoer for nettverk

10 spørsmål om nettverksintervju om nettverk (Oppdatert for 2019)

VBA-valg - Hvordan bruke VBA til å velge et Excel-område? (Eksempler)

VBA Square Root - Hvordan bruke Square Root-funksjon i Excel VBA?

VBA Send e-post fra Excel - Hvordan sende e-postmeldinger ved hjelp av Excel VBA?

VBA Sub - Slik bruker du VBA-subfunksjon i Excel med eksempler

VBA StrComp - Hvordan bruker jeg VBA StrComp-funksjon i Excel?

JQuery Ajax Methods - Metoder med eksempler på jQuery Ajax

JQuery Effects - Topp12 de forskjellige typene av metodene for jQuery Effects

JPopupMenu - Konstruktører av JPopupMenu med topp 26 nyttige metoder

JQuery Events - Topp 25 JQuery-hendelser - syntaks og eksempel

JQuery Alternatives - Topp 7 alternativer med deres prøvebruk