Introduksjon til Talend Open Studio

Talend tilbyr Open Studio, som er en åpen kildekode for dataintegrasjon. Den har mer enn 800 komponenter for forskjellige integrasjonsformål. Last ned Talend Open Studio fra https://www.talend.com/download/

Dataintegrasjon betyr å kombinere data fra forskjellige kilder og kombinere dem til en enkelt visning for å få noen betydningsfulle data fra det som kan hjelpe selskapet eller organisasjonen til å forbedre sin virksomhet ved å analysere disse dataene. Integrasjon hjelper deg med å skaffe data, rengjøre dataene og gjøre noen nødvendige transformasjoner osv., Og deretter laste dem inn i et datavarehus.

Hva er Talend?

Talend er et ETL-verktøy som brukes til dataintegrasjon. Talend gir en løsning for forberedelse av data, datakvalitet, dataintegrasjon og big data. Her skal vi diskutere noen av komponentene. For å gjøre det enkelt å se eksemplet nedenfor. En sim-operatør har enorme data om planer, kunder, simdetaljer, etc. Disse dataene er enorme, så store data brukes også i integrasjonen.

Kunde En å kjøpe en sim ved å bruke et regjerings-id

Gi navnet sitt som AB C

adresse som Chennai, Chennai

telefonnummer som 1234567890

Etter dataintegrasjon

Fornavn: AB

Etternavn: C

Adresse: Chennai, India

Telefonnummer: +911234567890

Her blir dataene renset og omgjort til noe mer meningsfylt.

fordeler

  • Analyse av forretningstrender ved bruk av dataintegrasjon
  • Kombinere data til et enkelt system
  • Tidsbesparende og mer effektiv og mindre omarbeiding
  • Enkel rapportgenerering - brukt av BI-verktøy
  • Vedlikeholde og sette inn data i datavarehuset og datamarsene

applikasjon

Her er følgende applikasjoner som nevnes nedenfor

1. Arbeide med Talend

  • Forsikre deg om at du har installert java og miljøvariabler.
  • Last ned åpen kildekode fra nettstedet Talend og installer programvaren.
  • Lag et nytt prosjekt og fullfør oppsettet
  • Talend åpnes med designerfanen.
  • Talend er et formørkelsesbasert verktøy, og komponentene kan dras fra paletten, eller du kan klikke og skrive inn komponentnavnet.

2. Den første jobben Lesing av en fil

  • Søk etter komponenten tFileinputdelimited. Denne komponenten brukes til å lese eventuelle avgrensede filer.
  • Plasser den tfileinput-avgrensede komponenten. Søk etter tlogrow og legg den i jobbdesigneren.
  • Høyreklikk tfileinputdelimited og velg rad-> hoved og tegne en linje for å tlogge.
  • I komponenten velger fanen banen til filen du vil lese og gir radskilleren som \ n. Hvis filen har avgrenser, kan du nevne avgrenseren.
  • Klikk på skjemaet og gi kolonnetypedetaljer, eller du kan lese hele raden som en streng med en kolonne og avgrensningsverdien skal være tom.
  • Du kan også hoppe over topptekst og bunntekst.
  • I tlogrow-komponenten velger du hvordan du vil se dataene. Tabellformat eller enkeltlinjeformat.
  • tlogrow viser utdata i kjørekonsollen.
  • Etter å ha koblet til både tfileinputdelimited og tlogrow, kjører du jobben fra run-fanen.
  • Du kan se filinnholdet i konsollen som skrives ut.

3. En annen jobb ved å bruke Tmap

  • Les en fil og filtrer den inn i forskjellige utdatafiler.
  • Les en fil i den tfileinputdelimerte komponenten med ett kolonneskjema som posten.
  • Tmap-komponent - Denne komponenten hjelper deg med å transformere data med noen innebygde funksjoner som oppslag, sammenføyninger, etc.
  • I tmap oppretter du to utganger out1 og out2.
  • I out1-filter legger du rad3.record.concepts (“talend”) og tegner posten til out1.
  • Tegn rekordlinjen til andre out2.

  • Ta hovedrader fra tmap og koble til to tfileoutputdelimited.
  • ut1 lenke til ett tfileoutputdelimited1 som file1.txt og out2 til andre tfileoutputdelimited2 som file2.txt.
  • txt vil ha poster som inneholder talent.
  • txt vil ha poster som har andre navn.

4. Innebygd og depot

  • Innebygd betyr at du bør angi skjema eller detaljer for tilkobling til en database hver gang.
  • Depotet er nyttig for å lagre detaljene i metadataene, slik at du kan gjenbruke de samme detaljene hver gang uten å legge inn detaljer manuelt hver gang. I metadata kan du lagre filskjema, databaseforbindelser, Hadoop-tilkobling, bikube-tilkobling, s3-tilkobling og mange flere.

Komponenter av Talend Open Studio

Her er følgende Komponenter av Talend Open Studio omtale nedenfor

1. tFileList

  • Denne komponenten lister opp filene i en katalog eller mappe med et gitt filmaskemønster.

2. tMysqlConnection

  • Denne komponenten brukes til å koble til mysql-databasen.
  • Mysql-komponenter kan bruke denne tilkoblingen for enkel konfigurering av tilkobling til databasen.

3. tMysqlinput

  • Denne komponenten hjelper til med å kjøre et mysql-database-spørsmål og få tabellen eller kolonnene. Denne komponenten brukes til å velge spørsmål og få detaljer.

4. tMysqlOutput

  • Denne komponenten brukes til å sette inn eller oppdatere data i Mysql-databasen.

5. tprejob

  • Denne komponenten er den første som utfører i jobben og kan kobles til andre komponenter med på subjob ok.

6. tpostjob

  • Denne komponenten er den siste som utfører i jobben. Du kan koble dette med tilkoblingsnære komponenter.

7. tømmerhenger

  • Denne komponenten fanger advarselen og feilene i jobben.
  • Den viktigste komponenten som brukes i feilhåndteringsteknikk.
  • Feillogger kan skrives ved hjelp av denne komponenten sammen med tfileoutputdelimited.
  • Det er mer enn 800 komponenter.

Kontekstvariabel

  • Kontekstvariabler er variabler som kan brukes i jobben hvor som helst.
  • Den har verdier og kan føres til en annen jobb også ved å bruke trun-komponent.
  • Bruken av kontekstvariabler er at vi kan endre verdien for forskjellige formål.
  • Vi kan for eksempel ha et sett med verdier for utviklingskontekstgruppen og et annet sett med kontekstverdier for produksjon.
  • På denne måten trenger vi ikke å endre jobben, bare å endre kontekstparametrene er nok.

Å bygge en jobb

  • For å bygge en jobb høyreklikk på jobben og velg byggjobb.
  • Du kan importere byggejobben i TAC.
  • I Talend Administration Console planlegger du en jobb for å utløse avhengigheten av stillingssettet også.
  • Du kan også importere jobben fra Nexus-depotet ved å bruke en artefaktjobb.

Lag en oppgave i TAC

  • Åpen jobbleder i TAC
  • Klikk på nye oppgaver og velg normale eller gjenstander.
  • Importer den bygde jobben, eller velg fra nexus.
  • Velg jobbserveren som talentet skal kjøres i.
  • Lagre oppgaven.
  • Nå kan du distribuere og kjøre jobben.

Konklusjon - Talend Open Studio

“Forenkle ETL og ELT med det ledende gratis open source ETL-verktøyet for big data.” Er merkelinja for open studio. Talend Bigdata har mange komponenter for å håndtere enorme data. Standardjobb, Bigdata-jobb, Bigdata-streamingjobber er de forskjellige typene jobber som er tilgjengelige i Talend. Bigdata-jobber kan opprettes i en gnist- eller kartreduseringsramme.

Anbefalte artikler

Dette er en guide til Talend Open Studio. Her diskuterer vi fordelene, applikasjonene og komponentene til Talend Open Studio. Du kan også se på følgende artikler for å lære mer -

  1. Veiledning for integrering av data fra Talend
  2. Viktige spørsmål om Talend-intervju
  3. Talend vs Mulesoft: Differences
  4. Talend vs Pentaho: 8 nyttige sammenligninger å lære

Kategori: