Introduksjon til Talend Data Integration

Talend Data-integrasjon betyr å kombinere data fra forskjellige kilder og kombinere dem til en enkelt visning for å få noen betydningsfulle data fra det som kan hjelpe selskapet eller organisasjonen til å forbedre sin virksomhet ved å analysere disse dataene. Integrasjon hjelper deg med å skaffe data, rengjøre dataene og gjøre noen nødvendige transformasjoner osv., Og deretter laste dem inn i et datavarehus.

Hva er Talend Data Integration?

  • Talend er et ETL-verktøy som brukes til dataintegrasjon. Talend gir en løsning for forberedelse av data, datakvalitet, dataintegrasjon og big data.
  • Talend tilbyr Open Studio, som er en åpen kildekode for dataintegrasjon og big data.
  • Talend open studio hjelper deg med å håndtere enorme data med store datakomponenter. Den har mer enn 800 komponenter for forskjellige integrasjonsformål. Her skal vi diskutere noen av komponentene. For å gjøre det enkelt, se eksemplet nedenfor
  • En simoperatør har enorme data om planer, kunder, simdetaljer, etc. Disse dataene er enorme, så big data brukes også i integrasjonen.

Kunde En å kjøpe en sim ved å bruke et regjerings-id.
Gi navnet hans: AB C
Adresse som: Chennai, Chennai
Telefonnummer: 1234567890

Etter dataintegrasjon

Fornavn: AB
Etternavn: C
Adresse: Chennai, India
Telefonnummer: +911234567890

Her blir dataene renset og omgjort til noe mer meningsfylt.

Fordeler med dataintegrasjon

Her skal vi diskutere fordelene ved dataintegrasjon.

  1. Analyse av forretningstrender ved bruk av dataintegrasjon
  2. Kombinere data til et enkelt system
  3. Tidsbesparende og mer effektiv og mindre omarbeiding
  4. Enkel rapportgenerering - brukt av BI-verktøy
  5. Vedlikeholde og sette inn data i datavarehus og datamars

Anvendelse av Talend Data Integration

Her skal vi diskutere Application of Talend Data Integration.

1. Arbeide med Talend

  • Forsikre deg om at du har installert java og miljøvariabler.
  • Last ned åpen kildekode fra nettstedet Talend og installer programvaren.
  • Lag et nytt prosjekt og fullfør oppsettet
  • Talend åpnes med designerfanen.
  • Talend er et formørkelsesbasert verktøy, og komponentene kan dras fra paletten, eller du kan klikke og skrive inn komponentnavnet.

2. Første jobb som leser en fil

  • Søk etter komponenten tFileinputdelimited. Denne komponenten brukes til å lese eventuelle avgrensede filer.
  • Plasser komponenten tFileinputdelimited. Søk etter tLogRow og legg den i jobbdesigneren.
  • Høyreklikk tFileinputdelimited og velg rad-> hoved og tegne en linje til tLogRow.
  • I komponenten velger fanen banen til filen du vil lese og gir radskilleren som \ n. Hvis filen har avgrenser, kan du nevne avgrenseren.
  • Klikk på skjemaet og gi kolonnetypedetaljer, eller du kan lese hele raden som en streng med en kolonne og avgrensningsverdien skal være tom.
  • Du kan også hoppe over topptekst og bunntekst.
  • I tLogRow-komponenten velger du hvordan du vil se dataene. Tabellformat eller enkeltlinjeformat.
  • tLogRow viser utdata i kjørekonsollen.
  • Etter å ha koblet til både tFileinputdelimited og tLogRow, kjører du jobben fra kjørefanen.
  • Du kan se filinnholdet i konsollen som skrives ut.

3. Andre jobb ved å bruke Tmap

  • Les en fil og filtrer den inn i forskjellige utdatafiler.
  • Les en fil i komponenten tFileinputdelimited med ett kolonneskjema som post.
  • Tmap-komponent - Denne komponenten hjelper deg med å transformere data med noen innebygde funksjoner som oppslag, sammenføyninger, etc.
  • I tmap oppretter du to utganger out1 og out2.
  • I out1-filter legger du til record.concepts (“talend”) og tegner posten til out1.
  • Tegn rekordlinjen til andre out2.
  • Ta hovedrader fra tmap og koble til to tFileoutputdelimited.
  • ut1 lenke til ett tfileoutputdelimited1 som file1.txt og out2 til andre tfileoutputdelimited2 som file2.txt.
  • txt vil ha poster som inneholder talent.
  • txt vil ha poster som har andre navn.

4. Innebygd og depot

  • Innebygd betyr at du bør angi skjema eller detaljer for tilkobling til en database hver gang.
  • Depotet er nyttig for å lagre detaljene i metadataene, slik at du kan gjenbruke de samme detaljene hver gang uten å legge inn detaljer manuelt hver gang. I metadata kan du lagre filskjema, databaseforbindelser, Hadoop-tilkobling, bikube-tilkobling, s3-tilkobling og mange flere.

Komponenter av Talend Data Integration

Her skal vi diskutere komponentene i Talend Data Integration.

1. tFileList: Denne komponenten lister opp filene i en katalog eller mappe med et gitt filmaskemønster.

2. tMysqlConnection: Denne komponenten brukes til å koble til MySQL-databasen. Mysql-komponenter kan bruke denne tilkoblingen for enkel konfigurering av tilkobling til databasen.

3. tMysqlInput: Denne komponenten hjelper deg med å kjøre et mysql-databasespørsmål og få tabellen eller kolonnene. Denne komponenten brukes til å velge spørsmål og få detaljer.

4. tMysqlOutput: Denne komponenten brukes til å sette inn eller oppdatere data i Mysql-databasen.

5. tFrejobb: Denne komponenten er den første som utfører i jobben og kan kobles til andre komponenter med på Subjob ok.

6. tPostjob: Denne komponenten er den siste som utfører i jobben. Du kan koble dette med tilkoblingsnære komponenter.

7. tLogcatcher: Denne komponenten fanger advarselen og feilene i jobben. Dette er den viktigste komponenten som brukes i feilhåndteringsteknikken. Feillogger kan skrives ved hjelp av denne komponenten sammen med tfileoutputdelimited. Det er mer enn 800 komponenter.

8. Kontekstvariabel: Kontekstvariabler er variabler som kan brukes i jobben hvor som helst. Den har verdier og kan føres til en annen jobb også ved å bruke tRun-komponenter. Bruken av kontekstvariabler er at vi kan endre verdien til forskjellige formål. Vi kan for eksempel ha et sett med verdier for utviklingskontekstgruppen og forskjellige sett med kontekstverdier for produksjon. På denne måten trenger vi ikke å endre jobben, bare å endre kontekstparametrene er nok.

9. Å bygge en jobb: For å bygge en jobb høyreklikk på jobben og velg en byggejobb. Du kan importere byggejobben i TAC. I Talend Administration Console planlegger du en jobb for å utløse avhengigheten av stillingssettet også. Du kan også importere jobben fra Nexus-depotet ved å bruke en artefaktjobb.

10. Lag en oppgave i TAC: Åpne jobbleder i TAC. Klikk på nye oppgaver og velg normale eller gjenstander. Importer byggejobben, eller velg fra nexus. Velg jobbserveren som talentet skal kjøres i. Lagre oppgaven. Nå kan du distribuere og kjøre jobben.

Konklusjon

  • “Forenkle ETL og ELT med det ledende gratis open source ETL-verktøyet for big data.” Er merkelinja for open studio.
  • Talend Bigdata har mange komponenter for å håndtere enorme data.
  • Standardjobb, Bigdata-jobb, Bigdata-streamingjobber er de forskjellige typene jobber som er tilgjengelige i Talend.
  • Bigdata-jobber kan opprettes i en gnist eller MapReduce-ramme.

Anbefalt artikkel

Dette er en guide til Talend Data Integration. Her diskuterer vi introduksjonen til Talend Data Integration og fordelene sammen med applikasjoner og komponenter. Du kan også gå gjennom våre andre foreslåtte artikler for å lære mer

  1. Dataintegrasjonsverktøy | Beste 12 verktøy
  2. Spørsmål og svar på Talendintervju
  3. Beste datavisualiseringsverktøy med dens typer
  4. Talend vs Mulesoft - Differences
  5. Hva er Data Mart?

Kategori: