Introduksjon til Ensemble Methods in Machine Learning

I denne artikkelen vil vi se en oversikt over Ensemble Methods in Machine Learning. Ensemblæring er en kombinasjon av forskjellige maskinlæringsteknikker til en prediktiv modell for å forbedre prediksjonen. Ensembellæring erverves for å redusere variansen i prediktive data. Denne typen læring er ment å minimere skjevheten i modellen. Ensemble learning er et flermodellsystem der forskjellige klassifisere eller teknikker kombineres strategisk for å klassifisere eller forutsi statistikk fra det komplekse problemet med bedre nøyaktighet. Målet med slik læring er å minimere sannsynligheten for et dårlig utvalg fra modellen. Det utnevner tilliten til beslutningen som er tatt av modellen. Ideen om å velge optimale funksjoner har realisert seg i ensemblæring.

Typer ensemblemetoder i maskinlæring

Ensemblemetoder hjelper til med å lage flere modeller og kombinerer dem for å gi forbedrede resultater. Noen ensemblemetoder er kategorisert i følgende grupper:

1. Sekvensielle metoder

I denne typen Ensemble-metoder er det sekvensielt genererte baselever hvor datavhengighet bor. Annenhver data i baselæreren er avhengig av tidligere data. Så de tidligere feilmerkede dataene er innstilt basert på deres vekt for å få ytelsen til det generelle systemet forbedret.

Eksempel : Boosting

2. Parallell metode

I denne typen Ensemble-metoder genereres baselæreren i parallell rekkefølge der datavhengighet ikke er der. Alle data i grunnleggeren genereres uavhengig av hverandre.

Eksempel : Stabling

3. Homogent ensemble

En slik ensemblemetode er en kombinasjon av de samme typene klassifiserere. Men datasettet er forskjellig for hver klassifiserer. Dette vil få den kombinerte modellen til å fungere mer presist etter aggregeringen av resultatene fra hver modell. Denne typen ensemblemetoder fungerer med et stort antall datasett. I den homogene metoden er funksjonsvalgmetoden den samme for forskjellige treningsdata. Det er beregningsdyktig.

Eksempel: Populære metoder som bagging og boosting kommer inn i det homogene ensemblet.

4. Heterogene ensemble

En slik ensemblemetode er kombinasjonen av forskjellige typer klassifiserere eller maskinlæringsmodeller der hver klassifiserer bygger på de samme dataene. En slik metode fungerer for små datasett. I heterogen er metoden for valg av funksjoner forskjellig for de samme treningsdataene. Det samlede resultatet av denne ensemblemetoden utføres ved å beregne gjennomsnittet av alle resultatene for hver kombinerte modell.

Eksempel : Stabling

Teknisk klassifisering av ensemblemetoder

Nedenfor er den tekniske klassifiseringen av Ensemble Methods:

1. Bagging

Denne ensemblemetoden kombinerer to maskinlæringsmodeller, dvs. Bootstrapping og Aggregation til en enkelt ensemblemodell. Målet med posemetoden er å redusere modellens høye varians. Avgjørelsetrærne har varians og lav skjevhet. Det store datasettet er (f.eks. 1000 prøver) undersamplet (si 10 delprøver hver inneholder 100 prøver med data). Trærne med flere beslutninger er bygget på hver treningsdata for delprøven. Mens du slår inn de underprøvde dataene om de forskjellige beslutningstrærne, reduseres bekymringen for overdreven montering av treningsdata på hvert beslutnings tre. For effektiviteten av modellen dyrkes hvert av de enkelte beslutnings-trærne dypt og inneholder delprøvde treningsdata. Resultatene fra hvert beslutnings tre blir samlet for å forstå den endelige prediksjonen. Variasjonen av de aggregerte dataene reduseres. Nøyaktigheten av prediksjonen av modellen i bagging-metoden avhenger av antall beslutnings-tre som brukes. Den forskjellige delprøven av en eksempeldata velges tilfeldig med erstatning. Utgangen til hvert tre har en høy korrelasjon.

2. Boosting

Det boostende ensemblet kombinerer også forskjellig samme type klassifiserer. Boosting er en av de sekvensielle ensemblemetodene der hver modell eller klassifiserer kjører basert på funksjoner som vil brukes av neste modell. På denne måten utgjør boosting-metoden en sterkere elevmodell fra svake elevens modeller ved å beregne vekten deres. Med andre ord, en sterkere trent modell avhenger av de flere svake trente modellene. En svak elev eller en slitetrenet modell er en som er veldig mindre korrelert med ekte klassifisering. Men den neste svake eleven er litt mer korrelert med ekte klassifisering. Kombinasjonen av så forskjellige svake elever gir en sterk elev som er godt korrelert med den sanne klassifiseringen.

3. Stabling

Denne metoden kombinerer også flere klassifiseringer eller regresjonsteknikker ved bruk av en metaklassifiserer eller metamodell. De lavere nivåene modellene er trent med det komplette treningsdatasettet, og deretter blir den kombinerte modellen trent med resultatene fra lavere nivå modeller. I motsetning til boosting, gjennomgås hver lavere nivåmodell i parallelltrening. Prediksjonen fra modellene på lavere nivå blir brukt som input for neste modell som treningsdatasettet og danner en stabel der toppsjiktet av modellen er mer trent enn det nederste laget av modellen. Toppsjiksmodellen har god prediksjonsnøyaktighet, og de er basert på modeller på lavere nivå. Bunken fortsetter å øke til den beste prediksjonen blir utført med et minimum feil. Forutsigelsen av den kombinerte modellen eller metamodellen er basert på prediksjonen av de forskjellige svake modellene eller lavere lagsmodellene. Det fokuserer for å produsere mindre skjevhet modell.

4. Tilfeldig skog

Den tilfeldige skogen er litt forskjellig fra bagging, ettersom den bruker dype trær som er montert på bootstrap-prøver. Utgangen fra hver lokk kombineres for å redusere variansen. Mens vi dyrker hvert tre, i stedet for å generere en bootstrap-prøve basert på observasjon i datasettet, prøver vi også datasettet basert på funksjoner og bruker bare en tilfeldig undergruppe av en slik prøve for å bygge treet. Med andre ord blir prøvetaking av datasettet basert på funksjoner som reduserer korrelasjonen mellom forskjellige utganger. Den tilfeldige skogen er bra for å bestemme for manglende data. Tilfeldig skog betyr tilfeldig valg av en delmengde av en prøve som reduserer sjansene for å få relaterte prediksjonsverdier. Hvert tre har en annen struktur. Tilfeldig skog resulterer i en økning i skogens skjevhet, men på grunn av gjennomsnittet av all mindre relatert prediksjon fra forskjellige trær, reduseres den resulterende variasjonen og gir generelt bedre ytelse.

Konklusjon

Ensemblets flermodelltilnærming realiseres av dype læringsmodeller der komplekse data har studert og behandlet gjennom så forskjellige kombinasjoner av klassifiseringen for å få bedre prediksjon eller klassifisering. Forutsigelsen av hver modell i ensemble-læring må være mer ukorrelert. Dette vil holde skjevheten og variansen til modellen så lav som mulig. Modellen vil være mer effektiv og forutsi output under minimum feil. Ensemblet er en overvåket læringsalgoritme ettersom modellen tidligere er trent med datasettet for å gjøre prediksjonen. I ensemblæring bør antallet komponentklassifiserere være det samme som klassetiketter for å oppnå høy nøyaktighet.

Anbefalte artikler

Dette er en guide til Ensemble Methods in Machine Learning. Her diskuterer vi viktige typer ensemblemetoder i maskinlæring sammen med teknisk klassifisering. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Introduksjon til ensembleteknikker
  2. Maskinlæring livssyklus med fordeler
  3. Maskinlæringsalgoritmer
  4. Topp 24 spørsmål om maskinlæring

Kategori: