Oversikt over Random Forest Algorithm

Algoritmer er et sett med trinn som følges for å gjøre en kompleks beregning for å løse problemer. Algoritmer opprettes for å løse maskinens læringsproblemer. Tilfeldig skogalgoritme er en slik algoritme som brukes til maskinlæring. Den brukes til å trene dataene basert på tidligere matede data og forutsi mulig utfall for fremtiden. Det er en veldig populær og kraftig maskinlæringsalgoritme.

Forståelse av den tilfeldige skogalgoritmen

Den tilfeldige skogalgoritmen er basert på veiledet læring. Det kan brukes til både regresjons- og klassifiseringsproblemer. Som navnet antyder, kan Tilfeldig skog sees på som en samling av flere beslutnings-trær-algoritmer med tilfeldig prøvetaking. Denne algoritmen er laget for å utrydde manglene i beslutnings-tre-algoritmen.

Tilfeldig skog er en kombinasjon av Breimans "bagging" -idee og tilfeldig utvalg av funksjoner. Tanken er å gjøre prediksjonen presis ved å ta gjennomsnitt eller modus for resultatet av flere beslutnings-trær. Jo større antall avgjørelsetrær anses, desto mer presis blir resultatet.

Working of Random Forest:

For å forstå bruken av den tilfeldige skogen, må vi først forstå bruken av beslutnings-treet ettersom den tilfeldige skogen er basert på beslutnings-trær.

Beslutningstre-

Det er en enkel, men populær algoritme som følger en ovenfra og ned-tilnærming. Hver node i avgjørelsestreet representerer et attributt, og bladet representerer utfallet. Grener som knytter noder til blader er beslutningene eller reglene for prediksjon. Rotknoden er attributtet som best beskriver treningsdatasettet. Dermed blir den totale prosessen diagrammet inn i en tre-lignende struktur.

Begrensninger i beslutningstreet: Det har en tendens til å overutfylle treningsdatasettet. Derfor kan resultater være forskjellige når de brukes med en test eller forskjellige datasettresultater. Det fører til dårlige avgjørelser. Trær kan være ustabile da en liten endring i data kan føre til et helt annet tre.

Tilfeldig skog bruker posemetoden for å oppnå ønsket resultat. Konseptet er å anvende beslutnings tre-algoritmen på datasettet, men hver gang med forskjellige prøver av treningsdata. Resultatet av disse beslutnings-trærne vil være forskjellig og kan være partisk basert på treningsdataene som mates til algoritmen. Så den endelige utskriften kan tas som gjennomsnitt eller modus for utdataene fra individuelle beslutnings-treet. Derfor kan variansen reduseres. Prøvetakingen kan gjøres med erstatning. Resultatene fra beslutnings-trær er rangert, og den med høyest rangering vil være den endelige produksjonen av Random Forest. Dermed vil det oppnådde resultatet være mindre partisk og mer stabilt.

Betydningen av tilfeldig skogalgoritme:

  • Tilfeldig skogalgoritme kan brukes til både regresjons- og klassifiseringsmodeller for maskinlæring.
  • Den kan også håndtere manglende verdier i datasettet.
  • I motsetning til avgjørelsestreet, vil den ikke overpasse modellen og kan også brukes til kategoriske variabler. Tilfeldig skog tilfører modellen tilfeldighet.
  • I motsetning til avgjørelsetrær, i stedet for å søke på den viktigste funksjonen for å bygge et beslutnings-tre rundt, søker den etter den beste funksjonen ved å bruke en tilfeldig delmengde av funksjoner for trær.
  • Og generer deretter utdataene basert på den mest rangerte utdataen fra underavgjørelsestrær.

Ekte liv Eksempel

Anta at en jente som heter Lisa vil starte en bok, så hun gikk til en av vennene hennes David og ba om hans forslag. Han foreslo Lisa en bok basert på forfatteren hun hadde lest. På samme måte dro hun til noen få andre venner for forslagene deres, og basert på sjangeren, forfatteren og forlaget foreslo de noen bøker. Hun laget en liste over det. Så kjøpte hun en bok som de fleste av vennene hennes hadde foreslått.

Anta at vennene hennes er avgjørelsestre og sjanger, forfatter, utgiver osv. Som kjennetegn på data. Derfor går Lisa til forskjellige venner som en representasjon av forskjellige beslutnings-trær. Derfor er utgangen fra algoritmen den boken som fikk flest stemmer.

Tilfeldige skogalgoritme-applikasjoner:

  • Tilfeldig skogalgoritme brukes på mange felt som bank, e-handel, medisin, aksjemarked, etc.
  • I bankbruk brukes det til å bestemme lojale kunder og bedragerikunder. Den brukes til å oppdage hvilken kunde som kan betale tilbake lånet. Fordi i bank er det veldig viktig å utstede lån bare til de kundene som vil kunne betale det i tide. En tilfeldig skog brukes også til å forutsi om en kunde er uredelig eller ikke. Bankens vekst avhenger av en slik type prediksjon.
  • I det medisinske feltet blir den tilfeldige skogen brukt til å diagnostisere sykdommen basert på pasienter fra tidligere journaler.
  • I aksjemarkedet brukes den tilfeldige skogen for å identifisere markedet og aksjeoppførselen.
  • Innen elektronisk handel brukes denne algoritmen til å forutsi kundens preferanser basert på tidligere oppførsel.

Fordel:

  • Som nevnt ovenfor kan tilfeldig skogalgoritme brukes til både regresjon og klassifisering type problem. Den er enkel å bruke. Overfitting av datasettet er ikke et problem i den tilfeldige skogalgoritmen.
  • Den kan brukes til å identifisere den viktigste funksjonen blant tilgjengelige funksjoner. Ved bruk av hyperparameter produseres ofte gode spådommer, og det er veldig enkelt å forstå.
  • Den tilfeldige skogen har høy nøyaktighet, fleksibilitet og mindre varians.

Ulempe:

  • Når antall trær øker, blir algoritmen treg og ineffektiv når det gjelder å håndtere scenarier i sanntid.
  • Tilfeldig skog er mer tidkrevende sammenlignet med beslutningstaket.
  • Det krever også mer ressurser for beregning.

Eksempler: Bedrifter bruker maskinlæringsalgoritmer for å forstå kundene sine bedre og utvide virksomheten. Tilfeldig skogalgoritme kan brukes til å forstå kundens preferanser. Det kan også brukes til å forutsi sannsynligheten for at en person kjøper et bestemt produkt. Anta at gitt kjennetegn som vekt, høyde, farge, gjennomsnitt, drivstofforbruk osv. Av et kjøretøy, kan selskapet forutsi om det vil være et vellykket produkt i markedet eller ikke. Det kan brukes til å identifisere faktorer som er ansvarlige for høyt salg.

Konklusjon:

Den tilfeldige skogalgoritmen er enkel å bruke og en effektiv algoritme. Det kan forutsi med høy nøyaktighet, og det er derfor det er veldig populært.

Anbefalte artikler

Dette har vært en guide til den tilfeldige skogalgoritmen. Her diskuterer vi arbeidet, forståelsen, viktigheten, anvendelsen, fordeler og ulemper ved den tilfeldige skogalgoritmen. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Hva er en algoritme?
  2. Naive Bayes algoritme
  3. Hva er en grådig algoritme?
  4. Hva er en datasjø?
  5. Mest brukte teknikker for læring av ensemble