Lag et beslutnings tre - Enkle måter å visualisere beslutningstreet diagram

Innholdsfortegnelse:

Anonim

Introduksjon til å lage et beslutnings tre

Med den nylige raske veksten av datamengden generert av informasjonssystemer, for å håndtere store datasett, er det et dominerende behov for beslutningstreet for å redusere beregningskompleksiteten. Et beslutnings tre kan betraktes som den viktigste tilnærmingen for å representere klassifiserere. Med andre ord kan vi si at dataene er strukturert ved å bruke en splitt og erobre strategi. opp til å vite at vi bare har utforsket. Et beslutnings tre er strukturert som et rammeverk for å nøyaktig verdiene og sannsynligheten for utfallsbeslutninger

m hvert nivå i noden, og hjelper beslutningstakere med å velge riktige spådommer blant de forskjellige upassende dataene. I denne artikkelen vil du gå gjennom hvordan du oppretter et beslutnings tre basert på eksempeldata på en enkel måte.

Hva er beslutningstreet?

Et beslutnings tre er en binær hierarkisk struktur som identifiserer måten hver node deler opp et datasett basert på forskjellige forhold. Å konstruere et optimalt tre med en modelltilnærming for å klassifisere en responsvariabel som forutsier verdien av en målvariabel med enkle beslutningsregler (if-then-else-uttalelser). Tilnærmingen er veiledet læring som oftest brukes i klassifiseringsproblemer og anses for å være en veldig effektiv prediktiv modell. De brukes i forskjellige applikasjonsdomener som spillteori, kunstig intelligens, maskinlæring, datamining og områder som sikkerhet og medisin.

Hvordan lage et beslutnings tre?

Et avgjørelsestre opprettes på enkle måter med ovenfra og ned-måten; de består av noder som danner en rettet knutepunkt som har rotknuter uten innkommende kanter. Alle andre noder kalles beslutningsnoder (interne noder og bladnoder som tilsvarer attributt- og klassetiketter) med minst en innkommende kanter. Hovedmålet fra datasettene er å minimere generaliseringsfeilene ved å finne den optimale løsningen i beslutningstreet.

Et eksempel på et beslutnings tre blir forklart nedenfor med et eksempeldatasett. Målet er å forutsi om en fortjeneste er nede eller oppover ved å bruke egenskapene til liv og konkurranse. Her er beslutningstreet-variablene kategoriske (Ja, Nei).

Datasettet

Liv Konkurranse Type Profitt
Gammel Ja programvare Ned
Gammel Nei programvare Ned
Gammel Nei maskinvare Ned
Mid Ja programvare Ned
Mid Ja maskinvare Ned
Mid Nei maskinvare Opp
Mid Nei programvare Opp
Ny Ja programvare Opp
Ny Nei maskinvare Opp
Ny Nei programvare Opp

Fra ovennevnte datasett: liv, konkurranse, Type er prediktorene og attributtgevinsten er målet. Det er forskjellige algoritmer for å implementere et beslutnings tre, men den beste algoritmen som brukes til å bygge et beslutnings tre er ID3 som vektlegger grådig søkemetode. Avgjørelsestreet følger avgjørelsesinferensregel eller disjunktiv normalform (^).

Beslutningstre

Til å begynne med regnes alt treningsattributtet for å være roten. Ordreprioriteten for å plassere attributtene som rot, gjøres ved følgende tilnærming. Denne prosessen er kjent for å attributtvalg for å identifisere hvilket attributt som er laget til å være en rotnode på hvert nivå. Treet følger to trinn: konstruksjon av et tre, beskjæring av tre. Og dataene er delt i alle beslutningsnodene.

Informasjonsgevinst

Det er målet for endringen i entropi basert på den uavhengige variabelen. Avgjørelsestreet må finne den høyeste informasjonsgevinsten.

Entropy

Entropi er definert som for det endelige settet, målet for tilfeldighet i data eller hendelsesforutsigbarhet, hvis prøven er lignende verdier, er entropien null, og hvis den er like delt med prøven, er den en.

Entropi for klassen

Hvor p er sannsynligheten for å få fortjeneste til å si 'ja' og N er tap, si 'nei'.

derfor entropi = 1

Når entropiverdien er beregnet, er det nødvendig å bestemme en rotnode fra attributtet.

Aldersantropi

I henhold til datasettet for Life attributtet har vi gamle = 3 ned, midt = 2 ned og en opp angående fortjenestemerke.

Liv Pi ni I (pi, ni)
Gammel 0 3 0
Mid 2 2 1
Ny 3 0 0

Gevinst = klasse entropi - livets entropi = 1 - 0, 4 = 0, 6

Entropi (konkurranse) = 0, 87

Konkurranse Pi ni I (pi, ni)
Ja 1 3 0.8
Nei 4 2 0.9

Gevinst = klasse entropi - livets entropi = 1 - 0, 87 = 0, 12

Nå oppstår problemet i attributtet Liv der midten har lik sannsynlighet både opp og ned. derfor er entropi 1. på samme måte beregnes det for type attributt igjen entropien er 1 og gevinsten er 0. Nå er det laget en fullstendig beslutning for å få et nøyaktig resultat for mellomverdien.

Fordeler med beslutningstreet

  • De er enkle å forstå, og reglene som genereres er fleksible. Har liten innsats for forberedelse av data.
  • En visuell tilnærming til å representere beslutninger og utfall er veldig nyttig.
  • Avgjørelsestreet håndterer treningsdatasettet med feil og manglende verdier.
  • De kan håndtere diskret verdi og et numerisk attributt. Det fungerer kategoriske og kontinuerlige variabler for input og output.
  • De er et nyttig verktøy for forretningsdomenet som må ta beslutninger etter analyse under visse betingelser.

Ulemper ved beslutningstreet

  • Elevene kan lage et komplekst beslutnings tre avhengig av trente data. denne prosessen blir betegnet som overmontering, en vanskelig prosess i beslutnings tre-modeller.
  • Verdiene som foretrekkes å være er kategoriske, hvis det er kontinuerlig, mister beslutnings-treet informasjon som fører til feilutsetting. Eksponentiell beregningsvekst er høyere mens du analyserer.
  • Mange klassetiketter fører til feil komplekse beregninger og gir lav forutsigelsesnøyaktighet av datasettet.
  • Informasjon hentet i DT-algoritmen gir et partisk svar på kategoriske høyere verdier.

Konklusjon

Avslutningsvis gir avgjørelsestrær derfor en praktisk og enkel metode for læring og sterkt kjent som effektive verktøy for maskinlæring da de på kort tid presterer godt med store datasett. Det er en læringsoppgave som bruker en statistisk tilnærming for å gjøre en generalisert konklusjon. Nå er det bedre forstått hvorfor beslutnings-treet brukes i prediktiv modellering, og for dataforskerne er de det kraftige verktøyet.

Anbefalte artikler

Dette er en guide for å lage et beslutnings tre. Her diskuterer vi hvordan du lager et beslutnings tre sammen med forskjellige fordeler og ulemper. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Oversikt over Decision Tree i R
  2. Hva er beslutnings-tre-algoritmen?
  3. Introduksjon til kunstig intelligensverktøy
  4. Topp 10 spørsmål om kunstig intelligensintervju