Lag et beslutnings tre - Enkle måter å visualisere beslutningstreet diagram

Introduksjon til å lage et beslutnings tre

Med den nylige raske veksten av datamengden generert av informasjonssystemer, for å håndtere store datasett, er det et dominerende behov for beslutningstreet for å redusere beregningskompleksiteten. Et beslutnings tre kan betraktes som den viktigste tilnærmingen for å representere klassifiserere. Med andre ord kan vi si at dataene er strukturert ved å bruke en splitt og erobre strategi. opp til å vite at vi bare har utforsket. Et beslutnings tre er strukturert som et rammeverk for å nøyaktig verdiene og sannsynligheten for utfallsbeslutninger

m hvert nivå i noden, og hjelper beslutningstakere med å velge riktige spådommer blant de forskjellige upassende dataene. I denne artikkelen vil du gå gjennom hvordan du oppretter et beslutnings tre basert på eksempeldata på en enkel måte.

Hva er beslutningstreet?

Et beslutnings tre er en binær hierarkisk struktur som identifiserer måten hver node deler opp et datasett basert på forskjellige forhold. Å konstruere et optimalt tre med en modelltilnærming for å klassifisere en responsvariabel som forutsier verdien av en målvariabel med enkle beslutningsregler (if-then-else-uttalelser). Tilnærmingen er veiledet læring som oftest brukes i klassifiseringsproblemer og anses for å være en veldig effektiv prediktiv modell. De brukes i forskjellige applikasjonsdomener som spillteori, kunstig intelligens, maskinlæring, datamining og områder som sikkerhet og medisin.

Hvordan lage et beslutnings tre?

Et avgjørelsestre opprettes på enkle måter med ovenfra og ned-måten; de består av noder som danner en rettet knutepunkt som har rotknuter uten innkommende kanter. Alle andre noder kalles beslutningsnoder (interne noder og bladnoder som tilsvarer attributt- og klassetiketter) med minst en innkommende kanter. Hovedmålet fra datasettene er å minimere generaliseringsfeilene ved å finne den optimale løsningen i beslutningstreet.

Et eksempel på et beslutnings tre blir forklart nedenfor med et eksempeldatasett. Målet er å forutsi om en fortjeneste er nede eller oppover ved å bruke egenskapene til liv og konkurranse. Her er beslutningstreet-variablene kategoriske (Ja, Nei).

Datasettet

Liv	Konkurranse	Type	Profitt
Gammel	Ja	programvare	Ned
Gammel	Nei	programvare	Ned
Gammel	Nei	maskinvare	Ned
Mid	Ja	programvare	Ned
Mid	Ja	maskinvare	Ned
Mid	Nei	maskinvare	Opp
Mid	Nei	programvare	Opp
Ny	Ja	programvare	Opp
Ny	Nei	maskinvare	Opp
Ny	Nei	programvare	Opp

Fra ovennevnte datasett: liv, konkurranse, Type er prediktorene og attributtgevinsten er målet. Det er forskjellige algoritmer for å implementere et beslutnings tre, men den beste algoritmen som brukes til å bygge et beslutnings tre er ID3 som vektlegger grådig søkemetode. Avgjørelsestreet følger avgjørelsesinferensregel eller disjunktiv normalform (^).

Beslutningstre

Til å begynne med regnes alt treningsattributtet for å være roten. Ordreprioriteten for å plassere attributtene som rot, gjøres ved følgende tilnærming. Denne prosessen er kjent for å attributtvalg for å identifisere hvilket attributt som er laget til å være en rotnode på hvert nivå. Treet følger to trinn: konstruksjon av et tre, beskjæring av tre. Og dataene er delt i alle beslutningsnodene.

Informasjonsgevinst

Det er målet for endringen i entropi basert på den uavhengige variabelen. Avgjørelsestreet må finne den høyeste informasjonsgevinsten.

Entropy

Entropi er definert som for det endelige settet, målet for tilfeldighet i data eller hendelsesforutsigbarhet, hvis prøven er lignende verdier, er entropien null, og hvis den er like delt med prøven, er den en.

Entropi for klassen

Hvor p er sannsynligheten for å få fortjeneste til å si 'ja' og N er tap, si 'nei'.

derfor entropi = 1

Når entropiverdien er beregnet, er det nødvendig å bestemme en rotnode fra attributtet.

Aldersantropi

I henhold til datasettet for Life attributtet har vi gamle = 3 ned, midt = 2 ned og en opp angående fortjenestemerke.

Liv		Pi	ni	I (pi, ni)
	Gammel	0	3	0
	Mid	2	2	1
	Ny	3	0	0

Gevinst = klasse entropi - livets entropi = 1 - 0, 4 = 0, 6

Entropi (konkurranse) = 0, 87

Konkurranse		Pi	ni	I (pi, ni)
	Ja	1	3	0.8
	Nei	4	2	0.9

Gevinst = klasse entropi - livets entropi = 1 - 0, 87 = 0, 12

Nå oppstår problemet i attributtet Liv der midten har lik sannsynlighet både opp og ned. derfor er entropi 1. på samme måte beregnes det for type attributt igjen entropien er 1 og gevinsten er 0. Nå er det laget en fullstendig beslutning for å få et nøyaktig resultat for mellomverdien.

Fordeler med beslutningstreet

De er enkle å forstå, og reglene som genereres er fleksible. Har liten innsats for forberedelse av data.
En visuell tilnærming til å representere beslutninger og utfall er veldig nyttig.
Avgjørelsestreet håndterer treningsdatasettet med feil og manglende verdier.
De kan håndtere diskret verdi og et numerisk attributt. Det fungerer kategoriske og kontinuerlige variabler for input og output.
De er et nyttig verktøy for forretningsdomenet som må ta beslutninger etter analyse under visse betingelser.

Ulemper ved beslutningstreet

Elevene kan lage et komplekst beslutnings tre avhengig av trente data. denne prosessen blir betegnet som overmontering, en vanskelig prosess i beslutnings tre-modeller.
Verdiene som foretrekkes å være er kategoriske, hvis det er kontinuerlig, mister beslutnings-treet informasjon som fører til feilutsetting. Eksponentiell beregningsvekst er høyere mens du analyserer.
Mange klassetiketter fører til feil komplekse beregninger og gir lav forutsigelsesnøyaktighet av datasettet.
Informasjon hentet i DT-algoritmen gir et partisk svar på kategoriske høyere verdier.

Konklusjon

Avslutningsvis gir avgjørelsestrær derfor en praktisk og enkel metode for læring og sterkt kjent som effektive verktøy for maskinlæring da de på kort tid presterer godt med store datasett. Det er en læringsoppgave som bruker en statistisk tilnærming for å gjøre en generalisert konklusjon. Nå er det bedre forstått hvorfor beslutnings-treet brukes i prediktiv modellering, og for dataforskerne er de det kraftige verktøyet.

Anbefalte artikler

Dette er en guide for å lage et beslutnings tre. Her diskuterer vi hvordan du lager et beslutnings tre sammen med forskjellige fordeler og ulemper. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

Oversikt over Decision Tree i R
Hva er beslutnings-tre-algoritmen?
Introduksjon til kunstig intelligensverktøy
Topp 10 spørsmål om kunstig intelligensintervju

Lag et beslutnings tre - Enkle måter å visualisere beslutningstreet diagram

Innholdsfortegnelse:

Introduksjon til å lage et beslutnings tre

Hva er beslutningstreet?

Hvordan lage et beslutnings tre?

Datasettet

Beslutningstre

Informasjonsgevinst

Entropy

Entropi for klassen

Aldersantropi

Fordeler med beslutningstreet

Ulemper ved beslutningstreet

Konklusjon

Anbefalte artikler

CentOS vs Debian - 12 mest fantastiske forskjeller å lære

C Corp vs S Corp - Topp 6 beste forskjeller (med infografikk)

CCNA vs CCNP - Hvilken Cisco-sertifisering er fordelaktig? - eduCBA

CentOS-kommandoer - Nøkkelkonsept og toppkommandoer fra CentOS

CentOS vs Fedora - Vet de topp 8 nyttige forskjeller

Primtall i C ++ - Finn primtall ved hjelp av forskjellige metoder

Prinsipper for smidig manifest - Oppdag de 12 prinsippene for smidig manifest

Prinsipper for animasjon - Undestanding de tolv grunnleggende prinsippene

Prinsipper for menneskelig ressursstyring - Roller og art av HRM

Prinsipper for smidig prosjektledelse - Topp 12 viktige prinsipper for smidig

MySQL Server - eksempler - Fordeler og arkitektur av MySQL

MySQL vs MongoDB - Topp 6 mest verdifulle forskjeller å lære

MySQL-kommandoer - Grunnleggende til avanserte MySQL-kommandoer

MySQL vs NoSQL - Hvilken er mer nyttig (med infografikk)

MySQL vs MySQLi - Topp 9 forskjeller å lære med Infographics