Decision Tree i R - Omfattende guide til Decision Tree i R

Oversikt over Decision Tree i R

Et beslutnings tre i r er en form for veiledet læring som brukes til å rette opp klassifiserings- og regresjonsproblemene. De er en sterk maskinlæringsalgoritme for å jobbe med veldig komplekse datasett. Kjernekonseptet bak beslutningstreet er å dele opp det gitte datasettet. For å gå gjennom denne artikkelen foreslås det å ha grunnleggende læringskonsepter på beslutnings-tre-algoritmen.

Avgjørelsestre i R

For å jobbe med et beslutnings-tre i R eller i lekmannsbetingelser er det nødvendig å jobbe med store datasett og direkte bruk av innebygde R-pakker gjør arbeidet enklere. Et beslutnings tre er ikke-lineær antagelsesmodell som bruker en trestruktur for å klassifisere forholdene. Beslutnings-treet i R bruker to typer variabler: kategorisk variabel (Ja eller Nei) og kontinuerlige variabler. Terminologiene til Decision Tree som består av rotnoden (danner en klassemerke), beslutningsnoder (undernoder), terminalnode (deles ikke videre). Det unike konseptet bak denne tilnærmingen til maskinlæring er at de klassifiserer de gitte dataene i klasser som danner ja eller nei flyt (hvis-ellers tilnærming) og representerer resultatene i en trestruktur. Algoritmen som brukes i Decision Tree i R er Gini-indeksen, informasjonsgevinst, Entropy. Det er forskjellige pakker tilgjengelig for å bygge et beslutnings tre i R: rpart (rekursivt), parti, tilfeldig skog, CART (klassifisering og regresjon). Det er ganske enkelt å implementere et Decision Tree i R.

For tydelig analyse er treet delt inn i grupper: et treningssett og et testsett. Følgende implementering bruker et bildatasett. Dette datasettet inneholder 1727 obs og 9 variabler, som klassifiseringstreet er bygget med. I denne artikkelen kan tre en "fest" -pakke. Funksjonen oppretter () gir betingede trær med plottfunksjonen.

Implementering ved bruk av R

Målet er å studere et bildatasett for å forutsi om en bilverdi er høy / lav og middels.

i) Utarbeide data

Installere pakkene og laste inn biblioteker

Denne modulen leser datasettet som en komplett dataramme, og strukturen til dataene er gitt som følger:

data<-car // Reading the data as a data frame str(data) // Displaying the structure and the result shows the predictor values.

Produksjon:

Determining Factordata$vhigh View(car) > data<-car

ii) Partisjonere en data

Del opp dataene ved å bruke treningsdatasett. Et beslutnings tre er delt inn i undernoder for å ha god nøyaktighet. Kompleksiteten bestemmes av størrelsen på treet og feilraten. Her å gjøre reproduktivitet og generere en rekke rader.

set. Seed (1234) dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2)) validate<-data(dt==2, )

Fig : Viser dataverdier

Deretter gjør dataverdien til 2

validate<-data(dt==2, )

Fig : Viser R-konsoll i R Studio

Opprette et beslutningstre i R med pakkefesten

Klikk på pakke-> installer -> fest. Her har vi tatt de tre første innspillene fra utvalget av 1727 observasjoner på datasett. Lage en modell for å forutsi høyt, lavt, middels blant innspillene.

Gjennomføring:

library(party) tree<-ctree(v~vhigh+vhigh.1+X2, data = train) tree

Produksjon:

Tomter ved bruk av Ctree

Prediksjon:

Prob genererer sannsynlighet for scoring,

Gjennomføring:

predict(tree, validate, type="prob") predict(tree, validate)

(1) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(12) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(23) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(34) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(45) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(56) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(67) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(78) vhigh vhigh vhigh high high high high high high high high

(89) høy høy høy høy høy høy høy høy høy høy høy

(100) høy høy høy høy høy høy høy høy høy høy høy

(111) høyt høyt høyt høyt høyt høyt høyt høyt høyt høyt høyt

(122) høy høy høy høy høy høy høy høy høy høy høy

(133) høy høy høy høy høy høy høy høy høy høy høy

(144) høyt høyt høyt høyt høyt høyt høyt høyt høyt høyt høyt

(155) høy høy høy høy høy høy høy høy høy høy høy

(166) høyt høyt høyt høyt høyt høyt høyt høyt høyt høyt høyt

(177) high high high high med med med med med med med med

(188) med med med med med med med med med med med med

(199) med med med med med med med med med med med med med

(210) med med med med med med med med med med med med med

(221) med med med med med med med med med med med med

(232) med med med med med med med med med med med

(243) med med med med med med med med med med med med

(254) med med med med med med med med med med med lav med lavt

(265) lav lav lav lav lav lav lav lav lav lav lav

(276) lav lav lav lav lav lav lav lav lav lav lav

(287) lav lav lav lav lav lav lav lav lav lav lav

(298) lav lav lav lav lav lav lav lav lav lav lav

(309) lav lav lav lav lav lav lav lav lav lav lav

(320) lav lav lav lav lav lav lav lav lav lav lav

(331) lav lav lav lav lav

Nivåer: høyt lavt med høy

Avgjørelses tre ved bruk av rpart

For å forutsi klassen ved å bruke rpart () -funksjonen for klassemetoden. rpart () bruker Gini-indeksmålet for å dele noder.

library(rpart) tr<-rpart (v~vhigh+vhigh.1+X2, train) library (rpart. plot) rpart. plot(tr)

“

rpart.plot(tr, extra=2)

Denne linjen plotter treet og for å vise sannsynligheten for å gjøre ekstra funksjoner til sett 2, og resultatet produsert er gitt nedenfor.

Feil ved feilklassifisering

Feilfrekvensen forhindrer overmontering.

tbl<-table(predict(tree), train $v) print(tbl) tepre<-predict(tree, new=validate)

Produksjon:

ut (TBL)

høy lav med vhigh

høy 332 0 0 0

lav 0 359 0 0

med 0 0 350 0

høy 0 0 0 351

Konklusjon

Avgjørelsestreet er en viktig utfordring i R, og styrken til treet er at de er enkle å forstå og lese når de sammenlignes med andre modeller. De blir populært brukt i datavitenskapelige problemer. Dette er verktøyet som produserer hierarkiet av beslutninger implementert i statistisk analyse. Det kreves statistisk kunnskap for å forstå de logiske tolkningene av beslutningstreet. Som vi har sett, er avgjørelsestreet enkelt å forstå, og resultatene er effektive når det har færre klassetiketter, og den andre ulempen med dem er når det er flere klassetikettberegninger som blir komplekse. Dette innlegget gjør at man blir dyktig til å bygge prediktive og trebaserte læringsmodeller.

Anbefalte artikler

Dette er en guide til Decision Tree i R. Her diskuterer vi introduksjonen, hvordan du bruker og implementerer R. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

Hva er et binærtre i Java?
R Programmeringsspråk
Hva er Visual Studio Code?
Introduksjon til linjediagram i R
Guide to Binomial Distribution in R

Decision Tree i R - Omfattende guide til Decision Tree i R

Innholdsfortegnelse:

Oversikt over Decision Tree i R

Avgjørelsestre i R

Implementering ved bruk av R

i) Utarbeide data

ii) Partisjonere en data

Konklusjon

Anbefalte artikler

Haskell Alternativer - Lær de 6 beste Haskell-alternativene

Haskell vs Scala - Kjenn de 9 mest nyttige forskjellene

HashMap vs TreeMap - Topp 12 forskjell å lære (Infographics)

HBase Architecture - Konsept & komponenter - Funksjoner og fordeler

Topp 10 spørsmål og svar på HBase-intervjuet (Oppdatert for 2019)

Sett inn i MySQL - Implementere Sett inn kommando i MySQL med eksempler

Inner Bli med i Oracle - Lær Topp 6 spørringseksempler på indre sammenheng i Oracle

8 effektive måter å være mer innovative hver dag

Sett inn bilde i AutoCAD - Prosess og trinn for å sette inn bilde i AutoCAD

Sett inn Sorter i JavaScript - Komplett guide til innsetting Sorter i JavaScript

Slik fjerner du rynker i Photoshop - Photoshop Essentials

Slik smelter du sammen lag i Photoshop uten å flate ut bildet

Slik bruker du Adobe Bridge til å administrere og organisere bildene

Gjør valg med pennverktøyet i Photoshop

Fotoredigering Hurtigtips: Øk kontrast med blandingsmodus i Photoshop