Introduksjon til KNN algoritme i R
I KNN-algoritmen i R står KNN for K nærmeste nabo-algoritme og R er et programmeringsspråk. Det sies å være den enkleste av maskinlæringsalgoritmen. KNN er en overvåket algoritme klassifiserer datapunkter i en målklasse ved å sammenligne funksjoner med sin nærmeste nabo.
Eksempel: La oss anta at du vil klassifisere en berøringsskjerm og en tastaturstelefon. Det er forskjellige faktorer som involverer å differensiere begge telefonene. Faktoren som skiller begge telefonene er imidlertid tastaturet. Så når vi mottar et datapunkt (dvs. telefon). Vi sammenligner det med de samme funksjonene i naboens datapunkter for å klassifisere det som et tastatur eller en berøringsenhet.
Funksjoner ved KNN-algoritmen
Her vil vi studere funksjonene i KNN Algoritme:
- KNN-algoritmen bruker inndata for å forutsi datapunkter for utdata.
- Algoritmen kan brukes på forskjellige sett med problemer.
- Fokuserer på funksjonens likhet for å klassifisere dataene.
- KNN-algoritmen håndterer realistiske data og gjør ingen antagelser om datapunktene.
- KNN husker treningsdatasettet i stedet for å være intuitivt. Kan også sies at det har en lat tilnærming.
- Det kan løse klassifiserings- og regresjonsproblemer.
Adressering av problemer i KNN-algoritmen i R
Følgende adresseringsproblem:
1. Klassifiseringsproblem
I klassifiseringsproblemet er verdiene diskrete akkurat som om du liker å spise pizza med pålegg eller uten. Det er felles grunn. KNN Algoritme hjelper deg med å løse et slikt problem.
2. Regresjonsproblem
Regresjonsproblemet kommer inn i bildet når vi har en avhengig variabel og en uavhengig variabel. Eks: BMI-indeks. Vanligvis inneholder hver rad en observasjon eller datapunkt og et eksempel.
KNN-algoritmen i R
La oss se på trinnene i algoritmen som skal følges:
Trinn 1: Legg inn dataene.
Trinn 2: Initialiser K med antall nærmeste naboer.
Trinn 3: Beregne dataene (dvs. avstand mellom nåværende og nærmeste nabo)
Trinn 4: Legge til avstanden til det gjeldende bestilte datasettet.
Trinn 5: Plukk opp K-oppføringer og merk dem.
Trinn 6: Returner middelverdien for regresjonsproblemet.
Trinn 7: Returner modusverdien for klassifiseringsproblemer.
Poeng du må huske på mens du implementerer KNN-algoritmen
- Vi bør sørge for at K-verdien er større enn en, det hindrer i prediksjon å være nøyaktig.
- Jo mer K-verdi, desto mer nøyaktig kan prediksjonen skyldes flertallet.
- Det er å foretrekke å ha K som et oddetall. Ellers kan det føre til uavgjort.
KNN Pseudocode
I formelen nedenfor, representerer variabler og representerer datapunkter der (i = 1, 2, 3 ….)
Set(, )
Bruk tilfeller
Følgende er brukssaker i KNN-algoritme i R:
1. Sammenligning av produkter og hjelp i shoppinganbefalinger
Når vi kjøper en bærbar datamaskin eller datamaskin fra et elektronisk nettsted for e-handel, ser vi også shoppinganbefalinger som å kjøpe antivirusprogramvare eller høyttalere. Alt dette er fordi når en tidligere kunde kjøper en bærbar datamaskin, kjøpes den stort sett sammen med antivirus eller høyttalere. Læring av maskiner hjelper med e-handelsanbefalinger.
2. Matanbefalinger
Læring av maskiner hjelper også med anbefalinger basert på tidligere bestilt mat, og foreslår også restauranter deretter.
Eksempel på KNN-algoritmen
Følgende er eksemplene på KNN-algoritmen:
1. Importer data
La oss ta dummidataene om oss som forutsier t-skjortestørrelsen til en fyr med hjelp av høyde og vekt.
Høyde (cm) | Vekt (kg) | Størrelse |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. Finne likhetene ved å beregne avstand
Vi kan bruke både Manhattan og Euklidisk avstand da dataene er kontinuerlige. Vi beregner avstanden mellom det nye prøven og treningsdatasettet, og finner deretter K-nærmeste.
Eksempel: La oss si at Raj har en høyde på 165 cm og veier 63 kg. Vi beregner euklidisk avstand ved å bruke den første observasjonen med den nye prøven: SQRT ((165-140) 2 + (63-58) 2)
3. Finne K-nærmeste naboer
La oss anta at K = 4, det er 4 kunder der 3 av dem hadde middels størrelse og 1 var stor størrelse. Den beste prediksjonen er mellomstore passer til Raj.
Forskjell mellom KNN og K-mean
Følgende er forskjellen:
- KNN er en overvåket algoritme (avhengig variabel), mens K-middel er en ikke-overvåket algoritme (ingen avhengig variabel).
- K-mean bruker en klyngeteknikk for å dele datapunkter som danner K-klynger. KNN bruker K-nærmeste naboer for å klassifisere datapunkter og kombinere dem.
Fordeler og ulemper ved KNN
Følgende er fordelene:
- KNN-algoritmen er allsidig, kan brukes til klassifiserings- og regresjonsproblemer.
- Ingen behov for en tidligere modell for å bygge KNN-algoritmen.
- Enkelt og enkelt å implementere.
Følgende er ulempene:
- Algoritmen etter hvert som antall prøver øker (dvs. antall variabler)
Anbefalte artikler
Dette er en guide til KNN-algoritme i R. Her diskuterer vi funksjoner, eksempler, pseudokode, trinn som skal følges i KNN-algoritmen. Du kan også gå gjennom andre relaterte artikler for å lære mer-
- Data Science algoritmer
- Hva er genetisk algoritme?
- Ruteringsalgoritmer
- Nevrale nettverksalgoritmer
- C ++ algoritme | Eksempler på C ++ algoritme