Introduksjon til KNN algoritme i R

I KNN-algoritmen i R står KNN for K nærmeste nabo-algoritme og R er et programmeringsspråk. Det sies å være den enkleste av maskinlæringsalgoritmen. KNN er en overvåket algoritme klassifiserer datapunkter i en målklasse ved å sammenligne funksjoner med sin nærmeste nabo.

Eksempel: La oss anta at du vil klassifisere en berøringsskjerm og en tastaturstelefon. Det er forskjellige faktorer som involverer å differensiere begge telefonene. Faktoren som skiller begge telefonene er imidlertid tastaturet. Så når vi mottar et datapunkt (dvs. telefon). Vi sammenligner det med de samme funksjonene i naboens datapunkter for å klassifisere det som et tastatur eller en berøringsenhet.

Funksjoner ved KNN-algoritmen

Her vil vi studere funksjonene i KNN Algoritme:

  • KNN-algoritmen bruker inndata for å forutsi datapunkter for utdata.
  • Algoritmen kan brukes på forskjellige sett med problemer.
  • Fokuserer på funksjonens likhet for å klassifisere dataene.
  • KNN-algoritmen håndterer realistiske data og gjør ingen antagelser om datapunktene.
  • KNN husker treningsdatasettet i stedet for å være intuitivt. Kan også sies at det har en lat tilnærming.
  • Det kan løse klassifiserings- og regresjonsproblemer.

Adressering av problemer i KNN-algoritmen i R

Følgende adresseringsproblem:

1. Klassifiseringsproblem

I klassifiseringsproblemet er verdiene diskrete akkurat som om du liker å spise pizza med pålegg eller uten. Det er felles grunn. KNN Algoritme hjelper deg med å løse et slikt problem.

2. Regresjonsproblem

Regresjonsproblemet kommer inn i bildet når vi har en avhengig variabel og en uavhengig variabel. Eks: BMI-indeks. Vanligvis inneholder hver rad en observasjon eller datapunkt og et eksempel.

KNN-algoritmen i R

La oss se på trinnene i algoritmen som skal følges:

Trinn 1: Legg inn dataene.

Trinn 2: Initialiser K med antall nærmeste naboer.

Trinn 3: Beregne dataene (dvs. avstand mellom nåværende og nærmeste nabo)

Trinn 4: Legge til avstanden til det gjeldende bestilte datasettet.

Trinn 5: Plukk opp K-oppføringer og merk dem.

Trinn 6: Returner middelverdien for regresjonsproblemet.

Trinn 7: Returner modusverdien for klassifiseringsproblemer.

Poeng du må huske på mens du implementerer KNN-algoritmen

  • Vi bør sørge for at K-verdien er større enn en, det hindrer i prediksjon å være nøyaktig.
  • Jo mer K-verdi, desto mer nøyaktig kan prediksjonen skyldes flertallet.
  • Det er å foretrekke å ha K som et oddetall. Ellers kan det føre til uavgjort.

KNN Pseudocode

I formelen nedenfor, representerer variabler og representerer datapunkter der (i = 1, 2, 3 ….)

Set(, )

Bruk tilfeller

Følgende er brukssaker i KNN-algoritme i R:

1. Sammenligning av produkter og hjelp i shoppinganbefalinger

Når vi kjøper en bærbar datamaskin eller datamaskin fra et elektronisk nettsted for e-handel, ser vi også shoppinganbefalinger som å kjøpe antivirusprogramvare eller høyttalere. Alt dette er fordi når en tidligere kunde kjøper en bærbar datamaskin, kjøpes den stort sett sammen med antivirus eller høyttalere. Læring av maskiner hjelper med e-handelsanbefalinger.

2. Matanbefalinger

Læring av maskiner hjelper også med anbefalinger basert på tidligere bestilt mat, og foreslår også restauranter deretter.

Eksempel på KNN-algoritmen

Følgende er eksemplene på KNN-algoritmen:

1. Importer data

La oss ta dummidataene om oss som forutsier t-skjortestørrelsen til en fyr med hjelp av høyde og vekt.

Høyde (cm) Vekt (kg) Størrelse
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Finne likhetene ved å beregne avstand

Vi kan bruke både Manhattan og Euklidisk avstand da dataene er kontinuerlige. Vi beregner avstanden mellom det nye prøven og treningsdatasettet, og finner deretter K-nærmeste.

Eksempel: La oss si at Raj har en høyde på 165 cm og veier 63 kg. Vi beregner euklidisk avstand ved å bruke den første observasjonen med den nye prøven: SQRT ((165-140) 2 + (63-58) 2)

3. Finne K-nærmeste naboer

La oss anta at K = 4, det er 4 kunder der 3 av dem hadde middels størrelse og 1 var stor størrelse. Den beste prediksjonen er mellomstore passer til Raj.

Forskjell mellom KNN og K-mean

Følgende er forskjellen:

  • KNN er en overvåket algoritme (avhengig variabel), mens K-middel er en ikke-overvåket algoritme (ingen avhengig variabel).
  • K-mean bruker en klyngeteknikk for å dele datapunkter som danner K-klynger. KNN bruker K-nærmeste naboer for å klassifisere datapunkter og kombinere dem.

Fordeler og ulemper ved KNN

Følgende er fordelene:

  • KNN-algoritmen er allsidig, kan brukes til klassifiserings- og regresjonsproblemer.
  • Ingen behov for en tidligere modell for å bygge KNN-algoritmen.
  • Enkelt og enkelt å implementere.

Følgende er ulempene:

  • Algoritmen etter hvert som antall prøver øker (dvs. antall variabler)

Anbefalte artikler

Dette er en guide til KNN-algoritme i R. Her diskuterer vi funksjoner, eksempler, pseudokode, trinn som skal følges i KNN-algoritmen. Du kan også gå gjennom andre relaterte artikler for å lære mer-

  1. Data Science algoritmer
  2. Hva er genetisk algoritme?
  3. Ruteringsalgoritmer
  4. Nevrale nettverksalgoritmer
  5. C ++ algoritme | Eksempler på C ++ algoritme

Kategori: