K- Betyr Clustering Algoritm - Slik fungerer det - Analyse og implementering

Introduksjon til K-Betyr Clustering Algoritm?

K- Betyr klynging tilhører den uovervåkte læringsalgoritmen. Det brukes når dataene ikke er definert i grupper eller kategorier, dvs. umerkede data. Målet med denne grupperingsalgoritmen er å søke og finne gruppene i dataene, der variabel K representerer antall grupper.

Forståelse av K- betyr klusteralgoritme

Denne algoritmen er en iterativ algoritme som deler datasettet i henhold til deres funksjoner i K antall forhåndsdefinerte, ikke overlappende distinkte klynger eller undergrupper. Det gjør datapunktene til mellomklynger så like som mulig, og prøver også å holde klyngene så langt som mulig. Den tildeler datapunktene til en klynge hvis summen av den kvadratiske avstanden mellom klyngens centroid og datapunktene er på et minimum der klyngens centroid er det aritmetiske gjennomsnittet av datapunktene som er i klyngen. En mindre variasjon i klyngen resulterer i lignende eller homogene datapunkter i klyngen.

Hvordan fungerer K-Betyr Clustering-algoritmen?

K- Betyr Clustering Algorithm trenger følgende innganger:

K = antall undergrupper eller klynger
Eksempel eller treningssett = (x ₁, x ₂, x ₃, ……… x _n )

La oss nå anta at vi har et datasett som ikke er merket, og at vi trenger å dele det inn i klynger.

Nå må vi finne antall klynger. Dette kan gjøres ved to metoder:

Albuemetode.
Formål Metode.

La oss diskutere dem kort:

Albuemetode

I denne metoden tegnes en kurve mellom “innenfor summen av kvadrater” (WSS) og antall klynger. Plottede kurve ligner en menneskelig arm. Det kalles albue-metoden fordi albuepunktet i kurven gir oss det optimale antall klynger. I grafen eller kurven, etter albuepunktet, endres verdien av WSS veldig sakte, så albuepunktet må vurderes å gi den endelige verdien for antall klynger.

Formål Basert

I denne metoden er dataene delt ut basert på forskjellige beregninger, og etter det blir det bedømt hvor bra de presterte for det tilfellet. For eksempel er arrangementet av skjortene i herreklæravdelingen i et kjøpesenter utført på kriteriene for størrelsene. Det kan gjøres på grunnlag av pris og merkevarene også. Den best egnede vil bli valgt for å gi det optimale antall klynger, dvs. verdien av K.

La oss nå komme tilbake til det gitte datasettet ovenfor. Vi kan beregne antall klynger, dvs. verdien av K ved å bruke en av metodene ovenfor.

Hvordan bruker jeg metodene ovenfor?

La oss nå se utførelsesprosessen:

Trinn 1: Initialisering

Først initialiserer du tilfeldige punkter som kalles centroids i klyngen. Når du initialiserer, må du passe på at centroids i klyngen må være mindre enn antallet treningsdatapunkter. Denne algoritmen er en iterativ algoritme, og derfor utføres de neste to trinnene iterativt.

Trinn 2: Cluster Assignment

Etter initialisering krysses alle datapunkter og avstanden mellom alle centroids og datapunktene beregnes. Nå ville klyngene bli dannet avhengig av minste avstand fra centroids. I dette eksemplet er dataene delt inn i to klynger.

Trinn 3: Flytte Centroid

Siden klyngene som er dannet i trinnet ovenfor ikke er optimalisert, så vi trenger å danne optimaliserte klynger. For dette må vi flytte centroids iterativt til et nytt sted. Ta datapunkter for en klynge, beregne gjennomsnittet, og flytt deretter centroiden til den klyngen til dette nye stedet. Gjenta samme trinn for alle andre klynger.

Trinn 4: Optimalisering

Ovennevnte to trinn blir utført iterativt til centroidene slutter å bevege seg, dvs. at de ikke endrer posisjoner lenger og har blitt statiske. Når dette er gjort, blir k- betyr algoritmen betegnet som konvergerte.

Trinn 5: Konvergens

Nå har denne algoritmen konvergerte og distinkte klynger er dannet og tydelig synlige. Denne algoritmen kan gi forskjellige resultater avhengig av hvordan klyngene ble initialisert i det første trinnet.

Bruksområder av K- Betyr Clustering Algoritm

Markedssegmentering
Dokumentklynging
Bildesegmentering
Bildekomprimering
Vector kvantisering
Cluster analyse
Funksjonell læring eller ordboklæring
Identifisere områder som er utsatt for kriminalitet
Oppdagelse av forsikringssvindel
Analyse av offentlig transport
Klynge av IT-eiendeler
Kundesegmentering
Identifisere kreftdata
Brukes i søkemotorer
Prediksjon av medikamentaktivitet

Fordeler med K- Betyr Clustering Algoritm

Det er raskt
robust
Enkelt å forstå
Forholdsvis effektiv
Hvis datasettene er forskjellige, gir de beste resultatene
Produser strammere klynger
Når centroids blir beregnet på nytt, endres klyngen.
fleksibel
Lett å tolke
Bedre beregningskostnader
Forbedrer nøyaktigheten
Fungerer bedre med sfæriske klynger

Ulemper ved K- betyr Clustering algoritme

Trenger forutgående spesifikasjon for antall klyngesentre
Hvis det er to sterkt overlappende data, kan de ikke skilles og kan ikke fortelle at det er to klynger
Med forskjellig representasjon av dataene er også oppnådde resultater forskjellige
Euklidisk avstand kan ulik vekt på faktorene
Det gir den lokale optimaen for den kvadratiske feilfunksjonen
Noen ganger kan ikke valg av centroids tilfeldig gi fruktbare resultater
Kan bare brukes hvis betydningen er definert
Kan ikke håndtere outliers og støyende data
Ikke arbeid for det ikke-lineære datasettet
Mangler konsistens
Følsom for skala
Hvis det oppstå veldig store datasett, kan datamaskinen krasje.
Prognosespørsmål

Anbefalte artikler

Dette har vært en guide til K- Betyr klyngealgoritme. Her diskuterte vi arbeid, applikasjoner, fordeler og ulemper med K-Means-gruppering algoritmen. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

Hva er nevrale nettverk?
Hva er datamining? | Dataminingens rolle
Data Mining Interview spørsmål
Machine Learning vs Neural Network
Clustering in Machine Learning

K- Betyr Clustering Algoritm - Slik fungerer det - Analyse og implementering

Innholdsfortegnelse:

Introduksjon til K-Betyr Clustering Algoritm?

Forståelse av K- betyr klusteralgoritme

Hvordan fungerer K-Betyr Clustering-algoritmen?

Albuemetode

Formål Basert

Hvordan bruker jeg metodene ovenfor?

Trinn 1: Initialisering

Trinn 2: Cluster Assignment

Trinn 3: Flytte Centroid

Trinn 4: Optimalisering

Trinn 5: Konvergens

Bruksområder av K- Betyr Clustering Algoritm

Fordeler med K- Betyr Clustering Algoritm

Ulemper ved K- betyr Clustering algoritme

Anbefalte artikler

Topp 9 kommunikasjonsverktøy for markedsføring for å bygge virksomhet

Gratis tips for å forbedre kommunikasjonsevner for intervju

Tips for å lage en effektiv kommunikasjonsstrategiplan - edu CBA

Utvikle gode kommunikasjonsevner Fordeler - Grunnleggende - Presentasjon - Mål

Combo Box i Excel (eksempler) - Hvordan lage kombinasjonsboksen i Excel?

Slør i After Effects - Hvordan uskarpe ansikter og spore uskarphet i nøkkelramme?

Break in C # - Working of Break Statement i C # med eksempler

Brudduttalelse i C ++ - Hvordan bruker jeg Break Statement i C ++?

Brudderklæring i Java - Hvordan break statement fungerer i java med eksempler

8 viktige måter å bryte gruppe på i organisasjoner

EDATE Excel-funksjon (formel, eksempler) - Hvordan bruke EDATE i Excel

EIGRP intervjuspørsmål - Liste over nyttige EIGRP-intervjuspørsmål

Topp 10 spørsmål og svar på EJB-intervjuet (Oppdatert for 2019)

Effektivitetsforholdsformel - Eksempler med Excel-mal

ElGamal-kryptering - EIGamal krypteringsalgoritme med eksempel