Introduksjon til K-Betyr Clustering Algoritm?

K- Betyr klynging tilhører den uovervåkte læringsalgoritmen. Det brukes når dataene ikke er definert i grupper eller kategorier, dvs. umerkede data. Målet med denne grupperingsalgoritmen er å søke og finne gruppene i dataene, der variabel K representerer antall grupper.

Forståelse av K- betyr klusteralgoritme

Denne algoritmen er en iterativ algoritme som deler datasettet i henhold til deres funksjoner i K antall forhåndsdefinerte, ikke overlappende distinkte klynger eller undergrupper. Det gjør datapunktene til mellomklynger så like som mulig, og prøver også å holde klyngene så langt som mulig. Den tildeler datapunktene til en klynge hvis summen av den kvadratiske avstanden mellom klyngens centroid og datapunktene er på et minimum der klyngens centroid er det aritmetiske gjennomsnittet av datapunktene som er i klyngen. En mindre variasjon i klyngen resulterer i lignende eller homogene datapunkter i klyngen.

Hvordan fungerer K-Betyr Clustering-algoritmen?

K- Betyr Clustering Algorithm trenger følgende innganger:

  • K = antall undergrupper eller klynger
  • Eksempel eller treningssett = (x 1, x 2, x 3, ……… x n )

La oss nå anta at vi har et datasett som ikke er merket, og at vi trenger å dele det inn i klynger.

Nå må vi finne antall klynger. Dette kan gjøres ved to metoder:

  • Albuemetode.
  • Formål Metode.

La oss diskutere dem kort:

Albuemetode

I denne metoden tegnes en kurve mellom “innenfor summen av kvadrater” (WSS) og antall klynger. Plottede kurve ligner en menneskelig arm. Det kalles albue-metoden fordi albuepunktet i kurven gir oss det optimale antall klynger. I grafen eller kurven, etter albuepunktet, endres verdien av WSS veldig sakte, så albuepunktet må vurderes å gi den endelige verdien for antall klynger.

Formål Basert

I denne metoden er dataene delt ut basert på forskjellige beregninger, og etter det blir det bedømt hvor bra de presterte for det tilfellet. For eksempel er arrangementet av skjortene i herreklæravdelingen i et kjøpesenter utført på kriteriene for størrelsene. Det kan gjøres på grunnlag av pris og merkevarene også. Den best egnede vil bli valgt for å gi det optimale antall klynger, dvs. verdien av K.

La oss nå komme tilbake til det gitte datasettet ovenfor. Vi kan beregne antall klynger, dvs. verdien av K ved å bruke en av metodene ovenfor.

Hvordan bruker jeg metodene ovenfor?

La oss nå se utførelsesprosessen:

Trinn 1: Initialisering

Først initialiserer du tilfeldige punkter som kalles centroids i klyngen. Når du initialiserer, må du passe på at centroids i klyngen må være mindre enn antallet treningsdatapunkter. Denne algoritmen er en iterativ algoritme, og derfor utføres de neste to trinnene iterativt.

Trinn 2: Cluster Assignment

Etter initialisering krysses alle datapunkter og avstanden mellom alle centroids og datapunktene beregnes. Nå ville klyngene bli dannet avhengig av minste avstand fra centroids. I dette eksemplet er dataene delt inn i to klynger.

Trinn 3: Flytte Centroid

Siden klyngene som er dannet i trinnet ovenfor ikke er optimalisert, så vi trenger å danne optimaliserte klynger. For dette må vi flytte centroids iterativt til et nytt sted. Ta datapunkter for en klynge, beregne gjennomsnittet, og flytt deretter centroiden til den klyngen til dette nye stedet. Gjenta samme trinn for alle andre klynger.

Trinn 4: Optimalisering

Ovennevnte to trinn blir utført iterativt til centroidene slutter å bevege seg, dvs. at de ikke endrer posisjoner lenger og har blitt statiske. Når dette er gjort, blir k- betyr algoritmen betegnet som konvergerte.

Trinn 5: Konvergens

Nå har denne algoritmen konvergerte og distinkte klynger er dannet og tydelig synlige. Denne algoritmen kan gi forskjellige resultater avhengig av hvordan klyngene ble initialisert i det første trinnet.

Bruksområder av K- Betyr Clustering Algoritm

  • Markedssegmentering
  • Dokumentklynging
  • Bildesegmentering
  • Bildekomprimering
  • Vector kvantisering
  • Cluster analyse
  • Funksjonell læring eller ordboklæring
  • Identifisere områder som er utsatt for kriminalitet
  • Oppdagelse av forsikringssvindel
  • Analyse av offentlig transport
  • Klynge av IT-eiendeler
  • Kundesegmentering
  • Identifisere kreftdata
  • Brukes i søkemotorer
  • Prediksjon av medikamentaktivitet

Fordeler med K- Betyr Clustering Algoritm

  • Det er raskt
  • robust
  • Enkelt å forstå
  • Forholdsvis effektiv
  • Hvis datasettene er forskjellige, gir de beste resultatene
  • Produser strammere klynger
  • Når centroids blir beregnet på nytt, endres klyngen.
  • fleksibel
  • Lett å tolke
  • Bedre beregningskostnader
  • Forbedrer nøyaktigheten
  • Fungerer bedre med sfæriske klynger

Ulemper ved K- betyr Clustering algoritme

  • Trenger forutgående spesifikasjon for antall klyngesentre
  • Hvis det er to sterkt overlappende data, kan de ikke skilles og kan ikke fortelle at det er to klynger
  • Med forskjellig representasjon av dataene er også oppnådde resultater forskjellige
  • Euklidisk avstand kan ulik vekt på faktorene
  • Det gir den lokale optimaen for den kvadratiske feilfunksjonen
  • Noen ganger kan ikke valg av centroids tilfeldig gi fruktbare resultater
  • Kan bare brukes hvis betydningen er definert
  • Kan ikke håndtere outliers og støyende data
  • Ikke arbeid for det ikke-lineære datasettet
  • Mangler konsistens
  • Følsom for skala
  • Hvis det oppstå veldig store datasett, kan datamaskinen krasje.
  • Prognosespørsmål

Anbefalte artikler

Dette har vært en guide til K- Betyr klyngealgoritme. Her diskuterte vi arbeid, applikasjoner, fordeler og ulemper med K-Means-gruppering algoritmen. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Hva er nevrale nettverk?
  2. Hva er datamining? | Dataminingens rolle
  3. Data Mining Interview spørsmål
  4. Machine Learning vs Neural Network
  5. Clustering in Machine Learning

Kategori: