Clustering Methods - Betydningen og teknikkene for klyngemetoder

Innholdsfortegnelse:

Anonim

Introduksjon til Clustering Methods

Denne artikkelen presenterer en oversikt over forskjellige klyngemetoder som brukes i data mining-teknikker med forskjellige prinsipper. Clustering er et sett med dataobjekter organisert i en annen logisk gruppering. Gruppere lignende dataelementer og tilordne lignende dataelementer i individuelle klynger. Clustering utføres i store datasett for uovervåket læring. I løpet av dette utfører vi partisjon på datasettet i grupper. Strukturen av gruppering er representert som følger med undergrupper. C = c1, c2 … c n . Ettersom klyngegrupper har lignende objekter, må noen tiltak tas i klyngemetoder for å bestemme avstand og likhetstiltak. Klyngemetoder er basert på sannsynlighetsmodeller. Databehandling krever klynging for skalerbarhet for å håndtere høye databaser, håndtere flerdimensjonalt rom, for å håndtere feil data og støy.

Forklar klyngemetoder?

Denne klyngemetoden hjelper til med å gruppere verdifulle data i klynger, og fra den velger passende resultater basert på forskjellige teknikker. Eksempel: i informasjonsinnhenting er resultatene av spørringen gruppert i små klynger, og hver klynge har irrelevante resultater. Ved hjelp av klyngeteknikker er de gruppert i lignende kategorier, og hver kategori er delt inn i underkategorier for å hjelpe til med utforsking av spørringsproduksjon. Det er forskjellige typer klyngemetoder, de er

  • Hierarkiske metoder
  • Partisjonsmetoder
  • Tetthet-baserte
  • Modellbasert gruppering
  • Nettbasert modell

Følgende er en oversikt over teknikker brukt i data mining og kunstig intelligens.

1. Hierarkisk metode

Denne metoden oppretter en klynge ved å partisjonere på enten ovenfra og ned og ned-opp. Begge disse tilnærmingene produserer dendrogram de lager forbindelse mellom seg. Dendrogrammet er et trelignende format som holder sekvensen av sammenslåtte klynger. Hierarkiske metoder produseres flere partisjoner med hensyn til likhetsnivåer. De er delt inn i agglomerativ hierarkisk klynging og splittende hierarkisk klynging. Her lages et klyngetre ved å bruke sammenslåingsteknikker. For deling av prosess brukes divisive, sammenslåing bruker agglomerative. Agglomerativ klynging involverer:

  1. Opprinnelig å ta alle datapunktene og betrakte dem som individuelle klynger starter fra ovenfra og ned. Disse klyngene blir slått sammen til vi oppnådde de ønskede resultatene.
  2. De neste to lignende klyngene er gruppert sammen for å danne en enorm enkelt klynge.
  3. Beregne igjen nærhet i den enorme klyngen og slå sammen de lignende klyngene.
  4. Det siste trinnet innebærer å slå sammen alle avkastede klynger på hvert trinn for å danne en endelig enkelt klynge.

2. Partisjonsmetode:

Hovedmålet med partisjon er flytting. De flytter partisjoner ved å skifte fra en klynge til en annen som gjør en innledende partisjonering. Den deler 'n' dataobjekter inn i 'k' antall klynger. Denne delingsmetoden er å foretrekke mer enn en hierarkisk modell for mønstergjenkjenning. Følgende kriterier er satt for å tilfredsstille teknikkene:

  • Hver klynge skal ha ett objekt.
  • Hvert dataobjekt tilhører en enkelt klynge.

De mest brukte partisjonsteknikkene er K-mean algoritmen. De deler seg inn i 'K' klynger representert med centroids. Hvert klyngesenter beregnes som et middel av den klyngen, og R-funksjonen visualiserer resultatet. Denne algoritmen har følgende trinn:

  1. Valg av K-objekter tilfeldig fra datasettet og danner de første sentre (centroids)
  2. Neste tilordne euklidisk avstand mellom objektene og middel sentrum.
  3. Tildele en middelverdi for hver enkelt klynge.
  4. Centroid-oppdateringstrinn for hver 'k' Cluster.

3. Tetthetsmodell:

I denne modellen er klynger definert ved å lokalisere regioner med høyere tetthet i en klynge. Hovedprinsippet bak dem er å konsentrere seg om to parametere: maks radius for nabolaget og min antall poeng. Den tetthetsbaserte modellen identifiserer klynger av forskjellige former og støy. Det fungerer ved å oppdage mønstre ved å estimere den romlige beliggenheten og avstanden til naboens metode som brukes her er DBSCAN (Density-based spatial clustering) som gir hender for store romlige databaser. Bruke tre datapunkter for klynging, nemlig kjernepunkter, grensepunkter og utliggere. Det primære målet er å identifisere klyngene og deres distribusjonsparametere. Klyngeprosessen stoppes med behov for tetthetsparametere. For å finne klyngene er det viktig å ha en parameter Minste funksjoner per klynge ved beregning av kjerneavstand. De tre forskjellige verktøyene som tilbys av denne modellen er DBSCAN, HDBSCAN, Multi-skala.

4. Modellbasert klynging

Denne modellen kombinerer to eller tre klynger fra datadistribusjonen. Den grunnleggende ideen bak denne modellen er at det er nødvendig å dele data i to grupper basert på sannsynlighetsmodellen (multivariate normalfordelinger). Her blir hver gruppe tildelt som konsepter eller klasse. Hver komponent er definert av en tetthetsfunksjon. For å finne parameteren i denne modellen brukes estimering av maksimal sannsynlighet for montering av blandingsfordelingen. Hver klynge 'K' er modellert ved Gauss-distribusjon med to-parameter μk middelvektor og £ k samvariasjonsvektor.

5. Nettbasert modell

I denne tilnærmingen regnes objektene som et romdrevet ved å dele opp rommet i et begrenset antall celler for å danne et rutenett. Ved hjelp av rutenettet brukes klyngeteknikken for raskere prosessering som typisk er avhengig av celler som ikke er av objekter. Trinn som er involvert er:

  • Oppretting av nettstruktur
  • Celletetthet beregnes for hver celle
  • Bruke en sorteringsmekanisme på densiteten.
  • Søker klyngesentre og går gjennom naboceller for å gjenta prosessen.

Betydningen av klyngemetoder

  1. Å ha klyngemetoder hjelper deg med å starte den lokale søkeprosedyren på nytt og fjerne ineffektiviteten. Clustering er med på å bestemme den interne strukturen til dataene.
  2. Denne grupperingsanalysen har blitt brukt til modellanalyse, vektorregistreringsattraksjon.
  3. Clustering hjelper deg med å forstå den naturlige grupperingen i et datasett. Deres formål er å være fornuftig å dele opp dataene i en gruppe logiske grupperinger.
  4. Klyngekvalitet avhenger av metodene og for å identifisere skjulte mønstre.
  5. De spiller en bred rolle i applikasjoner som markedsføringsøkonomisk forskning, weblogger for å identifisere mønstre i likhetstiltak, bildebehandling, romlig forskning.
  6. De brukes i tidligere deteksjoner for å oppdage bedrageri med kredittkort.

Konklusjon

Clustering anses å være en generell oppgave å løse problemet som formulerer optimaliseringsproblemet. Det spiller en sentral betydning innen data mining og dataanalyse. Vi har sett forskjellige klyngemetoder som deler datasettet avhenger av kravene. Det meste av forskningen er basert på tradisjonelle teknikker som K-midler og hierarkiske modeller. Klyngeområder brukes i høydimensjonale tilstander som danner et fremtidig omfang av forskere.

Anbefalt artikkel

Dette har vært en guide til Clustering Methods. Her diskuterte vi konseptet, viktigheten og teknikkene til Clustering Methods. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Hva er ETL?
  2. Hva er datavitenskap
  3. Hva er Teradata?
  4. Topp 6 AWS-alternativer
  5. Clustering in Machine Learning
  6. Multivariat regresjon
  7. Hierarkisk klynging | Agglomerative & Divisive Clustering