Hva er Cluster Analyse
Cluster analyse grupperer data basert på egenskapene de har. Klyngeanalyse grupperer objekter basert på faktorene som gjør dem like. Klyngeanalyse kalles for øvrig Segmenteringsanalyse eller taksonomianalyse. Klyngeanalyse skiller ikke avhengige og uavhengige variabler. Klyngeanalyse brukes på et bredt spekter av felt som psykologi, biologi, statistikk, data mining, mønstergjenkjenning og andre samfunnsfag.
Mål for Cluster Analyse
Hovedmålsetningen om klyngenanalyse er å adressere heterogeniteten i hvert datasett. De andre målene om klyngeanalyse er
- Taksonomibeskrivelse - Identifisere grupper i dataene
- Forenkling av data - Evnen til å analysere grupper av lignende observasjoner i stedet for all individuell observasjon
- Generering eller testing av hypotese - Utvikle hypotese basert på datatypen eller for å teste den tidligere uttalte hypotesen
- Relasjonsidentifikasjon - Den forenklede strukturen fra klyngebaseanalyse som beskriver sammenhengene
Det er to hovedformål med klyngeanalyse - Forståelse og nytteverdi.
I forhold til forståelsen grupperer gruppeanalyse objekter som har noen vanlige kjennetegn
I formålet med Utility gir klyngeanalyse egenskapene til hvert dataobjekt til klyngene de tilhører.
Klyngeanalyse går hånd i hånd med faktoranalyse og diskriminerende analyse.
Du bør stille deg noen spørsmål om klynge-analyse før du begynner med det
- Hvilke variabler er relevante?
- Er prøvestørrelsen nok?
- Kan det oppdages outliers og bør det fjernes?
- Hvordan skal objektens likhet måles?
- Bør data standardiseres?
Typer klynger
Det er tre hovedtyper av klynger
- Hierarkisk klynging - som inneholder agglomerativ og splittende metode
- Partitional Clustering - Inneholder K-Means, Fuzzy K-Means, Isodata under den
- Tetthetsbasert Clustering - Har Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed under den
Antagelser i klyngebehandling
Det er alltid to forutsetninger i klyngen analyse
- Det antas at utvalget er en representant for befolkningen
- Det antas at variablene ikke er korrelert. Selv om variabler er korrelert, fjern korrelerte variabler eller bruk avstandsmål som kompenserer for korrelasjonen.
Trinn i klyngeanalyse
-
- Trinn 1: Definer problemet
- Trinn 2: Bestem passende likhetsmål
- Trinn 3: Bestem deg for hvordan du grupperer objektene
- Trinn 4: Bestem antall klynger
- Trinn 5: Tolke, beskrive og validere klyngen
Cluster Analyse i SPSS
I SPSS kan du finne alternativet for gruppeanalyse i alternativet Analyse / klassifisere. I SPSS er det tre metoder for klyngeanalysen - K-Means Cluster, Hierarchical Cluster og Two Step Cluster.
K-Means klyngemetode klassifiserer et gitt datasett gjennom et fast antall klynger. Denne metoden er lett å forstå og gir best utdata når dataene er godt skilt fra hverandre.
To-trinns klyngeanalyse er et verktøy designet for å håndtere store datasett. Det skaper klynger på både kategoriske og kontinuerlige variabler.
Hierarkisk klynge er den mest brukte metoden for klyngeanalyse. Den kombinerer saker i homogene klynger ved å bringe dem sammen gjennom en serie sekvensielle trinn.
Hierarkisk klyngeanalyse inneholder tre trinn
- Beregn avstanden
- Koble klyngene
- Velge en løsning ved å velge riktig antall klynger
Nedenfor er trinnene for å utføre Hierarkisk Cluster-analyse i SPSS.
- Første trinn er å velge variablene som skal grupperes. Dialogboksen nedenfor forklarer den for deg
- Ved å klikke på statistikkalternativet i dialogboksen ovenfor, får du dialogboksen der du vil spesifisere utdataene
- Legg til Dendrogram i dialogboksen plott. Dendrogram er den grafiske representasjonen av den hierarkiske klyngenanalysemetoden. Den viser hvordan klyngene kombineres på hvert trinn til den danner en enkelt klynge.
- Dialogboksmetoden er avgjørende. Du kan nevne avstand og klyngemetode her. I SPSS er det tre mål for intervall, tellinger og binære data.
- Den kvadratiske euklidiske avstanden er summen av de kvadratiske forskjellene uten å ta kvadratroten.
- I tellingene kan du velge mellom Chi Square og Phi Square måling
- I delen Binær har du mange alternativer å velge. Kvadratisk euklidisk avstand er det beste alternativet å bruke.
- Neste trinn er å velge klyngemetode. Det anbefales alltid å bruke Single Linkage eller nærmeste nabo, da det lett hjelper å identifisere utliggerne. Etter at utleggerne er identifisert kan du bruke Ward's Method.
- Det siste trinnet er standardisering
Kritikk av Cluster Analyse
De vanligste kritikkverdiene er listet nedenfor
- Det er beskrivende, teoretisk og ikke inferensiell.
- Det vil produsere klynger uavhengig av den virkelige strukturen
- Det kan ikke brukes mye, da det helt avhenger av variablene som brukes som grunnlag for likhetsmål
Hva er faktoranalyse?
Faktoranalyse er en utforskende analyse som hjelper til med å gruppere lignende variabler i dimensjoner. Det kan brukes til å forenkle dataene ved å redusere dimensjonene til observasjonene. Faktoranalyse har flere forskjellige rotasjonsmetoder.
Faktoranalyse brukes mest til datareduksjonsformål.
Det er to typer faktoranalyse - Exploratory and Confirmatory
- Utforskende metode brukes når du ikke har en forhåndsdefinert idé om strukturer eller dimensjoner i et sett med variabler.
- Bekreftelsesmetode brukes når du vil teste spesifikk hypotese om strukturer eller dimensjoner i et sett med variabler.
Mål for faktoranalyse
Det er to hovedmål for faktoranalyse som er nevnt nedenfor
- Identifisering av de underliggende faktorene - Dette inkluderer gruppering av variabler i homogene sett, oppretting av nye variabler og hjelp til å få kunnskap om kategoriene
- Screening av variabler - Det er nyttig i regresjon og identifiserer grupperinger for å tillate deg å velge en variabel som representerer mange.
Antagelser om faktoranalyse
Det er fire hovedforutsetninger for faktoranalyse som er nevnt nedenfor
- Modeller er vanligvis basert på lineære forhold
- Det forutsetter at dataene som samles inn er skalert
- Multikollinearitet i dataene er ønskelig, da målet er å finne ut det interrelaterte settet med variabler
- Dataene skal være åpne og responsive for faktoranalyse. Det skal ikke være på en slik måte at en variabel bare er korrelert med seg selv og det er ingen korrelasjon med noen annen variabel. Faktoranalyse kan ikke gjøres på slike data.
Typer faktorering
- Hovedkomponentfaktorering - Mest brukte metode der faktorvekter beregnes for å trekke ut maksimal mulig varians og fortsetter til det ikke er noen meningsfull varians igjen.
- Kanonisk faktoranalyse - Finner faktorer som har den høyeste kanoniske korrelasjonen med de observerte variablene
- Felles faktoranalyse - søker det minste antall faktorer som kan gjøre rede for den vanlige varianten av et sett med variabler
- Bildefaktorering - Basert på korrelasjonsmatrisen der hver variabel er spådd fra de andre ved bruk av flere regresjoner
- Alpha Factoring - maksimerer påliteligheten til faktorer
- Faktorregresjonsmodell - Kombinasjon av faktormodell og regresjonsmodell hvis faktorer er delvis kjent
Kriterier for faktoranalyse
-
Eigenvalue kriterier
- Representerer mengden av varians i de opprinnelige variablene som er koblet til en faktor
- Summen av kvadratet av faktorbelastningene til hver variabel på en faktor representerer egenverdien
- Faktorer med egenverdier som er større enn 1, 0, holdes
-
Kriterier for skrittene
- Et plott av egenverdiene mot antall faktorer, i rekkefølge av ekstraksjon.
- Formen på plottet bestemmer antall faktorer
-
Prosent av varekriterier
- Antall faktorer som blir trukket ut blir funnet ut slik at den økende variasjonen i faktorene som trekkes ut av faktorene når nivået av tilfredshet.
-
Kriterier for betydningstest
- Statistisk betydning av de separate egenverdiene blir funnet ut, og bare de faktorene som er statistisk signifikante beholdes
Faktoranalyse brukes på forskjellige felt som psykologi, sosiologi, statsvitenskap, utdanning og mental helse.
Faktoranalyse i SPSS
I SPSS finnes alternativet for faktoranalyse i Analyse à dimensjonsreduksjon à faktor
- Begynn med å legge til variablene i listen over variabler
- Klikk på fanen Beskrivende og legg til få statistikker som forutsetningene for faktoranalyse blir bekreftet under.
- Klikk på Utvinningsalternativet som lar deg velge ekstraksjonsmetode og avskjæringsverdi for utvinning
- Principal Components (PCA) er standard ekstraksjonsmetode som trekker ut til og med ukorrelerte lineære kombinasjoner av variablene. PCA kan brukes når en korrelasjonsmatrise er entall. Det ligner veldig på Canonical Correlation Analyse der den første faktoren har maksimal varians og følgende faktorer forklarer mindre del av variansen.
- Den nest mest generelle analysen er hovedakselfaktorering. Den identifiserer de latente konstruksjonene bak observasjonene.
- Neste trinn er å velge en rotasjonsmetode. Den mest brukte metoden er Varimax. Denne metoden forenkler tolkningen av faktorene.
- Den andre metoden er Quartimax. Denne metoden roterer faktorene for å minimere antall faktorer. Det forenkler tolkningen av den observerte variabelen.
- Neste metode er Equamax, som er en kombinasjon av de to ovennevnte metodene.
- I dialogboksen ved å klikke på “alternativene” kan du administrere de manglende verdiene
- Før du lagrer resultatene i datasettet, må du først kjøre faktoranalysen og sjekke for antagelser og bekrefte at resultatene er meningsfulle og nyttige.
Cluster Analyse vs Faktor Analyse
Både klyngeanalyse og faktoranalyse er uovervåket læringsmetode som brukes til segmentering av data. Mange forskere som er nye på dette feltet, opplever at klyngeanalysen og faktoranalysen er like. Det kan virke likt, men de er forskjellige på mange måter. Forskjellene mellom klyngeanalyse og faktoranalyse er listet nedenfor
-
Objektiv
Målet med klynge- og faktoranalyse er forskjellige. Målet med klyngeanalysen er å dele observasjonene inn i homogene og distinkte grupper. Faktoranalysen på den annen side forklarer homogeniteten til variablene som følge av likheten mellom verdier.
-
kompleksitet
Kompleksitet er en annen faktor som klynge- og faktoranalyse er forskjellige på. Datastørrelsen påvirker analysen annerledes. Hvis datastørrelsen er for stor, blir den beregningsdyktig umulig i klyngebaseanalyse.
-
Løsning
Løsningen på et problem er mer eller mindre lik både i faktor- og klyngeanalysen. Men faktoranalyse gir en bedre løsning for forskeren i et bedre aspekt. Klyngeanalyse gir ikke det beste resultatet da alle algoritmene i klyngeanalysen er beregningseffektive.
-
applikasjoner
Faktoranalyse og klyngeanalyse brukes annerledes på reelle data. Faktoranalyse er egnet for å forenkle komplekse modeller. Det reduserer det store settet med variabler til et mye mindre sett med faktorer. Forskeren kan utvikle et sett med hypotese og kjøre faktoranalyse for å bekrefte eller avkrefte denne hypotesen.
Cluster analyse er egnet for å klassifisere objekter basert på visse kriterier. Forskeren kan måle visse aspekter av en gruppe og dele dem inn i spesifikke kategorier ved å bruke klyngebaseanalyse.
Det er også mange andre forskjeller som er nevnt nedenfor
- Klyngeanalyse forsøker å gruppere saker mens faktoranalyse forsøker å gruppefunksjoner.
- Klyngeanalyse brukes til å finne mindre grupper av saker som er representative for dataene som helhet. Faktoranalyse brukes til å finne en mindre gruppe funksjoner som er representative for datasettens originale funksjoner.
- Den viktigste delen av klyngeanalysen er å finne antall klynger. I utgangspunktet er klyngemetoder delt inn i to - Agglomerativ metode og Partisjoneringsmetode. Agglomerativ metode starter med hvert tilfelle i sin egen klynge og stopper når et kriterium er nådd. Partisjonsmetoden starter med alle tilfeller i en klynge.
- Faktoranalyse brukes for å finne ut en underliggende struktur i et datasett.
Konklusjon
Håper denne artikkelen ville hjulpet deg å forstå det grunnleggende om Cluster-analyse og Faktoranalyse og forskjellene mellom de to.
Relaterte kurs: -
- Klyngeanalysekurs