Introduksjon av beste sammenligning av Cluster v / s faktoranalyse

Hva er Cluster Analyse

Cluster analyse grupperer data basert på egenskapene de har. Klyngeanalyse grupperer objekter basert på faktorene som gjør dem like. Klyngeanalyse kalles for øvrig Segmenteringsanalyse eller taksonomianalyse. Klyngeanalyse skiller ikke avhengige og uavhengige variabler. Klyngeanalyse brukes på et bredt spekter av felt som psykologi, biologi, statistikk, data mining, mønstergjenkjenning og andre samfunnsfag.

Mål for Cluster Analyse

Hovedmålsetningen om klyngenanalyse er å adressere heterogeniteten i hvert datasett. De andre målene om klyngeanalyse er

Taksonomibeskrivelse - Identifisere grupper i dataene
Forenkling av data - Evnen til å analysere grupper av lignende observasjoner i stedet for all individuell observasjon
Generering eller testing av hypotese - Utvikle hypotese basert på datatypen eller for å teste den tidligere uttalte hypotesen
Relasjonsidentifikasjon - Den forenklede strukturen fra klyngebaseanalyse som beskriver sammenhengene

Det er to hovedformål med klyngeanalyse - Forståelse og nytteverdi.

I forhold til forståelsen grupperer gruppeanalyse objekter som har noen vanlige kjennetegn

I formålet med Utility gir klyngeanalyse egenskapene til hvert dataobjekt til klyngene de tilhører.

Klyngeanalyse går hånd i hånd med faktoranalyse og diskriminerende analyse.

Du bør stille deg noen spørsmål om klynge-analyse før du begynner med det

Hvilke variabler er relevante?
Er prøvestørrelsen nok?
Kan det oppdages outliers og bør det fjernes?
Hvordan skal objektens likhet måles?
Bør data standardiseres?

Typer klynger

Det er tre hovedtyper av klynger

Hierarkisk klynging - som inneholder agglomerativ og splittende metode
Partitional Clustering - Inneholder K-Means, Fuzzy K-Means, Isodata under den
Tetthetsbasert Clustering - Har Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed under den

Antagelser i klyngebehandling

Det er alltid to forutsetninger i klyngen analyse

Det antas at utvalget er en representant for befolkningen
Det antas at variablene ikke er korrelert. Selv om variabler er korrelert, fjern korrelerte variabler eller bruk avstandsmål som kompenserer for korrelasjonen.

Trinn i klyngeanalyse

- Trinn 1: Definer problemet
- Trinn 2: Bestem passende likhetsmål
- Trinn 3: Bestem deg for hvordan du grupperer objektene
- Trinn 4: Bestem antall klynger
- Trinn 5: Tolke, beskrive og validere klyngen

Cluster Analyse i SPSS

I SPSS kan du finne alternativet for gruppeanalyse i alternativet Analyse / klassifisere. I SPSS er det tre metoder for klyngeanalysen - K-Means Cluster, Hierarchical Cluster og Two Step Cluster.

K-Means klyngemetode klassifiserer et gitt datasett gjennom et fast antall klynger. Denne metoden er lett å forstå og gir best utdata når dataene er godt skilt fra hverandre.

To-trinns klyngeanalyse er et verktøy designet for å håndtere store datasett. Det skaper klynger på både kategoriske og kontinuerlige variabler.

Hierarkisk klynge er den mest brukte metoden for klyngeanalyse. Den kombinerer saker i homogene klynger ved å bringe dem sammen gjennom en serie sekvensielle trinn.

Hierarkisk klyngeanalyse inneholder tre trinn

Beregn avstanden
Koble klyngene
Velge en løsning ved å velge riktig antall klynger

Nedenfor er trinnene for å utføre Hierarkisk Cluster-analyse i SPSS.

Første trinn er å velge variablene som skal grupperes. Dialogboksen nedenfor forklarer den for deg
Ved å klikke på statistikkalternativet i dialogboksen ovenfor, får du dialogboksen der du vil spesifisere utdataene
Legg til Dendrogram i dialogboksen plott. Dendrogram er den grafiske representasjonen av den hierarkiske klyngenanalysemetoden. Den viser hvordan klyngene kombineres på hvert trinn til den danner en enkelt klynge.
Dialogboksmetoden er avgjørende. Du kan nevne avstand og klyngemetode her. I SPSS er det tre mål for intervall, tellinger og binære data.
Den kvadratiske euklidiske avstanden er summen av de kvadratiske forskjellene uten å ta kvadratroten.
I tellingene kan du velge mellom Chi Square og Phi Square måling
I delen Binær har du mange alternativer å velge. Kvadratisk euklidisk avstand er det beste alternativet å bruke.
Neste trinn er å velge klyngemetode. Det anbefales alltid å bruke Single Linkage eller nærmeste nabo, da det lett hjelper å identifisere utliggerne. Etter at utleggerne er identifisert kan du bruke Ward's Method.
Det siste trinnet er standardisering

Kritikk av Cluster Analyse

De vanligste kritikkverdiene er listet nedenfor

Det er beskrivende, teoretisk og ikke inferensiell.
Det vil produsere klynger uavhengig av den virkelige strukturen
Det kan ikke brukes mye, da det helt avhenger av variablene som brukes som grunnlag for likhetsmål

Hva er faktoranalyse?

Faktoranalyse er en utforskende analyse som hjelper til med å gruppere lignende variabler i dimensjoner. Det kan brukes til å forenkle dataene ved å redusere dimensjonene til observasjonene. Faktoranalyse har flere forskjellige rotasjonsmetoder.

Faktoranalyse brukes mest til datareduksjonsformål.

Det er to typer faktoranalyse - Exploratory and Confirmatory

Utforskende metode brukes når du ikke har en forhåndsdefinert idé om strukturer eller dimensjoner i et sett med variabler.
Bekreftelsesmetode brukes når du vil teste spesifikk hypotese om strukturer eller dimensjoner i et sett med variabler.

Mål for faktoranalyse

Det er to hovedmål for faktoranalyse som er nevnt nedenfor

Identifisering av de underliggende faktorene - Dette inkluderer gruppering av variabler i homogene sett, oppretting av nye variabler og hjelp til å få kunnskap om kategoriene
Screening av variabler - Det er nyttig i regresjon og identifiserer grupperinger for å tillate deg å velge en variabel som representerer mange.

Antagelser om faktoranalyse

Det er fire hovedforutsetninger for faktoranalyse som er nevnt nedenfor

Modeller er vanligvis basert på lineære forhold
Det forutsetter at dataene som samles inn er skalert
Multikollinearitet i dataene er ønskelig, da målet er å finne ut det interrelaterte settet med variabler
Dataene skal være åpne og responsive for faktoranalyse. Det skal ikke være på en slik måte at en variabel bare er korrelert med seg selv og det er ingen korrelasjon med noen annen variabel. Faktoranalyse kan ikke gjøres på slike data.

Typer faktorering

Hovedkomponentfaktorering - Mest brukte metode der faktorvekter beregnes for å trekke ut maksimal mulig varians og fortsetter til det ikke er noen meningsfull varians igjen.
Kanonisk faktoranalyse - Finner faktorer som har den høyeste kanoniske korrelasjonen med de observerte variablene
Felles faktoranalyse - søker det minste antall faktorer som kan gjøre rede for den vanlige varianten av et sett med variabler
Bildefaktorering - Basert på korrelasjonsmatrisen der hver variabel er spådd fra de andre ved bruk av flere regresjoner
Alpha Factoring - maksimerer påliteligheten til faktorer
Faktorregresjonsmodell - Kombinasjon av faktormodell og regresjonsmodell hvis faktorer er delvis kjent

Kriterier for faktoranalyse

Eigenvalue kriterier

Representerer mengden av varians i de opprinnelige variablene som er koblet til en faktor
Summen av kvadratet av faktorbelastningene til hver variabel på en faktor representerer egenverdien
Faktorer med egenverdier som er større enn 1, 0, holdes

Kriterier for skrittene

Et plott av egenverdiene mot antall faktorer, i rekkefølge av ekstraksjon.
Formen på plottet bestemmer antall faktorer

Prosent av varekriterier

Antall faktorer som blir trukket ut blir funnet ut slik at den økende variasjonen i faktorene som trekkes ut av faktorene når nivået av tilfredshet.

Kriterier for betydningstest

Statistisk betydning av de separate egenverdiene blir funnet ut, og bare de faktorene som er statistisk signifikante beholdes

Faktoranalyse brukes på forskjellige felt som psykologi, sosiologi, statsvitenskap, utdanning og mental helse.

Faktoranalyse i SPSS

I SPSS finnes alternativet for faktoranalyse i Analyse à dimensjonsreduksjon à faktor

Begynn med å legge til variablene i listen over variabler
Klikk på fanen Beskrivende og legg til få statistikker som forutsetningene for faktoranalyse blir bekreftet under.
Klikk på Utvinningsalternativet som lar deg velge ekstraksjonsmetode og avskjæringsverdi for utvinning
Principal Components (PCA) er standard ekstraksjonsmetode som trekker ut til og med ukorrelerte lineære kombinasjoner av variablene. PCA kan brukes når en korrelasjonsmatrise er entall. Det ligner veldig på Canonical Correlation Analyse der den første faktoren har maksimal varians og følgende faktorer forklarer mindre del av variansen.
Den nest mest generelle analysen er hovedakselfaktorering. Den identifiserer de latente konstruksjonene bak observasjonene.
Neste trinn er å velge en rotasjonsmetode. Den mest brukte metoden er Varimax. Denne metoden forenkler tolkningen av faktorene.
Den andre metoden er Quartimax. Denne metoden roterer faktorene for å minimere antall faktorer. Det forenkler tolkningen av den observerte variabelen.
Neste metode er Equamax, som er en kombinasjon av de to ovennevnte metodene.
I dialogboksen ved å klikke på “alternativene” kan du administrere de manglende verdiene
Før du lagrer resultatene i datasettet, må du først kjøre faktoranalysen og sjekke for antagelser og bekrefte at resultatene er meningsfulle og nyttige.

Cluster Analyse vs Faktor Analyse

Både klyngeanalyse og faktoranalyse er uovervåket læringsmetode som brukes til segmentering av data. Mange forskere som er nye på dette feltet, opplever at klyngeanalysen og faktoranalysen er like. Det kan virke likt, men de er forskjellige på mange måter. Forskjellene mellom klyngeanalyse og faktoranalyse er listet nedenfor

Objektiv

Målet med klynge- og faktoranalyse er forskjellige. Målet med klyngeanalysen er å dele observasjonene inn i homogene og distinkte grupper. Faktoranalysen på den annen side forklarer homogeniteten til variablene som følge av likheten mellom verdier.

kompleksitet

Kompleksitet er en annen faktor som klynge- og faktoranalyse er forskjellige på. Datastørrelsen påvirker analysen annerledes. Hvis datastørrelsen er for stor, blir den beregningsdyktig umulig i klyngebaseanalyse.

Løsning

Løsningen på et problem er mer eller mindre lik både i faktor- og klyngeanalysen. Men faktoranalyse gir en bedre løsning for forskeren i et bedre aspekt. Klyngeanalyse gir ikke det beste resultatet da alle algoritmene i klyngeanalysen er beregningseffektive.

applikasjoner

Faktoranalyse og klyngeanalyse brukes annerledes på reelle data. Faktoranalyse er egnet for å forenkle komplekse modeller. Det reduserer det store settet med variabler til et mye mindre sett med faktorer. Forskeren kan utvikle et sett med hypotese og kjøre faktoranalyse for å bekrefte eller avkrefte denne hypotesen.

Cluster analyse er egnet for å klassifisere objekter basert på visse kriterier. Forskeren kan måle visse aspekter av en gruppe og dele dem inn i spesifikke kategorier ved å bruke klyngebaseanalyse.

Det er også mange andre forskjeller som er nevnt nedenfor

Klyngeanalyse forsøker å gruppere saker mens faktoranalyse forsøker å gruppefunksjoner.
Klyngeanalyse brukes til å finne mindre grupper av saker som er representative for dataene som helhet. Faktoranalyse brukes til å finne en mindre gruppe funksjoner som er representative for datasettens originale funksjoner.
Den viktigste delen av klyngeanalysen er å finne antall klynger. I utgangspunktet er klyngemetoder delt inn i to - Agglomerativ metode og Partisjoneringsmetode. Agglomerativ metode starter med hvert tilfelle i sin egen klynge og stopper når et kriterium er nådd. Partisjonsmetoden starter med alle tilfeller i en klynge.
Faktoranalyse brukes for å finne ut en underliggende struktur i et datasett.

Konklusjon

Håper denne artikkelen ville hjulpet deg å forstå det grunnleggende om Cluster-analyse og Faktoranalyse og forskjellene mellom de to.

Relaterte kurs: -

Klyngeanalysekurs

Introduksjon av beste sammenligning av Cluster v / s faktoranalyse

Innholdsfortegnelse:

Hva er Cluster Analyse

Mål for Cluster Analyse

Typer klynger

Antagelser i klyngebehandling

Trinn i klyngeanalyse

Cluster Analyse i SPSS

Kritikk av Cluster Analyse

Hva er faktoranalyse?

Mål for faktoranalyse

Antagelser om faktoranalyse

Typer faktorering

Kriterier for faktoranalyse

Eigenvalue kriterier

Kriterier for skrittene

Prosent av varekriterier

Kriterier for betydningstest

Faktoranalyse i SPSS

Cluster Analyse vs Faktor Analyse

Objektiv

kompleksitet

Løsning

applikasjoner

Konklusjon

Hvorfor forbrukeratferd er viktig for bedriftsledere? - eduCBA

Konstruktør i JavaScript - dens typer og importerende metoder

Forbruksoverskuddsformel - Kalkulator (Excel-mal)

Konsolidering i Excel - Hvordan konsolidere data i flere regneark?

Betinget formatering i Tableau - Gjennom forskjellige illustrasjoner

Maskering av lag i After Effects - Lær teknikkene for maskering av lag

MATLAB versjon - Funksjoner og fordeler med MATLAB-versjoner

MATLAB vs R - Lær de 7 viktigste viktige forskjellene

Matlab vs Octave - Topp 6 nyttige sammenligninger du må lære

Matchende kolonner i Excel - Hvordan matche kolonner i Excel?

Enkel dybde av felteffekt i Photoshop

Digital pikseleffekt - Photoshop-opplæring

Opprette fotokanter med Photoshop-børster

Dancing In The Stars Effect - Photoshop Tutorial

Opprette fotokanter med forskyvningskart i Photoshop