Faktor- és Klaszterelemzés

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosan a faktorokról és klaszterekről, Faktorelemzés, Főkomponens elemzés, Klaszterelemzés, Példák SPSS-ben

Market Analysis

Letölthető jegyzetek

StatOkos Jegyzet: Faktor- és Klaszterelemzés
StatOkos Jegyzet: Összefoglaló

Adatfájlok: SPSS

Adatfájlok: Excel 

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

ÁLTALÁBAN A FAKTOROKRÓL ÉS KLASZTEREKRŐL

FAKTOR- ÉS FŐKOMPONENS

KLASZTERELEMZÉS

 

BEVEZETŐ

BEVEZETŐ

A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak.  Az alábbi példák az IBM SPSS szoftverhez készültek.

 

A VÁLTOZÓK SZÁMOSSÁGÁNAK REDUKÁLÁSA, OSZTÁLYOZÁSA

Általánosságban a faktorelemzésről és a klaszterelemzésről

A legtöbb kutatás – főleg amit kérdőívekkel végeznek - igencsak hosszadalmas feltáró munkát eredményezhet. Akik dolgoztak már valaha kérdőívvel, azok tudják, hogy egy hosszabb kérdőív nagyon sok kérdést tartalmaz. Nem meglepő az sem, ha 70-100 kérdést is meg kell válaszolni a pontos méréshez. Vannak kérdőívek, melyeket már korábbi mérések alapján validáltak és a megadott keretrendszeren belül alkalmazhatjuk őket, számítva arra, hogy mi is hasonló eredményeket kapunk. Azonban számos esetben, főleg akkor, ha új kérdőívet kell fejleszteni, sokszor még maguk a kutatók sincsenek tisztában azzal, hogy a végső eredmény miként fog megjelenni a saját adataikban. Mivel általánosságban nagyon sok adatunk van, szükség van arra is, hogy rendet tehessünk közöttük és valamiféleképpen csoportosítsuk ezeket, csökkentve ezáltal a kutatásban szereplő változók számát. Erre van segítségünkre a faktorelemzés és a klaszteranalízis. Ilyen esetekben lehet segítségünkre a faktor és klaszter. A faktorelemzés lényege, hogy több változóból kisebb számú új változót generálunk az eredeti változók közötti kapcsolatok és látens struktúra feltárásával. Klaszterelemzés ezzel szemben a függő változókon keresztül próbálja a magas elemszámú populációt úgy felosztani, hogy azok bizonyos tulajdonságuk alapján közös csoportot képezzenek. Ezek az adatredukciós technikák nagyban megkönnyítik a kutatással foglalkozók munkáját, ugyanis elképzelhető, hogy a kutatás megválaszolásához nem kell 70 darab különböző kérdés, hanem helyette három nagy "kérdéscsoport" is ugyanolyan vagy közel hasonló eredményt ad. Vagy képzeljünk el egy 1000 főt tömörítő populációt, ahol a kutatónak el kell osztania négy különböző gyógyszerkészítményt alvászavarra. Úgy, hogy az a tüneteknek és a gyógyulásnak megfelelően négy csoportot alkosson.

 

Emberek válaszai

Kevesebb változó létrehozása a válaszok (változók) alapján

Változók

Változók

Megbízhatóan mérnek a kérdéseid? Vizsgáld meg a megbízhatóságot (reliabilitást) a Cronbach's Alpha mutató segítségével!

Faktorelemzés

Emberek válaszai

Változók

A meglévő és új emberek besorolása csoportokba a válaszok (változók) alapján

Klaszterelemzés

Conceptual-overview-of-Exploratory-Facto

A faktorelemzés során a változókat redukálunk faktorokra (forrás: researchgate.com)

 

Faktorelemzés és főkomponens elemzés

 

A faktorelemzés nem egy konkrét eljárás, hanem több különböző módszer együttese, melyek lényege az adatok tömörítése és a lehetséges multikollinearitás (vagyis a változók között ne legyen szoros korreláció) szűrése. A faktorelemzés módszerei ezt a két célt egyesítik: a faktoraink nem korrelálnak majd egymással és a korábbi változóink tömörítéséből jönnek létre. A faktorelemzéshez erősen kapcsolódik a főkomponens elemzés is. Mind a két eljárás hasonló bázison alapul, mégis más szempontból közelítik meg az adott problémát. Amennyiben egy 100 kérdésből álló adatsorunkra gondolunk, két lehetőséget legalább figyelembe tudunk venni. Az egyik az, hogy már előzetes feltevésünk van a kérdőív egyedi kérdéseivel, eseteivel és hibáival kapcsolatban és tudjuk – más kutatóktól például -, hogy a kérdőív 100 kérdéséből bizonyos mennyiségre nem feltétlenül van szükségünk ahhoz, hogy magyarázó modellt alkossunk. Ebben az esetben faktorelemzést alkalmazunk.

Ezzel szemben, ha feltáró jelleggel szeretnénk elemezni és nem tudjuk, hogy milyen hibák és egyedi esetek jellemzik a kérdőívünket, akkor főkomponenselemzést használunk, ugyanis míg előbbi a teljes variancia egy kis hányadát használja fel, addig főkomponens elemzés a teljes varianciát. Nagyon egyszerűen megfogalmazva: a faktorelemzés esetében valamivel több előzetes tudásunk van, mint a főkomponens elemzés esetében. Mégis utóbbi az, melyet a faktorokkal kapcsolatban elsődlegesen azonosítani szoktunk. 

A faktorelemzés mellett szóló másik érv lehet, hogy a multikollinearitás nem okoz problémát a futtatásakor. Ez azért fontos, mert lesz olyan eset, amikor a változók korrelálnak, ekkor faktorelemzés helyett, főkomponens elemzést érdemes alkalmazni.

 

 

Faktorelemzés és főkomponens elemzés SPSS-ben


Faktorelemzés és főkomponens elemzés SPSS-ben:
A faktor és főkomponens elemzést az Analyze > Dimension Reduction > Factor menüpontban érhetjük el. A „Variables” ablakba helyezzük át azokat a változóinkat, melyekből az elemzést el akarjuk készíteni. A „Descriptives” lehetőségnél az elemzésünk leíró statisztikáját tudjuk megadni. A „Coefficients” a korreláció vizsgálatára, a „Significance level” a „p” érték meghatározására, a „Determinant” a közös információérték megadására, a „KMO and Bartlett’s test of sphericity” pedig a faktorelemzésre való alkalmasságra használhatók. Az „Extraction” menüpontban az elemzést típusát adhatjuk meg. A korábbiakban szó volt arról, hogy a klasszikus faktorelemzés nem veszi figyelembe az összes változót, míg a főkomponens elemzés ezekkel is dolgozik. A klasszikus faktorelemzés a „principal axis factoring”, míg a főkomponens elemzés a „principal component”. A faktorok egymással való korrelációját beállíthatjuk a „Rotation” menüpontban. A „Varimax” lehetőség nem engedi meg a korreláció lehetőségét, ezzel szemben például a „Direct Oblimin” megengedőbb rendezésnek bizonyul ilyen szempontból. Az „Options” menüpontban azt adhatjuk meg, hogy a hiányzó értékekkel „Missing Values”, mit tegyen a program. A „Coefficient Display Format” segítségével az értékeinket sorba rakhatjuk, valamint a túlságosan alacsony értékkel bíróakat kivehetjük az elemzésből. Itt érdemes „0,2” értéket megadni.

Lehetőség van az elkészült faktor változók mentésére is. Ezt a „Factor Score” lehetőségnél a „Save as variables” opcióval érhetjük el. Az eredményeinket bemutató táblázatok közül az első a „Descriptive Statistics”, ahol a leíró információkat vehetjük szemügyre.

A „Correlation Matrix” táblázatban a változóink közötti korreláció szintjét mérhetjük fel. Ezzel is szemügyre véve a multikollinearitás kérdését. A táblázat alapján szereplő „Determinant” értéke optimális esetben 0,00001-nél nagyobb.

Az „Anti-image Matrices táblázat” a faktorelemzéshez szükséges mintavétel megbízhatóságát jelzi. Az „Anti-image Correlation” blokk csillaggal vagy „a” betűvel jelzett átlójában az értékek magasabbak legyenek, mint 0,5. Ez a feltétele a megfelelő mérési értéknek.

Hasonlóképpen tekinthetjük egy másik fontos mutatóra a KMO-Bartlett’s tesztre. A KMO (Kaiser-Meyer-Olkin) érték azt mutatja meg, hogy a változók egyénileg milyen szinten mutatnak parciális korrelációt. Ez az érték 0 és 1 között mozog, minél nagyobb, annál alkalmasabb a faktoranalízishez. Ez biztosítja azt, hogy a változók között legyen együttjárás, így fontos, hogy 0,5-ös érték alatt nem megbízható a modellünk. A Bartlett érték pedig azt hivatott jelezni, hogy a változóink között mekkora az az eset, amikor korreláció mértéke 0. Ez is fontos mutató, hiszen amely értékek nem felelnek meg ennek a kritériumnak, kiesnek a modellből. A Bartlett értéknek szignifikánsnak kell lennie.

A „Total Variance Explained” táblázat pedig a faktorok által jelölt teljes variancia magyarázóerejét mutatják százalékos formában.

A létrehozott pont diagram pedig azt mutatja meg, hogy mennyi az elégséges mennyiségű faktor a modellünk létrehozásához. Ennek határát akkor állítjuk fel, amikor a görbe az „y” tengelyen jelzett 1-es érték alá esik.

A „Rotated Component Matrix” pedig megmutatja, hogy hány faktort hozott létre a modellünk. Mindegyik oszlop egy külön faktort jelöl, melyben a változók különböző értékkel kerültek súlyozásra. Egy faktorba úgy tudjuk besorolni a változónkat, hogy megnézzük, melyiken vett fel magasabb értéket. Az így kiszűrt és rendezett faktorok közös pontja alapján pedig meghatározhatjuk, hogy a faktor mit jelenthet.

Hivatkozás:

A faktoranalízis eljárásainak nincs hivatalos szabványa az APA formátumban. Az általános eljárás, hogy a folyószövegben jelöljük a megértéshez szükséges legfontosabb információkat. Emellett nem csak ajánlott, de szükséges is a táblázatos megjelenítési forma, ugyanis általában minimum 2-3 faktorral biztosan operálunk. Ritka, amikor csak egy faktort kapunk eredményül. Eredmények feltüntetése: KMO érték, Bartlett test of sphericity, szignifikancia szint, cutt of point, eigenvalues, a faktorok által megmagyarázott modell varianciája.





KLASZTERELEMZÉS

A többváltozós statisztika egyik eszköze volt a faktoranalízis, melynek segítségével a változóinkat tudtuk tömöríteni és egyfajta újrarendezés során csökkenteni a számukat. Ennek ellenére számos olyan helyzettel találkozunk, amely szintén segít az egyszerűsített látásmód kialakításában. A klaszterelemzés segítségével az általunk kiválasztott szempontok alapján csoportba tudjuk rendezni a vizsgált populációnkat, új osztályokat létrehozva ezáltal. A folyamat ebben az esetben akkor hatékony, ha a csoportok tagjai egymás között hasonlóságot mutatnak. A klaszterelemzés tehát nem a változóinkat csökkenti, hanem a megfigyelt populációt rendezi csoportokba. 

Hasonló elven működik a diszkriminanciaelemzés, azonban ott ismereteink már vannak a csoportosítást illetően, míg a klaszterelemzés ilyen szempontból „meglepetéseket” tartogat számunkra. Csakúgy mint más többváltozós elemzéseknél, itt is elengedhetetlen a minta szűrése, ugyanis a kiugró értékek rontják a modellt és nem illeszthetőek be egyértelműen a klaszterbe. A folyamat során hierarchikus és nem hierarchikus klaszterbe sorolás közül választhatunk. A mögöttes mechanizmusuk más és más, lényegében annyit kell tudnunk, hogy a fennálló információk alapján külön-külön folyamatban kerülnek rendezésre a populáció elemei. Ennek eredményeképpen haladhatunk egy nagy klaszter felé, de ugyanúgy egy nagy halmazból több klaszter is létrehozható; ennek igénye a kutató és a kutatási kérdés szubjektivitása szerint változhat. A klaszterekbe rendezés fontos ismérve lehet az elemek közötti távolság is, valamint az, hogy logikailag indokolt-e a klaszter létrehozása, ugyanis nagyon alacsony elemszámú klasztereket létrehozni és értelmezni nehéz és olykor értelmetlen feladat. 

 

A klaszterelemzés során halmazokat keresünk a populáción belül  (forrás: wikipedia)

1000px-EM-Gaussian-data.svg.png

Klaszteranalízis futtatása SPSS-ben


Klaszteranalízis futtatása SPSS-ben és hivatkozása:
Mielőtt nekiállunk a klaszteranalízisnek, a változónk (változóink) alapján vizsgáljuk meg grafikusan, hogy vannak-e kiugró értékeink az adatsorban.
Ezt a Graphs>Chart Builder menüpontban találjuk. A felugró ablakban – a jelenlegi két változót figyelembe véve – válasszunk ki egy „Scatter/Dot” diagram típust. Az „x” és „y” tengelyre helyezzük el az értékeinket. Amennyiben nincs olyan pont, amelyik nagyon távol esik a kialakuló csoportoktól, folytassuk az elemzést. Ellenkező esetben számoljunk az „outlier” értékeinek hatásával! A klaszteranalízis megtalálható az Analyze>Classify>Hierarchical Cluster menüpontban. A felugró ablak „Variables” lehetőségénél adjuk meg a besorolás alapját képező változóinkat. A „Label Cases by” lehetőséggel pedig azonosítani tudjuk a mérési populáció tagjait, ha szükséges. A „Statistics” menüpontban megadhatunk különböző statisztikai mutatókat. Például a klaszterek összevonásának rendjét (Agglomeration schedule) vagy a négyzetes euklédeszi távolságmátrixot (Proximity matrix), amely a különbözőség értékét adja meg. A „Plots” lehetőséget kiválasztva kérhetünk „Dendogramot”, amely megmutatja, hogyan épül fel a klaszter az egyes elemek alapján. A „Method” fül alatt kiválaszthatjuk, a klaszterezési eljárás módszerét. Itt kiválasztva a „Nearest neighbor” lehetőséget a legközelebbi szomszédos elemeket sorolja majd egy klaszterbe, így megtalálhatjuk a kiugró elemeket az adatsorban. A „Measure” blokkban megtalálhatjuk a változónk mérési szintjét is, ennek jelölése szintén fontos, intervallum változó esetében válasszuk ki mellé a négyzetes euklédeszi távolságot („Squared Euclidean Distance) Eredményeinket megtekintve látjuk a „Case Processing Summary” táblázatban az elemszámot és hogy van-e hiányzó érték. A „Proximity Matrix” táblázat az elemek mátrixából létrehozott távolságokat mutatja be. A „Case” ábra egy úgynevezett jégcsapdiagram, melyet alulról felfele értelmezve követjük. Ahol a legnagyobb a két „vonal” különbsége, az a két elem egyesül legkorábban és így tovább. A dendogram segítségével – melyet balról jobbra értelmezünk -, megtekinthetjük azokat az ugrásokat, melyek a klaszter modelljéből egyre távolabb jeleznek elemeket és csoportokat. Ez az ábra mutatja a klaszterbe rendeződés sorrendjét is. Egy másik „Method” az úgynevezett „Ward eljárás – Ward’s method”, melynek segítségével a csoportokat úgy tudjuk összevonni, hogy a klaszteren belül az értékek szórásnégyzetét azt a klaszteren belül legkevésbé növelik meg. Ebben az esetben egy új dendogramot kaphatunk, ahol eltérő a klaszterezés. Ellenőrizhetjük, hogy a klaszterezést megfelelően csináltuk-e. Ehhez menjünk az Analyze>Classify>K-means opcióra. Az itt felugró ablakban válasszuk ki a klasztercsoportosító változókat, a cimkéket, valamint a „Number of Clusters” értéknél olyan számot adjunk meg, amelyet a korábbi klaszterbe sorolás alapján láttunk, ezzel ellenőrizhetjük, hogy ugyanannyi klaszterbe ugyanazok az elemek kerülnek-e. Az „Options” menüpontban jelöljük a „Cluster information for each case” lehetőséget A kapott táblázatok segítenek a kérdés megválaszolásában. Az „Initial Cluster Centers” táblázat mutatja a kiinduló klaszterközéppontokat és értéküket. Az „Iteration History” pedig azt mutatja meg, hogy az előző táblázatban lévő klaszterek hány darab iteráció után készültek el. Mivel kijelöltük a „Cluster information for each case” lehetőséget, elemenként tekinthetjük meg a klasztereinket. A „Final Cluster Centers” táblázat mutatja a klaszterek végső középpontjait a változók tekintetében. A „Distances between Final Cluster Centers” az ezek közötti távolságot, a „Number of Cases in each Cluster” pedig, hogy klaszterenként hány darab elemünk van.