DISZKRIMINANCIA ANALÍZIS, LOGISZTIKUS REGRESSZIÓ

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosságban a változók besorolásáról

Diszkriminancia analízis

Logisztikus regresszió

ROC-görbe

Példák SPSS-ben

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

A POPULÁCIÓ TAGJAINAK BESOROLÁSA VÁLTOZÓK ALAPJÁN

DISZKRIMINANCIA- ANALÍZIS

LOGISZTIKUS REGRESSZIÓ

BEVEZETŐ

 

A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak. Az alábbi példák az IBM SPSS szoftverhez készültek.

 

A POPULÁCIÓ TAGJAINAK BESOROLÁSA VÁLTOZÓK ALAPJÁN

Általánosságban a diszkriminancia-analízisről és a logisztikus regresszióról

Továbblépve a csoportok és feltételek közötti különbségek keresésén, a változók redukálásán, illetve a meglévő populáció újrarendezésén, a statisztika predikciós tulajdonságairól is fontos beszélni. A statisztika szoros együttműködésben áll a valószínűségszámítással, ennek megfelelően valamilyen szinten alkalmas az előrejelzésre is. Ezek az előrejelzések többnyire a gazdasági életben fontosak, de az egyes formáiból a társadalomtudományok ugyanúgy profitálhatnak. A való életből tudjuk, hogy bizonyos populációk bizonyos tulajdonságokkal jellemezhetők. Ezek olyan mérhető tulajdonságok, melyek stabil meglétét a populációban longitudinális (vagyis hosszú időn keresztül, ismételt mérések segítségével folytatott) kutatások is igazolják. Bár az egyes populációk esetén az új tagok érkezése, illetve egyes tagok távozása is megengedett, alapvetően elmondható, hogy ezek a folyamatok nem változtatják meg a populáció fő tulajdonságait. Igy elmondhatjuk, hogy olyan elemek, amiket eddig még nem helyeztünk populációkba, bizonyos tulajdonságaik alapján nagy valószínűséggel csakugyan besorolhatók egy ilyen elméleti térbe. Például vegyük a felsőfokú végzettséggel rendelkező emberek populációját. Folyamatosan kerülnek bele új elemek és távoznak is idővel, mégis a populáció egyik tulajdonsága, hogy felsőfokú végzettséggel bírnak, nem változik. Olyan esetekben, amikor nagy számú változó alapján szeretnénk besorolást tenni, diszkriminancia analízist vagy logisztikus regressziót alkalmazhatunk.

 

DISZKRIMINANCIA-ANALÍZIS

Újra visszatérve a pszichológiai intézetbe a tanárok kézhez kapták az előző szemeszter hagyományos tanulmányi átlagait évfolyamonként. Azt vették észre, hogy az első évesek lényegesen eltérő átlagot produkáltak a végzősökkel szemben. Szerencsére az évfolyamok és az ott tanuló diákok más adatai is rendelkezésre álltak és diszkriminancia-analízis segítségével megvizsgálták, hogy a csoportok milyen tulajdonságaiban különböznek egymástól a tanulmányi átlag mellett és be lehet-e őket sorolni csak ez alapján az első vagy a második évfolyamra. A diszkriminancia-elemzéshez szükséges egy kategorizációra alkalmas függő változó, amely az, hogy valaki elsős vagy éppen másodikos – ez jelen esetben adott -, most már csak olyan metrikus (de legalább paraméteres), független változókat kell keresni, ami különbséget adhat e csoportok között és ezáltal besorolásra alkalmassá válnak. A korábbiakkal ellentétben most nem a függő változó a magasabb mérési szintű, hanem a független változónk. 

A diszkriminancia-elemzés lehet kétváltozós és többváltozós. A kétváltozós diszkriminancia-elemzés dichotóm függő változókkal futtatható, hiszen két csoportra kategorizál a nominális adatsorunk. Ennél több kategória már többváltozósnak tekinthető. Mivel metrikus skálán teszünk különbséget, a független változónak követnie kell a normalitást. Ha ez a feltétel mégsem teljesül, figyelembe kell vennünk az adataink átvizsgálásának lehetőségét és a kiugró értékek szelektálását. A független változónak mutatnia kell a multkikolienaritást (tehát ne legyen a változók mozgása között korreláció), azonban a homoszkedaszticitás tekintetében azonosnak kell lennie a függő változó által elválasztott csoportoknak (tehát a változók varianciája hasonló legyen egy csoporton belül). Gyakorlatban az alkalmazása sokrétű lehet, azonban mivel a független változókat csak metrikus spektrumban képes értelmezni, elterjedtebbé vált a logisztikus regresszió, melynek segítségével nem csak metrikus, de nominális és ordinális változókkal is tudunk különbséget tenni. 

Linear-discriminant-analysis.png

Figyeljük meg, hogy a különböző tulajdonságokkal bíró populációk, a változók által kialakított elméleti térben távolabb helyezkednek el egymástól. A diszkriminanciaanalízis egy elméleti határt húz meg a két populáció között, amely alkalmassá teszi őket a szétválasztásra  (forrás: researchgate.com)

Diszkriminancia-analízis SPSS-ben


Diszkriminancia-analízis futtatása SPSS-ben és hivatkozása:
A diszkriminanciaelemzést az Analyze>Classify>Discriminant menüpontban találhatjuk meg. A felugró ablakban láthatjuk a függő változó megadására szánt „Grouping variable”-t. Itt meg kell adni, hány szintje van a függő változónak. A független változókat az „Independents” részben kell nyilvántartani. A „Statistics” fül alatt kérhetjük a leíró statisztikát, ahol kérhetjük az átlagokat (Means), a csoportok közötti különbségeket (Univariate ANOVAs), a normalitás vizsgálatát (Box’s M). A „Function Coefficients” alatt a súlyokat kérhetjük a csoportok között, a „Within-groups correlation” jelölésével pedig a csoportok közötti korreláció szintjéről kapunk információt. Ezutóbbi a homoszkedaszticitás miatt fontos. A „Classification” pontban a „Compute from group sizes” lehetőség kiválasztásával az eredeti csoportnagyságokat veszi figyelembe a modell. A „Summary table” a diszkriminancia függvényt teszteli, míg a „Separate-groups” paranccsal egy olyan pontábrát kapunk, ahol a csoportok el vannak különítve. A változóinkat el is menthetjük a „Save” menüpontban található beállításokkal. A „Tests of Equality of Group Means” táblázatban láthatjuk a csoportok közötti különbségeket. A „Wilks’ Lambda” mutató árulkodik a csoportokon belül a különbözőségről. A maximum érték itt 1 lehet, miszerint a csoporton belül az átlagok eléggé eltérőek. Mivel a csoportokon belül az a jó, ha az átlagok megegyeznek, ezért minél inkább a 0-hoz közelít az értéke, annál jobb a modellünk. Abban az esetben, ha ez nem adott, az „F” érték még adhat támpontot. Ha ez szignifikáns, akkor a modell a magas Lambda értékek ellenére is elfogadható. A „Within-group matrices” a csoportok közötti korrelációt mutatja. A Box’s M érték a változók a varianciák egyezőségét mutatja, ha nem szignifikáns, akkor a változók eloszlása normális és alkalmasak a diszkriminancia elemzésre. Ellenkező esetben ezt jeleznünk kell a statisztikánkban. Az „Eigenvalues” táblázatban az egyéni változók által magyarázott variancia értékét láthatjuk. Ahol minél magasabb a megmagyarázott variancia, annál jobb az ahhoz tartozó magyarázómodell. A „Wilks’ Lambda” értéke szignifikancia esetén azt mutatja, hogy a modellünk hatékonyabban sorolja-e be az elemeket csoportokba, mintha csak találgatna. A „Classification Results” táblázatban láthatjuk, hogy az elemek hány százalékát tudjuk helyesen csoportokba sorolni.





 

LOGISZTIKUS REGRESSZIÓ

Alkalmazási feltételei hasonlóak a diszkriminancia-elemzéshez, azaz független változók által csoportokba sorolt adatok között keres különbséget, akárcsak a diszkriminancia-analízis, azonban míg a diszkriminancia-analízis segítségével csak metrikus független változókkal tudunk szétválasztani, addig a logisztikus regresszió alkalmas a nem paraméteres adatsorok alapján történő különbségtételre is. Emellett a lineáris regresszióval is párba állítható, ugyanis a független paraméteres változók itt is képesek behatárolni a függő változó megjelenését, azaz pontosabban a függő változó valamelyik csoportjába történő besorolást. Azonban, mivel elfogadja a nem paraméteres adatsorokat, a határt képző elméleti vonal nem egyenes, mint például a diszkriminancia-elemzés esetében.  Két típusát különböztetjük meg: az egyik a bináris logisztikus regresszió – segítségével egy dichotóm függő változó egyik vagy másik csoportjába sorolhatunk, a független változók szerint. Másik típusa a többváltozós logisztikus regresszió, ebből kifolyólag több csoportba tud besorolni a független, nem metrikus változóink alapján. Mivel felhasználhatósági köre emiatt szerteágazóbb, az alkalmazása igencsak elterjedté vált a diszkriminancia-elemzés mellett, ahol a multikolinearitás megléte alapvető fontosságú. A logisztikus regresszió esetében ez nem feltétel. Az egymással korreláló független változókat érdemes tehát megszüntetni vagy átkonvertálni. A bináris logisztikus regresszió két modellt készít. Egy elsődleges modellt, ahol a változók összessége még nincs modellbe rendezve, végül egy olyat, ahol minden független változót figyelembe vettünk. 

about-logistic-regression-blog-image.JPG

A logisztikus regresszió határvonala nem egyenes vonal. Ennek oka, hogy a független változók lehetnek nem paraméteres jellegűek is  (forrás: mh-journal.blogspot.com).

Logisztikus regresszió futtatása SPSS-ben


Logisztikus regresszió futtatása SPSS-ben és hivatkozása:
A Bináris logisztikus regressziót megtalálhatjuk az Analyze>Regression>Binary logistics menüpontban. A felugró ablakban válasszuk azt a függő dichotóm változót (Dependent), ahova a besorolást el szeretnénk végezni. A „Covariances” tartalmazza azokat a független változókat, melyek alapján a besorolást akarjuk elvégezni. Mivel a logisztikus regresszió megengedi a nem paraméteres adatsorok bevitelét, így a „Categorical” menüpontban adjuk meg ezek közül is azokat, melyek szintén dichotóm módon viselkednek. Az „Options” menüpontban a „CI for exp(B)” lehetőséggel jelöljük a csoportba sorolás szignifikanciáját. A kapott eredményeket egy összegző táblázatban látjuk elsőként (Case processing Summary). A Classification table mutatja, hogy milyen biztonsággal sorolhatjuk be elemeinket a függő változó valamelyik sorába. Ebben az esetben a nyilvános iskolába 83,9%-os bizonyossággal sorolhattunk volna a modellbe. A „Variables in the Equation” táblázat szignifikáns, ezért ezt az adatot el is fogadhatjuk. A táblázatok közül a „Variables not in the Equation” táblázat azt mutatja meg, hogy melyik változók szignifikánsak önmagukban is a modell alkotásakor, de ez még nem az együttes szignifikanciát mutatja! Végezetül megkapjuk a modellünk teljes szignifikanciáját. Amennyiben ez az érték szignifikáns, a modellünk alkalmas a csoportosításra a független változók alapján. Az adott százalékok annak eldöntésében is segítenek, hogy a végső modell milyen bizonyossággal sorolna be megfelelően egy csoportba.




ROC-görbe futtatása SPSS-ben


ROC – görbe
A többváltozós statisztikai elemzések során kapott változóink besorolási alkalmasságát is tesztelhetjük a ROC görbe segítségével. Ennek értelmében megtudhatjuk, hogy az elmentett változóink jobb besorolást adnak-e, mintha az véletlenszerűen tettük volna. A ROC-görbe készítéséhez menjünk az Analyze > ROC-curve menüpontba A felugró ablakban válasszuk ki azokat a változókat, melyen a vizsgálatot el szeretnénk végezni (Test Variable). A „State variable” tartalmazza azt a változót, amelybe sorolni kívánunk. Az eredményeinket megtekintve két fontos tényezőt vehetünk figyelembe. Az „Area” érték mutatja a görbe alatti területet, ez 0 és 1 közötti értéket vehet fel, a szignifikancia értékek pedig azt mutatják, hogy elvethetjük-e a nullhipotézist, miszerint a változók nem alkalmasak a véletlennél hatékonyabb elkülönítésre. Ebben az esetben a szignifikáns érték azt jelenti, hogy a változó hatékonyabb a véletlennél.