DISZKRIMINANCIA ANALÍZIS, LOGISZTIKUS REGRESSZIÓ

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosságban a változók besorolásáról

Diszkriminancia analízis

Logisztikus regresszió

ROC-görbe

Példák SPSS-ben

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

A POPULÁCIÓ TAGJAINAK BESOROLÁSA VÁLTOZÓK ALAPJÁN

DISZKRIMINANCIA- ANALÍZIS

LOGISZTIKUS REGRESSZIÓ

BEVEZETŐ

 

A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak. Az alábbi példák az IBM SPSS szoftverhez készültek.

 

A POPULÁCIÓ TAGJAINAK BESOROLÁSA VÁLTOZÓK ALAPJÁN

Általánosságban a diszkriminancia-analízisről és a logisztikus regresszióról

Továbblépve a csoportok és feltételek közötti különbségek keresésén, a változók redukálásán, illetve a meglévő populáció újrarendezésén, a statisztika predikciós tulajdonságairól is fontos beszélni. A statisztika szoros együttműködésben áll a valószínűségszámítással, ennek megfelelően valamilyen szinten alkalmas az előrejelzésre is. Ezek az előrejelzések többnyire a gazdasági életben fontosak, de az egyes formáiból a társadalomtudományok ugyanúgy profitálhatnak. A való életből tudjuk, hogy bizonyos populációk bizonyos tulajdonságokkal jellemezhetők. Ezek olyan mérhető tulajdonságok, melyek stabil meglétét a populációban longitudinális (vagyis hosszú időn keresztül, ismételt mérések segítségével folytatott) kutatások is igazolják. Bár az egyes populációk esetén az új tagok érkezése, illetve egyes tagok távozása is megengedett, alapvetően elmondható, hogy ezek a folyamatok nem változtatják meg a populáció fő tulajdonságait. Igy elmondhatjuk, hogy olyan elemek, amiket eddig még nem helyeztünk populációkba, bizonyos tulajdonságaik alapján nagy valószínűséggel csakugyan besorolhatók egy ilyen elméleti térbe. Például vegyük a felsőfokú végzettséggel rendelkező emberek populációját. Folyamatosan kerülnek bele új elemek és távoznak is idővel, mégis a populáció egyik tulajdonsága, hogy felsőfokú végzettséggel bírnak, nem változik. Olyan esetekben, amikor nagy számú változó alapján szeretnénk besorolást tenni, diszkriminancia analízist vagy logisztikus regressziót alkalmazhatunk.

 

DISZKRIMINANCIA-ANALÍZIS

Újra visszatérve a pszichológiai intézetbe a tanárok kézhez kapták az előző szemeszter hagyományos tanulmányi átlagait évfolyamonként. Azt vették észre, hogy az első évesek lényegesen eltérő átlagot produkáltak a végzősökkel szemben. Szerencsére az évfolyamok és az ott tanuló diákok más adatai is rendelkezésre álltak és diszkriminancia-analízis segítségével megvizsgálták, hogy a csoportok milyen tulajdonságaiban különböznek egymástól a tanulmányi átlag mellett és be lehet-e őket sorolni csak ez alapján az első vagy a második évfolyamra. A diszkriminancia-elemzéshez szükséges egy kategorizációra alkalmas függő változó, amely az, hogy valaki elsős vagy éppen másodikos – ez jelen esetben adott -, most már csak olyan metrikus (de legalább paraméteres), független változókat kell keresni, ami különbséget adhat e csoportok között és ezáltal besorolásra alkalmassá válnak. A korábbiakkal ellentétben most nem a függő változó a magasabb mérési szintű, hanem a független változónk. 

A diszkriminancia-elemzés lehet kétváltozós és többváltozós. A kétváltozós diszkriminancia-elemzés dichotóm függő változókkal futtatható, hiszen két csoportra kategorizál a nominális adatsorunk. Ennél több kategória már többváltozósnak tekinthető. Mivel metrikus skálán teszünk különbséget, a független változónak követnie kell a normalitást. Ha ez a feltétel mégsem teljesül, figyelembe kell vennünk az adataink átvizsgálásának lehetőségét és a kiugró értékek szelektálását. A független változónak mutatnia kell a multkikolienaritást (tehát ne legyen a változók mozgása között korreláció), azonban a homoszkedaszticitás tekintetében azonosnak kell lennie a függő változó által elválasztott csoportoknak (tehát a változók varianciája hasonló legyen egy csoporton belül). Gyakorlatban az alkalmazása sokrétű lehet, azonban mivel a független változókat csak metrikus spektrumban képes értelmezni, elterjedtebbé vált a logisztikus regresszió, melynek segítségével nem csak metrikus, de nominális és ordinális változókkal is tudunk különbséget tenni. 

Linear-discriminant-analysis.png

Figyeljük meg, hogy a különböző tulajdonságokkal bíró populációk, a változók által kialakított elméleti térben távolabb helyezkednek el egymástól. A diszkriminanciaanalízis egy elméleti határt húz meg a két populáció között, amely alkalmassá teszi őket a szétválasztásra  (forrás: researchgate.com)

 

LOGISZTIKUS REGRESSZIÓ

Alkalmazási feltételei hasonlóak a diszkriminancia-elemzéshez, azaz független változók által csoportokba sorolt adatok között keres különbséget, akárcsak a diszkriminancia-analízis, azonban míg a diszkriminancia-analízis segítségével csak metrikus független változókkal tudunk szétválasztani, addig a logisztikus regresszió alkalmas a nem paraméteres adatsorok alapján történő különbségtételre is. Emellett a lineáris regresszióval is párba állítható, ugyanis a független paraméteres változók itt is képesek behatárolni a függő változó megjelenését, azaz pontosabban a függő változó valamelyik csoportjába történő besorolást. Azonban, mivel elfogadja a nem paraméteres adatsorokat, a határt képző elméleti vonal nem egyenes, mint például a diszkriminancia-elemzés esetében.  Két típusát különböztetjük meg: az egyik a bináris logisztikus regresszió – segítségével egy dichotóm függő változó egyik vagy másik csoportjába sorolhatunk, a független változók szerint. Másik típusa a többváltozós logisztikus regresszió, ebből kifolyólag több csoportba tud besorolni a független, nem metrikus változóink alapján. Mivel felhasználhatósági köre emiatt szerteágazóbb, az alkalmazása igencsak elterjedté vált a diszkriminancia-elemzés mellett, ahol a multikolinearitás megléte alapvető fontosságú. A logisztikus regresszió esetében ez nem feltétel. Az egymással korreláló független változókat érdemes tehát megszüntetni vagy átkonvertálni. A bináris logisztikus regresszió két modellt készít. Egy elsődleges modellt, ahol a változók összessége még nincs modellbe rendezve, végül egy olyat, ahol minden független változót figyelembe vettünk. 

about-logistic-regression-blog-image.JPG

A logisztikus regresszió határvonala nem egyenes vonal. Ennek oka, hogy a független változók lehetnek nem paraméteres jellegűek is  (forrás: mh-journal.blogspot.com).