Korreláció és Regresszió

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosan a korrelációról és regresszióról, Korreláció, Lineáris regresszió, Példák SPSS-ben

Market Analysis

Letölthető jegyzetek

StatOkos Jegyzet: Korreláció és regresszió
StatOkos Jegyzet: Összefoglaló

Adatfájlok: SPSS

Adatfájlok: Excel 

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

ÁLTALÁBAN A KORRELÁCIÓRÓL ÉS REGRESSZIÓRÓL

LINEÁRIS REGRESSZIÓ

BEVEZETŐ

BEVEZETŐ

 

A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak.  Az alábbi példák az IBM SPSS szoftverhez készültek.

 

A változók közötti kapcsolat feltárása

Vagyis: a változók között van-e valamilyen oda-vissza ható kapcsolat?

Vagyis: a változók képesek-e prediktálni egy másik változó megjelenését?

Korreláció

Lineáris regresszió

Általánosságban a korrelációról és regresszióról

A többváltozós statisztikai próbák, ellentétben például az egyszerű szignifikanciapróbákkal, a legalkalmasabb módszerek az adatok/változók közötti összefüggések feltárására. Bárhogy vizsgálódunk, alapvetően két metódust fogunk alkalmazni: az előfeltételezéssel bíró feltárásokat és az előfeltételezéssel nem bíró feltárásokat. Természetesen, sem a korreláció, sem pedig a lineáris regresszió nem sorolhatók tisztán egyik vagy másik csoportba, hiszen mindkettővel végezhetőek ilyen számítások, de általánosságban a korrelációszámítást inkább akkor használjuk, amikor nincs szilárd előfeltételezésünk a változók közötti kapcsolat irányáról, míg a lineáris regresszió esetében, már van egy előfeltételezésünk arra vonatkozóan, hogy melyik változó, melyik másik változó mozgását befolyásolhatja. Vagyis a korrelációszámítás során ritkán tudunk ok-okozati összefüggést megállapítani, inkább arra vagyunk kíváncsiak, hogy létezik-e a kapcsolat. Ezzel szemben a lineáris regresszióval pedig a változók közti ok-okozati viszonyokra vonatkozó előfeltételezéseink helyességét vizsgálhatjuk.  

 

A korrelációszámítás azt hivatott feltárni, hogy van-e kapcsolat a két változó között, míg a regressziószámítás a kapcsolat szabályszerűségeit és irányát hivatott felfedni. A korreláció számításnak két típusát ismerjük: 

 

  • Pearson korrelációt akkor végzünk, ha mind a függő, mind a független változóink paraméteresek

  • Spearman korrelációt pedig akkor, ha valamelyik változó (vagy mindegyik) nem paraméteres

 

A korrelációszámítás esetében emlékezzünk mindig arra, hogy a változók valószínűségi változók, tehát oda-vissza jelezhetnek ok-okozati kapcsolatot, melynek helyességéről való döntés rajtunk múlik. A lineáris regresszió ezzel szemben meghatározza, hogy A, B, C (...) változók milyen módon prediktálják X, Y, Z (...) változók megjelenését. 

 

KORRELÁCIÓ

korr_cage.png

Az ábrán egy korreláció látható. Mégpedig arról, hogy egy éves időintervallumban hányan fulladtak bele egy medencébe, illetve arról, hogy hány olyan film jött ki, amelyben Nicolas Cage megjelenik, mint szereplő. Mit is látunk az ábrán? A két vonal nagyon sok közös pontban egyszerre mozog, ez három dolgot jelenthet a mi esetünkben:

  1. Amikor az emberek elkezdenek beleesni a medencébe, úgy Nicolas Cage is aktívvá válik a filmvilágban 

  2. Amikor Nicolas Cage elkezd megjelenni a filmvilágban, akkor az emberek beleesnek (vagy szándékosan beleugranak) a medencébe

  3. Ez csak egy véletlen, a két adatsornak semmi köze egymáshoz

Akik a 3. opciót választották, nagyon jól gondolkodtak. Vélhetően itt csak egy látszólagos együttjárásról, korrelációról van szó. Ebből is látszik, amelyet általánosságban megfogalmaztunk a korrelációt illetően. A kapcsolatot látjuk, de az ok-okozatot nekünk kell meghatározni. Mikor beszélhetünk korrelációról? Lényegében akkor, ha a változóink bizonyos tartományokban hasonlóképpen változnak-mozognak. Ennek értelmében képzeljünk el egy ábrát, ahol „x” és „y” tengely között kék és piros pontok jelennek meg. A kék az egyik adatsort, a piros a másikat jelöli. Azt látjuk, hogy a pontok nagyon szorosan, egymás közelében helyezkednek el. Ekkor például elméletben beszélhetünk együttjárásról. Mindazonáltal egy képzeletbeli egyenest is húzhatunk, amely az úgynevezett szórásegyenes. A szórásegyenes körül a felvett értékek szóródnak. Fontos megjegyezni azt is, hogy a változók közötti szerep megadása igencsak önkényes, rajtunk múlik, hogy melyiket alkalmazzuk ok-okozati tényezőként. 

korr_pontok.png

Ellentétes irányú korreláció is lehetséges. Ebben az esetben az egyik adatsor értékeinek a változása ellentétesen mozgatja a másik adatsor értékeinek a változását. A statisztikai próbák bonyolultabb háttérmechanizmusait most nem tárjuk fel. Lényegében a korrelációs együtthatónk (r) felvehet -1 és 1 közötti értéket. A mínusz tartományban található korreláció ellentétes, míg a pozitív tartományban található korreláció egyenes együttjárást jelez. Minél közelebb kerül valamelyik 1-es értékhez, annál erősebb. A következő ábrán látható, amint a korrelációs együttható egy egyenes köré csoportosul. Láthatjuk, hogy minél inkább közelít vagy pozitív vagy negatív irányban az 1-hez, annál inkább ezt a formát kapjuk. 

Például egy r=0,1 esetén, ami igazán nem jelent semmit, a pontjaink szétszóródtak az egyenestől. A kutatómunkáink során általában 0,4-5 értéket még éppen elfogadhatjuk tendenciaként, de minél erősebb az r értéke (kiváltképp 0,7 érték felett), annál biztosabb, hogy erős együttjárásról van szó. Vagyis az egyik változó ilyen esetekben a függő változó összesített varianciájának több, mint 70%-át magyarázhatja. Mindazonáltal ne feledkezzünk meg a szignifikancia szintjéről sem! Hiába kapunk az r érték alapján korreláló adatokat, ha a szignifikancia nem teljesül. Abban az esetben, ha a statisztikai próbánk szignifikáns korrelációt jelez, elkezdhetünk gondolkodni, hogy az ok-okozati összefüggések miként alakíthatták ki ezt az értéket.  Csak a korreláció tényének ismeretében nem tudjuk bizonyítani ezeket  a prekoncepciókat. Ehhez további exploráció szükséges. 

 

Az adatsoraink típusától függően két fajta korrelációszámítást végezhetünk, az egyik a Pearson-féle korreláció, melyet paraméteres – követi a normál eloszlást, a másik pedig a Spearman-féle korreláció, melyet nem paraméteres adatok összefüggéseinek vizsgálata során használunk. Az előző, Nicolas Cage példáján bemutatott korrelációval egyúttal azt is szeretnénk jelezni, hogy sok esetben kapunk összefüggést, ahol egyszerűen nincs. Az ilyen esetek a véletlen művei, a józan ész logikájával élve nem kell vele foglalkozni. Kivéve akkor, ha van valami mögöttes sejtésünk és azt jószerivel igazolni is tudjuk megfelelően. 

LINEÁRIS REGRESSZIÓ

 

A regressziószámítás alapjai Sir Francis Galton nevéhez fűződnek, aki a 19. században fogalmazta meg a modern statisztika számos alapvetését. A regressziószámítással azt határozhatjuk meg, hogy a paraméteres független változóink milyen mértékben befolyásol(hat)nak egy szintén paraméteres függő változót. A korreláció tárgyalásánál szóba került, hogy a változók oda-vissza fejezhetnek ki valamilyen okságot. Ez a regressziószámítás esetében nem feltétlenül igaz. Itt általában valamilyen irányt adunk meg, vagyis előzetesen feltételezünk egyfajta meghatározott kapcsolatot és annak ok-okozati összefüggéseit. Amennyiben a független változóinkat mi állítjuk be a kutatásaink során, akkor úgy érdemesebb a regresszióanalízist alkalmaznunk az adatok értékelésekor. A gyakorlatban miként lehet ezt használni? Például ismerünk több független változót, amelyek segítségével le szeretnénk írni – bejósolni – a függő változónk értékeinek várható megjelenését vagy változását. 

Az alábbi példa egy többváltozós lineáris regressziót mutat be: egy alternatív univerzumba csöppenve olyan hozzánk hasonló embereket látnánk, akiknek a genetikája fenotípusában igencsak hasonlít a miénkhez, mégis a mögöttesen meghúzódó kapcsolati rendszer már nem követi az általunk megismert módokat. Ebben a társadalomban vélhetően a lábméret és a testsúly határozza meg az intelligenciát. 

Képzeljünk el 50 és 80 közötti lábmérettel rendelkező embereket, akik tömege körülbelül 30 és 130 kg között mozog. Ebben a társadalomban élő kutató elkezdte vizsgálni a lábméret és teststúly, valamint az intelligencia teszteken nyújtott eredményeket és rájött, hogy lehet valamiféle kapcsolat változók mögött. Azt látta meg ugyanis, hogy azok az emberek, akiknek 70-es lábuk volt és 70-80 kg között volt a tömegük jobb eredményeket értek el az IQ teszteken, mint például az 50-es lábúak, akik a populáción belül messze a legalacsonyabb értékeket hozták. Azonban lehet-e feltételezni, hogy a lábméret és a tömeg meghatározza az intelligenciát? 

 

A tudós arra gyanakodott, hogy a kapcsolatnak egy bizonyos iránya lehet, ugyanis két 70-es lábú, 70-80 kg között mozgó embernek nagyobb eséllyel lesz okos gyermeke, mint más lábméretű és más tömegű, azonban mégis kivételesen intelligens embereknek, 70-es lábméretű, 70-80 kg-os gyermeke. Mit látnánk, ha ezeket a lábmérettel és testsúllyal megegyező pontokként ábrázolnánk az IQ függvényében? Nagyjából azt, hogy sok, körülbelül 70-es lábú, 70-80 kg-os és magasan intelligens egyed lenne a populációban, közé ékelődve valamennyi 60, 80-as lábméretű és 70-80 kg-tól eltérő tömegű személy eredményével, míg az alsóbb tartományokban az 50-es méret dominálna, szintén a 70-80 kg-tól eltérő értékekkel. A megfigyelései alapján tehát úgy gondolja a tudós, hogy a független változó a lábméret és a tömeg, amely befolyásolja a függő változót, vagyis az IQ értékét. Ne feledjük, a magas intelligenciájú, de mégsem 70-es lábú 70-80 kg-os embereknek hiába adottak az IQ változón mért lehetőségeik, vélhetően nem fognak 70-es lábú 70-80 kg-os utódot nemzeni és ennek az oka nem a lábméret és a tömeg keveredéséből adódik. Vagyis a lábméret és a tömeg erősebb bejóslója az intelligenciának, mint fordítva. A regresszióanalízis éppen az ilyen (bizarr) esetek alátámasztását teszi lehetővé.

 

1200px-Linear_regression.svg.png

Példa a lineáris regresszió egyenesére (forrás: wikipedia)

A tudós megfigyelései szerint két 70-es lábú, 70-80 kg közötti ember nagyobb eséllyel hoz világra magas intelligenciájú gyermeket, mint két magas intelligenciájú személy, később 70-es lábú, 70-80 kg közötti embert.