Korreláció és Regresszió

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosan a korrelációról és regresszióról, Korreláció, Lineáris regresszió, Példák SPSS-ben

Market Analysis

Letölthető jegyzetek

StatOkos Jegyzet: Korreláció és regresszió
StatOkos Jegyzet: Összefoglaló

Adatfájlok: SPSS

Adatfájlok: Excel 

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

ÁLTALÁBAN A KORRELÁCIÓRÓL ÉS REGRESSZIÓRÓL

LINEÁRIS REGRESSZIÓ

BEVEZETŐ

BEVEZETŐ

 

A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak.  Az alábbi példák az IBM SPSS szoftverhez készültek.

 

A változók közötti kapcsolat feltárása

Vagyis: a változók között van-e valamilyen oda-vissza ható kapcsolat?

Vagyis: a változók képesek-e prediktálni egy másik változó megjelenését?

Korreláció

Lineáris regresszió

Általánosságban a korrelációról és regresszióról

A többváltozós statisztikai próbák, ellentétben például az egyszerű szignifikanciapróbákkal, a legalkalmasabb módszerek az adatok/változók közötti összefüggések feltárására. Bárhogy vizsgálódunk, alapvetően két metódust fogunk alkalmazni: az előfeltételezéssel bíró feltárásokat és az előfeltételezéssel nem bíró feltárásokat. Természetesen, sem a korreláció, sem pedig a lineáris regresszió nem sorolhatók tisztán egyik vagy másik csoportba, hiszen mindkettővel végezhetőek ilyen számítások, de általánosságban a korrelációszámítást inkább akkor használjuk, amikor nincs szilárd előfeltételezésünk a változók közötti kapcsolat irányáról, míg a lineáris regresszió esetében, már van egy előfeltételezésünk arra vonatkozóan, hogy melyik változó, melyik másik változó mozgását befolyásolhatja. Vagyis a korrelációszámítás során ritkán tudunk ok-okozati összefüggést megállapítani, inkább arra vagyunk kíváncsiak, hogy létezik-e a kapcsolat. Ezzel szemben a lineáris regresszióval pedig a változók közti ok-okozati viszonyokra vonatkozó előfeltételezéseink helyességét vizsgálhatjuk.  

 

A korrelációszámítás azt hivatott feltárni, hogy van-e kapcsolat a két változó között, míg a regressziószámítás a kapcsolat szabályszerűségeit és irányát hivatott felfedni. A korreláció számításnak két típusát ismerjük: 

 

  • Pearson korrelációt akkor végzünk, ha mind a függő, mind a független változóink paraméteresek

  • Spearman korrelációt pedig akkor, ha valamelyik változó (vagy mindegyik) nem paraméteres

 

A korrelációszámítás esetében emlékezzünk mindig arra, hogy a változók valószínűségi változók, tehát oda-vissza jelezhetnek ok-okozati kapcsolatot, melynek helyességéről való döntés rajtunk múlik. A lineáris regresszió ezzel szemben meghatározza, hogy A, B, C (...) változók milyen módon prediktálják X, Y, Z (...) változók megjelenését. 

 

KORRELÁCIÓ

korr_cage.png

Az ábrán egy korreláció látható. Mégpedig arról, hogy egy éves időintervallumban hányan fulladtak bele egy medencébe, illetve arról, hogy hány olyan film jött ki, amelyben Nicolas Cage megjelenik, mint szereplő. Mit is látunk az ábrán? A két vonal nagyon sok közös pontban egyszerre mozog, ez három dolgot jelenthet a mi esetünkben:

  1. Amikor az emberek elkezdenek beleesni a medencébe, úgy Nicolas Cage is aktívvá válik a filmvilágban 

  2. Amikor Nicolas Cage elkezd megjelenni a filmvilágban, akkor az emberek beleesnek (vagy szándékosan beleugranak) a medencébe

  3. Ez csak egy véletlen, a két adatsornak semmi köze egymáshoz

Akik a 3. opciót választották, nagyon jól gondolkodtak. Vélhetően itt csak egy látszólagos együttjárásról, korrelációról van szó. Ebből is látszik, amelyet általánosságban megfogalmaztunk a korrelációt illetően. A kapcsolatot látjuk, de az ok-okozatot nekünk kell meghatározni. Mikor beszélhetünk korrelációról? Lényegében akkor, ha a változóink bizonyos tartományokban hasonlóképpen változnak-mozognak. Ennek értelmében képzeljünk el egy ábrát, ahol „x” és „y” tengely között kék és piros pontok jelennek meg. A kék az egyik adatsort, a piros a másikat jelöli. Azt látjuk, hogy a pontok nagyon szorosan, egymás közelében helyezkednek el. Ekkor például elméletben beszélhetünk együttjárásról. Mindazonáltal egy képzeletbeli egyenest is húzhatunk, amely az úgynevezett szórásegyenes. A szórásegyenes körül a felvett értékek szóródnak. Fontos megjegyezni azt is, hogy a változók közötti szerep megadása igencsak önkényes, rajtunk múlik, hogy melyiket alkalmazzuk ok-okozati tényezőként. 

korr_pontok.png

Ellentétes irányú korreláció is lehetséges. Ebben az esetben az egyik adatsor értékeinek a változása ellentétesen mozgatja a másik adatsor értékeinek a változását. A statisztikai próbák bonyolultabb háttérmechanizmusait most nem tárjuk fel. Lényegében a korrelációs együtthatónk (r) felvehet -1 és 1 közötti értéket. A mínusz tartományban található korreláció ellentétes, míg a pozitív tartományban található korreláció egyenes együttjárást jelez. Minél közelebb kerül valamelyik 1-es értékhez, annál erősebb. A következő ábrán látható, amint a korrelációs együttható egy egyenes köré csoportosul. Láthatjuk, hogy minél inkább közelít vagy pozitív vagy negatív irányban az 1-hez, annál inkább ezt a formát kapjuk. 

Például egy r=0,1 esetén, ami igazán nem jelent semmit, a pontjaink szétszóródtak az egyenestől. A kutatómunkáink során általában 0,4-5 értéket még éppen elfogadhatjuk tendenciaként, de minél erősebb az r értéke (kiváltképp 0,7 érték felett), annál biztosabb, hogy erős együttjárásról van szó. Vagyis az egyik változó ilyen esetekben a függő változó összesített varianciájának több, mint 70%-át magyarázhatja. Mindazonáltal ne feledkezzünk meg a szignifikancia szintjéről sem! Hiába kapunk az r érték alapján korreláló adatokat, ha a szignifikancia nem teljesül. Abban az esetben, ha a statisztikai próbánk szignifikáns korrelációt jelez, elkezdhetünk gondolkodni, hogy az ok-okozati összefüggések miként alakíthatták ki ezt az értéket.  Csak a korreláció tényének ismeretében nem tudjuk bizonyítani ezeket  a prekoncepciókat. Ehhez további exploráció szükséges. 

 

Az adatsoraink típusától függően két fajta korrelációszámítást végezhetünk, az egyik a Pearson-féle korreláció, melyet paraméteres – követi a normál eloszlást, a másik pedig a Spearman-féle korreláció, melyet nem paraméteres adatok összefüggéseinek vizsgálata során használunk. Az előző, Nicolas Cage példáján bemutatott korrelációval egyúttal azt is szeretnénk jelezni, hogy sok esetben kapunk összefüggést, ahol egyszerűen nincs. Az ilyen esetek a véletlen művei, a józan ész logikájával élve nem kell vele foglalkozni. Kivéve akkor, ha van valami mögöttes sejtésünk és azt jószerivel igazolni is tudjuk megfelelően. 

Korreláció futtatása SPSS-ben


Korrelációszámítás futtatása SPSS-ben és hivatkozása

A korrelációt az Analyze>Correlate>Bivariate menüpontban találhatjuk meg. A felugró ablakban a „Variables” menüpont tartalmazza azokat a legalább intervallumváltozókat, melyeken végre akarjuk hajtani a vizsgálatot. Ebben az esetben legyen bejelölve a „Pearson” opció, ugyanis csak ebben az esetben kapunk helyes statisztikát a paraméteres változóinkra. Az eredményeink „Correlations” táblázatában látjuk a Pearson korreláció eredményeit. Két értéket veszünk figyelembe. Egyrészt, hogy a hatás szignifikáns-e. Amennyiben igen, kapcsolat áll fenn a két változó között. A korreláció értéke is árulkodó. Minél inkább közelít az 1-es értékhez, annál erősebb a korreláció, viszont a negatív előjel ellentétes tendenciát jelez. Amennyiben az egyik változónk nem intervallumváltozó vagy a változóink nem követik a normalitást, használhatjuk a „Spearman” korrelációt. Ebben az esetben a megfelelő változók kiválasztását követően jelöljük ki a „Spearman” lehetőséget. A kapott eredményeinket itt is hasonlóképpen értelmezhetjük, mint a Pearson korreláció esetében. Hivatkozása: r(N (elemszám)-1) = r értéke, p = szignifikancia Példánkban (Spearman): r(29)=-0,112, p=0,556





LINEÁRIS REGRESSZIÓ

 

A regressziószámítás alapjai Sir Francis Galton nevéhez fűződnek, aki a 19. században fogalmazta meg a modern statisztika számos alapvetését. A regressziószámítással azt határozhatjuk meg, hogy a paraméteres független változóink milyen mértékben befolyásol(hat)nak egy szintén paraméteres függő változót. A korreláció tárgyalásánál szóba került, hogy a változók oda-vissza fejezhetnek ki valamilyen okságot. Ez a regressziószámítás esetében nem feltétlenül igaz. Itt általában valamilyen irányt adunk meg, vagyis előzetesen feltételezünk egyfajta meghatározott kapcsolatot és annak ok-okozati összefüggéseit. Amennyiben a független változóinkat mi állítjuk be a kutatásaink során, akkor úgy érdemesebb a regresszióanalízist alkalmaznunk az adatok értékelésekor. A gyakorlatban miként lehet ezt használni? Például ismerünk több független változót, amelyek segítségével le szeretnénk írni – bejósolni – a függő változónk értékeinek várható megjelenését vagy változását. 

Az alábbi példa egy többváltozós lineáris regressziót mutat be: egy alternatív univerzumba csöppenve olyan hozzánk hasonló embereket látnánk, akiknek a genetikája fenotípusában igencsak hasonlít a miénkhez, mégis a mögöttesen meghúzódó kapcsolati rendszer már nem követi az általunk megismert módokat. Ebben a társadalomban vélhetően a lábméret és a testsúly határozza meg az intelligenciát. 

Képzeljünk el 50 és 80 közötti lábmérettel rendelkező embereket, akik tömege körülbelül 30 és 130 kg között mozog. Ebben a társadalomban élő kutató elkezdte vizsgálni a lábméret és teststúly, valamint az intelligencia teszteken nyújtott eredményeket és rájött, hogy lehet valamiféle kapcsolat változók mögött. Azt látta meg ugyanis, hogy azok az emberek, akiknek 70-es lábuk volt és 70-80 kg között volt a tömegük jobb eredményeket értek el az IQ teszteken, mint például az 50-es lábúak, akik a populáción belül messze a legalacsonyabb értékeket hozták. Azonban lehet-e feltételezni, hogy a lábméret és a tömeg meghatározza az intelligenciát? 

 

A tudós arra gyanakodott, hogy a kapcsolatnak egy bizonyos iránya lehet, ugyanis két 70-es lábú, 70-80 kg között mozgó embernek nagyobb eséllyel lesz okos gyermeke, mint más lábméretű és más tömegű, azonban mégis kivételesen intelligens embereknek, 70-es lábméretű, 70-80 kg-os gyermeke. Mit látnánk, ha ezeket a lábmérettel és testsúllyal megegyező pontokként ábrázolnánk az IQ függvényében? Nagyjából azt, hogy sok, körülbelül 70-es lábú, 70-80 kg-os és magasan intelligens egyed lenne a populációban, közé ékelődve valamennyi 60, 80-as lábméretű és 70-80 kg-tól eltérő tömegű személy eredményével, míg az alsóbb tartományokban az 50-es méret dominálna, szintén a 70-80 kg-tól eltérő értékekkel. A megfigyelései alapján tehát úgy gondolja a tudós, hogy a független változó a lábméret és a tömeg, amely befolyásolja a függő változót, vagyis az IQ értékét. Ne feledjük, a magas intelligenciájú, de mégsem 70-es lábú 70-80 kg-os embereknek hiába adottak az IQ változón mért lehetőségeik, vélhetően nem fognak 70-es lábú 70-80 kg-os utódot nemzeni és ennek az oka nem a lábméret és a tömeg keveredéséből adódik. Vagyis a lábméret és a tömeg erősebb bejóslója az intelligenciának, mint fordítva. A regresszióanalízis éppen az ilyen (bizarr) esetek alátámasztását teszi lehetővé.

 

1200px-Linear_regression.svg.png

Példa a lineáris regresszió egyenesére (forrás: wikipedia)

A tudós megfigyelései szerint két 70-es lábú, 70-80 kg közötti ember nagyobb eséllyel hoz világra magas intelligenciájú gyermeket, mint két magas intelligenciájú személy, később 70-es lábú, 70-80 kg közötti embert.

Lineáris regresszió futtatása SPSS-ben


Lineáris regresszió futtatása SPSS-ben és hivatkozása

A lineáris regressziót kétféleképpen is vizsgálhatjuk

- Az egyik lehetőség a Curve Estimation vizsgálat, ahol egyetlen függő változó és egy független változó kapcsolatát lehet felderíteni, regressziós egyenlet készítésével. Ebben az esetben nem kell lineáris kapcsolatnak fennállnia (ezért is kapta a "Curve", azaz görbe nevet)

- A másik lehetőség a klasszikus egyváltozós lineáris regresszió, ahol egy függő változó és több független változó kapcsolatát deríthetjük fel. Ebben az esetben fontos a linearitás megléte.

Linearitás tesztelése

A linearitás tesztelése előfeltétele a próbák lefuttatásának, ugyanis a lineáris regressziót lineárisan változó adatsorokra tudjuk első sorban alkalmazni.

A teszteléshez menjünk az Analyze > Regression > Curve Estimation menüpontba

A felugró ablakban jelöljük ki a függő változónkat és azt a független változót, melynek a hatását vizsgáljuk a függő változóra. Jelöljük ki a „Display ANOVA table” funkciót! Illetve hagyjuk jelölve a "Linear" lehetőséget, ugyanis ha ez szignifikáns, akkor lineáris a kapcsolat, ha nem, akkor nem lineáris.

Az eredményeket megtekintve láthatjuk a „Model Summary” táblázatban az „R” korrelációs együttható értékét, valamint az „R Square” adatot, amely a modell magyarázóerejéről ad információt.



Az ANOVA táblázatban látható „F” érték szignifikanciája esetén a független változó lineáris kapcsolatban van a függő változóval.

A „Coefficients” táblázatban a koefficiensek értéke alapján leolvasható a regressziós egyenes.

Függő változó neve + értéke = függő változó B érték (Constant sor) + független változó B értéke * a független változó neve + értéke

Itt: reakcióidő értéke = 1,496 + -,008 * iq értéke

A függő változó értékét "x" vagy a független változó értékét "y" behelyettesítve, egy egyismeretlenes egyenletet kapunk, mellyel a másik érték előre megadható.

Ha a linearitás nem teljesül, akkor ugyanebben a menüpontban válasszik ki a "Quadtraic" és a "Cubic" lehetőséget is. Amelyik szignifikáns, az az érték adja a nem lineáris modell regresszióegyenesét a korábbiakban tárgyaltaknak megfelelően. Amennyiben mindkettő szignifikáns, úgy a számunkra kedvezőbb szignifikancia értéket vesszük figyelembe. A Curve Estimation alkalmas a nem lineáris változókkal történő regressziós egyenlet felírására.

Lineáris regresszió Amennyiben az előző teszten linearitást tapasztaltunk, folytathatjuk a további vizsgálódást. Az egyváltozós lineáris regressziót az Analyze>Regression>Linear menüpontban találhatjuk meg. A felugró ablakban a függő változó kijelölése mellett (Dependent) jelöljük ki a független változót is, melynek kapcsolatát akarjuk felderíteni. A „Statistics” ablakban jelöljük ki a regressziós koefficiens várható értékét (Estimates) és a model illeszkedését (Model fit) A „Plots” lehetőséget kiválasztva adjuk meg, hogy az ábránk „x” és „y” tengelyén milyen értékek (reziduálisok - a modell magyarázó változói) szerepeljenek. A „Dependent” a függő változókat jelöli, a „ZPRED” a az előrejelzett értékeket, a „ZRESID” a standardizált reziduumokat. Eredményeinket megtekintve láthatjuk a korábban is megkapott „Model Summary” táblázatot. Az ANOVA táblázat mutatja, hogy az „F” érték szignifikáns-e. Szignifikancia esetén van kapcsolat az értékek között. A „Coefficients” táblázatban megtalálható a modell szignifikancia szintje. Ezekből felírható a regressziós egyenes egyenlete is. Megtekintve a diagramokat, láthatjuk, hogy az értékek nem követik folyamatosan a normál eloszlást. Ebben az esetben beszélünk heteroszkedaszticitásról. Fontos ez az információ, ugyanis a regressziós modell alapfeltétele a homoszkedaszticitás. Ebben az esetben az adatok átdolgozása segíthet, illetve az, hogy megvizsgáljuk a „hibatagok” normál eloszlását. A hibatagok normál eloszlásának vizsgálatához a lineáris regresszió párbeszédpanelen válasszuk ki a „Save” parancsot, hogy a standardizált hibatagokat el tudjuk menteni. Ezt követően az SPSS egy változót ment el, melyet vessünk alá egy normalitásvizsgálatnak. Erre alkalmas a korábbiakban már említett Kolmogorov-Smirnov próba. Ezt elérhetjük az Analyze>Nonparametric test> Legacy dialogs> 1 sample K-S menüpontban. Az itt betöltött új változóra lefutottatott normalitásvizsgálat eredményeit az alábbi táblázat szemlélteti. Az itt kapott eredmények alapján megtekinthetjük, hogy a normalitás itt fennáll-e. A próba nullhipotézise szerint a normalitások megegyeznek, ellenkező esetben – ha az eredmény szignifikáns – a normalitás feltétele nem teljesül. Ezzel ellenőrízhetjük, hogy a modellünk a heteroszkedaszticitás ellenére vizsgálatra és elemzésre, valamint közlésre alkalmas-e az adatunk. Hivatkozása: R2 = R square értéke, F(regresszió szabadságfoka, reziduális szabadságfoka) = F értéke, p=szignifikancia értéke Példánkban: R2= 0,383, F(1,41) = 25,453, p<0.001