Előtesztelés

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Normalitás, Kiugró értékek vizsgálata, Paraméteres adatsorok jellemzői, nem paraméteres adatsorok jellemzői, adatok szűrésének módjai, eredmények értékelése

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

Előtesztelés folyamata

Ahhoz, hogy adatsorunkat bizonyos statisztikai próbákkal vizsgálhassuk, teljesülnie kell megadott előfeltételeknek. Ha már tudjuk, melyik statisztikai próbát szeretnénk alkalmazni (ezt a "Melyik eljárást válasszam?" menüpont alatt segítünk eldönteni), meg kell vizsgálnunk, hogy az adatsorunk megfelel-e az előfeltételeknek. Az alábbiakban sorra vesszük ezeket az előfeltételeket, illetve, hogy milyen módszerekkel lehet őket megvizsgálni SPSS-ben.

Normalitás


A normalitás, azaz a normál eloszlás megléte minden paraméteres próba előfeltétele. Különösen alacsonyabb mintaelemszámnál (általánosan 30 fő alatt) fontos, hogy ellenőrizzük, teljesül-e ez a feltétel. Az azonban sokszor félreértés tárgyát képezi, hogy minek a normalitására kell ilyenkor gondolnunk. A normalitást nem feltétlenül a saját mintánkra, hanem a vizsgált populációból kinyert mintaátlagok eloszlásra kell alkalmazni. Ehhez azonban nincs közvetlen hozzáférésünk, hiszen mi csupán a populációból vett egyetlen mintával rendelkezünk, ennek látjuk az átlagát és az eloszlását.


Hogyan lehet akkor mégis megvizsgálni ezt a feltételt? Tudnunk kell, hogy a normális eloszlású populációból vett minta normál eloszlású lesz (a véletlen ellenére is), hiszen a minta eloszlása hasonlítani fog a populáció eloszlására. Amennyiben tehát a mintánk megfelelő elemszámú, és normál eloszlást követ, feltételezhetjük, hogy a populáció normalitása is teljesül. Ha a mintánk esetében nem teljesül a normalitás, nem alkalmazhatunk paraméteres próbát, ilyenkor meg kell keresnünk a célunknak legmegfelelőbb nemparaméteres próbát. Amikor több csoportot alakítunk ki, és azokat vetjük össze, figyeljünk arra, hogy az előfeltételeknek az egyes csoportok esetén is érvényesülniük kell!


Fontos még, hogy kellően nagy mintaelemszám esetén a statisztikai erővel együtt annak az esélye is megnő, hogy szignifikáns eredményt kapunk. Ezzel kapcsolatban két esetet érdemes megemlíteni. Először is, ha alapvetően a mintánk nem tér el különösebben a normál eloszlástól, de a normalitást ellenőrző teszt eredménye mégis szignifikáns, előfordulhat, hogy ez csupán a nagy elemszámnak tudható be. Ilyenkor (különösen, ha a különböző, hamarosan ismertetett módszerekkel eltérő eredményeket kapunk) nekünk kell dönteni, hogy mi alapján határozzuk meg a normalitást. A másik eset, amikor a populáció eloszlása valóban nem normális, mégis akkora a mintánk elemszáma, hogy annak hatására az eloszlás a normális eloszlás felé tendál. Az, hogy ez mikor történik meg függ a populáció eloszlásának normáltól való eltérésétől.

Vajon mi lehet a görbe alatt?




Kiugró értékek vizsgálata


Amennyiben azt látjuk, hogy az adataink nem követik a normális eloszlást, két dolgot tehetünk: elfogadjuk, hogy a rendelkezésre álló változóink ilyen tulajdonsággal bírnak vagy végrehajthatunk rajta bizonyos mértékű adatformázást. Ez több dolgot is jelenthet. Tegyük fel, hogy az adatsorunk értékeiben van néhány nagyon magas és nagyon alacsony érték (ezek általában már két szórással vannak túl az átlagon). Az ilyen értékeket úgynevezett „trimmeléssel” kivehetjük a mintánkból vagyis megszüntethetjük a kiugró értékeinket. Az IBM SPSS programjában ezt a lehetőséget az Explore menüpontban találjuk. A megfelelő beállításokat követően grafikusan, oszlopdiagramokkal és szórási mutatóval ellátott ábrán vizsgálódhatunk. Az SPSS a kiugró elem számának megadásával, csillaggal jelöli a számunkra „gyanús” adatokat. Ezt követően visszakeresve az adatsorainkban, törölhetjük őket vagy mellőzhetjük a vizsgálatból. Ez azért hasznos lehetőség, mert számos kutatás során előfordulhat, hogy néhány vizsgálati személy valamilyen külső körülmény miatt nem tud a vizsgálat egésze alatt megfelelően koncentrálni. Ilyenkor a kiugró értékek eltávolításával ettől függetlenül is lehetőségünk nyílik helyes statisztika elkészítésére.




Példák SPSS-ben (Kolmogorov-Smirnov teszt)


A normalitás tesztelésének módszerei

A legegyszerűbb mód, ha az eloszlást grafikusan ábrázoljuk, (pl.: hisztogrammal), vagy frekvencia táblázattal vizsgáljuk meg a normalitást. Emellett azonban lehetőségünk van statisztikai próbával is ellenőrizni a feltétel meglétét. A következőkben ezeket a lehetőségeket ismertetjük.

Vajon mi lehet a görbe alatt?

Az eloszlás grafikus megjelenítése: Adatainkat különböző módon ábrázolhatjuk, hogy megvizsgáljuk az eloszlást. A legegyszerűbb a hisztogram készítése, mely az Analyze>Descriptive Statistics>Frequencies menüpont alatt érhető el. A Charts fül alatt lehet beállítani a hisztogram készítését, amelyhez normálgörbét is kérhetünk. Bizonyos esetekben már ránézésre is látható, ha a kapott görbe jelentősen eltér a normál eloszlástól, vagy ha nagyon jól illeszkedik hozzá. Amennyiben kétségeink maradtak, nézzük meg több eljárással az eloszlást, és azok együttese alapján hozzuk meg döntésünket.

Frequencies menüpont

A változók (variables) megadása

A hisztogram kiválasztását követően ...

... megkapjuk az ábránkat.



A ferdeség és a csúcsosság számszerű értékei: Az Analyze>Descriptive Statistics>Descriptives menüpont Options menüjében beállítható a ferdeség és csúcsosság kiszámítása. Ilyenkor egy táblázatot kapunk, melyben szerepel maga a mutató, és a hozzá tartozó Standard hiba. Amennyiben a mutató értéke -1 és +1 között van, az eloszlásunkat normálnak tekinthetjük a hüvelykujj szabály alapján.
Ha ezt a mutatót elosztjuk a hozzá tartozó standard hibával, még pontosabban vizsgálhatjuk meg a normalitást. Ezt az értéket akkor tekintjük normálisnak (0,05-ös szignifikanciaszint esetében), ha 1,96-nál kisebb lesz.

Analyze >Descriptive Statistics > Descriptives

Állítsuk be a számunkra legmegfelelőbb változókat

A Kolmogorov-Smirnov-teszt:

Ez a próba a mintánk eloszlását egy normál eloszláshoz hasonlítja. A Kolmogorov-Smirnov-teszt nullhipotézise szerint a változón vizsgált eloszlás normális, vagyis a mintánk eloszlása és a normális eloszlás közt nincs statisztikailag jelentős eltérés. Abban az esetben, ha szignifikáns eredményt kapunk, ezt a nullhipotézist el kell vetnünk, és a továbbiakban nemparaméteres eljárásokat kell alkalmaznunk.


A Kolmogorov-Smirnov-teszt futtatása SPSS-ben:

A normalitás és kiugró értékek vizsgálatához válasszuk ki az Analyze > Descriptive Statistics > Explore lehetőséget

A felnyíló ablakban a Dependent List dobozba tehetjük a változóinkat. Az adatok további szintezésére biztosít lehetőséget a Label Cases by sor, ahova például egy nominális változót tehetünk, amely elosztja a mintánkat (pl. nem szerint nőkre és férfiakra).

A Dependent List tartalmazza a vizsgálni kívánt változót, a Factor List felület lehetőséget ad az adatok elkülönítésére egy másik változó szerint (pl.: férfiak és nők).

A Statistics és Plots menüpontban szintén beállíthatjuk a számunkra fontos mutatókat

A lefuttatott próba eredményei között szerepel a Kolmogorov-Smirnov – Test of Normality táblázata is. Ekkor két eredményt is láthatunk: A Kolmogorov-Smirnov mellett látható a Shapiro-Wilk próba eredménye is. Azt, hogy melyik próbához tartozó értékeket kell figyelembe vennünk, a mintánk elemszáma határozza meg: legalább 30 fő esetén Kolmogorov-Smirnov-tesztet, 30 fő alatt Shapiro-Wilk-tesztet alkalmazzunk. A nullhipotézis a két próba esetén megegyezik: Ezek szerint a minta eloszlása statisztikailag nem különbözik lényegesen a normális eloszlástól. Amennyiben szignifikáns eredményt kapunk, ezt a nullhipotézist el kell vetnünk, és nemparaméteres eljárást kell alkalmaznunk. Fontos, hogy ha valamilyen megfontolásból (pl. a minta olyan nagy elemszámú, hogy csupán egy kis eltérés ellenére lett szignifikáns a próba) mégis paraméteres eljárást alkalmazunk, tüntessük fel, hogy a Kolmogorov-Smirnov-teszt szignifikáns volt!

A diagram azt mutatja, hogy melyik elemszámú adatsor illik legkevésbé a mintánkba. Fontos, hogy a körrel jelölt adatok még nem feltétlenül jelentenek problémát, azonban a csillaggal jelöltekkel kapcsolatban már érdemes megfontolni, hogy kivegyük-e őket a mérésből!

Hivatkozása: D(szabadságfok – df érték ) = Statisztika értéke, szignifikancia szintje

Példa: D(30) = 0.118, p=0,2




Tesztek megbízhatóságának meghatározása: Cronbach's Alpha (α) mutató


Általában a kérdőíves kutatásoknál szokott gondot okozni annak a meghatározása, hogy az általunk feltett kérdések összegészében valóban azt mérik-e, amit mérni akarunk. Természetesen ennek meghatározásában a számítógép abban lehet segítségünkre, hogy megvizsgálja, hogy a kérdőivet alkotó változók hasonlóan viselkednek-e. Sok esetben nyelvi sajátosságok és a megfogalmazás módja is változtathat az eredményeken. Azonban honnan tudjuk, hogy van olyan kérdés, amely nem alkalmas a mérésre, vagy mást mér, mint amire kíváncsiak vagyunk?

1, Ha már van egy olyan korábbi kérdőív, amelyet például magyarra fordítva (vagy bármilyen fordításban) használunk, akkor az új mintán kapott eredményeket összevethetjük az eredeti teszt standard eredményeivel. Például, ha az eredeti kérdőívünk 20 kérdésből áll, majd erre 4 faktort tudunk megállapítani, 5-5 kérdéssel, akkor megvizsgálhatjuk, hogy a fordításunkat követő eredmények beillenek-e ezekbe a faktorokba, vagyis ugyanazt a belső elrendezést veszi fel a teszt, mint eredetileg. Ha találunk kiugró értékeket vagy olyan változókat, amelyek az eredeti modellbe nem, vagy csak nehezen illeszthetők be, akkor újra kell gondolnunk a kérdés megfogalmazását, végső esetben teljes elhagyását.
2, Vagy lehetséges az a verzió is, hogy nem rendelkezünk előzetes ismeretekkel, azonban a kérdőívet megvizsgálva azt látjuk, hogy az alkalmazott modellünk bizonyos részei nem elégségesek vagy felesleges feltételeket tartalmaznak. Mindkét esetben használható a realiabilitás mérésére szolgáló Cronbach's Alpha mutató, amely a kérdések/változók közötti belső egységet, konzisztenciát keresi és képes jelezni azt, ha a modellünkben van olyan kérdés, ami az információtartalom alacsony szintje miatt (azaz hiányos) vagy az információtartalom túlságosan magas szintje miatt (azaz egyes itemek ugyanazt mérik) nem megfelelőek a mérésre. A Cronbach Alpha's futtatása SPSS-ben: Kattintsunk az Analyze > Scale > Reliability analysis lehetőségre (Forrás: statistics.laerd.com) A felugró ablakban válasszuk ki azokat a változóinkat, amelyek a kérdőívünk kérdéseit tartalmazza (általában ordinális skálák) (Forrás: statistics.laerd.com) Ezeket helyezzük át az "ITEMS" oszlopba Ezt követően nyissuk meg a "Statistics fület", ahol jelöljük ki az alábbi opciókat: (Forrás: statistics.laerd.com) ITEM, SCALE, SCALE IF ITEM SELECTED, CORRELATION (Forrás: statistics.laerd.com) Majd kattintsunk a Continue és végül a fő fülön az OK gombra. Forrás: psych.hanover.edu Az eredményeket értékelve: A legfontosabb mutató a Cronbach's alpha értéke, amely 0 és 1 közötti értéket vehet fel. A teszt akkor mér megbízhatóan, ha az értéke 0,70-0,85 között van. Ennél alacsonyabb érték, azt jelenti, hogy hiányos a mérőeszköz, felette pedig azt, hogy az egyes itemek feleslegesen vannak a kérdőívben, hiszen túlságosan ugyanazt mérik. Hivatkozása: A Cronbach's Alpha-t folyó szövegben, az alábbi módon hivatkozzuk pl.: "Az extraverzió alskálán mért 8 item/elem konzisztenciája (α = .66), amely érték kívül esik a Cronbach's Alpha mutató reliabilitási tartományán."




Szóráshomogenitás (Levene teszt)


Amikor különböző csoportok intervallum vagy arányskála szintű változóit akarjuk összehasonlítani, meg kell vizsgálnunk, hogy ezek a csoportok megegyeznek-e a szórásaik tekintetében is: Ez a szóráshomogenitás. Ennek ellenőrzésére a Levene-tesztet fogjuk alkalmazni. A próba az Analyze / Descriptive Statistics / Explore menüpont alatt érhető el. Az adatainkat a Dependent List pontba feltöltve, majd a Factor list pontban egy változó alapján csoportosítva rendezzük. Ez azért van így, mert a szóráshomogenitást több csoport (Factor list) között végezzük. A Plots-nál jelöljük be a Spread vs. Level with Levene test alatti Untransformed opciót. Ez azt jelenti, hogy adatainkon nem végeztünk semmilyen transzformációt (ha végeztünk, válasszuk ki az ennek megfelelő opciót). A Levene-teszt nullhipotézise szerint a vizsgált változók szórásai között nincs statisztikailag jelentős különbség. Szignifikáns eredmény esetén ezt a nullhipotézist el kell vetnünk.

Az alábbiakban látható a Levene-teszt lefuttatásával keletkező táblázat:


Nekünk az első sorát kell néznünk, mely az átlagot veszi alapul a kalkulációhoz. Amennyiben ennek szignifikanciaszintje 0,05 alatt van, el kell vetnünk a nullhipotézist, vagyis a csoportok szórásai nem egyenlőek. A teszt APA szabvány szerinti hivatkozása: F(df1, df2) = Levene Statistic értéke, p = Sig. értéke





A változó követi a normál eloszlást

A változó nem követi a normál eloszlást

Paraméteres: általában metrikus változók

Nem paraméteres:

általában ordinális változók és a normalitást nem követő metrikus változók