Nemparaméteres próbák alkalmazási köre

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosságban a nemparaméteres próbákról; alkalmazási feltételek; döntési folyamat; Wilcoxon-féle előjeles rangpróba; Mann-Whitney U-próba; Kruskal-Wallis próba; Friedman próba; futtatás: SPSS, R, Kézi számítások  

Market Analysis

Letölthető jegyzetek


StatOkos Jegyzet: Nemparaméteres próbák

StatOkos Jegyzet: Összefoglaló

Adatfájlok: SPSS

Adatfájlok: Excel 

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv
 

A hipotézisvizsgálatok általános célja, hogy a populációból szerzett minták tulajdonságai között különbséget keressenek. Ezek az összehasonlítások alapvetően azt feltételezik, hogy a minták között nincs számottevő (szignifikáns) eltérés. Ezt a feltételezést nevezzük nullhipotézisnek (H0). A különbségek keresésére leggyakrabban a hipotézisvizsgálatok közé tartozó t-próbákat használjuk akkor, ha ismertek a populáció paraméterei, vagyis tudjuk, hogy a populációból vett minta követi a normál eloszlást. Azonban egyes esetekben a normalitás feltétele nem teljesül vagy csak egyszerűen megismerhetetlen a paraméter, ami a populációt jellemzi. Ilyen esetekben és ordinális mérési szintű változók esetén a nemparaméteres próbákat alkalmazzuk. A nemparaméteres próbák általánosan azt feltételezik, hogy a minták mediánjai (!) között nem találunk eltérést. A döntési kritérium ebben az esetben úgy fogalmazható meg, hogy a minták mediánjai megegyeznek vagy sem.  Amennyiben nincs számottevő eltérés közöttük, akkor a nullhipotézist megtartjuk, vagyis a mintánk nem tér el:

  • egy előre meghatározott mediántól (Wilcoxon-féle előjeles rangpróba),

  • két független csoport a mediánja nem  tér el egymástól (Mann-Whitney-féle U-próba)

  • egy elő- és utómérés mediánja nem különbözik (Wilcoxon-féle előjeles rangpróba)

  • több független csoport mediánja nem különbözik (Kruskal-Wallis próba)

  • vagy több, összefüggő mérés mediánja nem különbözik (Friedman próba)

 

Ellenkező esetben az eltérést feltételező ún. alternatív hipotézist (Ha) választjuk. A nemparaméteres próbák tehát folytonos (függő) változók mediánjait vagy ordinális mérési szintű változók mediánjait vizsgálják. Ez abból az összefüggésből ered, hogy a diszkrét (nominális) változóknak nincs sorba rendezhető értéke, amely a mediánszámítás alapja. Lehetséges, hogy a minta normalitása nem teljesül, így az egyes értékek rangsorolása biztosabb képet nyújt a populációról. A nemparaméteres próbák általános feltétele tehát, hogy a minták nem-normál eloszlásból származó folytonos változók vagy ordinális változók legyenek. A legtöbb statisztikai programban a kalkulációra kerülő p-érték alapján hozunk döntést. Ettől függetlenül mindkét értéket figyelembe vehetjük a számításaink során, ezek általában megegyező konklúziót mutatnak.

 

Amíg a t-próbákat általánosan paraméteres próbáknak is nevezzük azért, mert az előfeltételüknek minősülő normál eloszlás számos tulajdonságát ismerhetjük előre, addig egy nem-normál eloszlásnál már nehéz megmondani ezeket a paramétereket, hiszen számos variációjuk lehetséges. Abban az esetben, ha nincs előzetes információnk a populációból vett minta normalitását illetően, nekünk kell kideríteni, hogy megismerhető-e a paraméter. Ebben az esetben az eloszlások grafikus elemzése (hisztogram, Q-Q plot ábra) az egyik legfontosabb teendő, továbbá a normalitásvizsgálatok közé tartozó Saphiro-Wilk és/vagy Kolmogorov-Smirnov féle tesztek alkalmazhatók.

Abacus

Általában a nemparaméteres próbákról

A nemparaméteres próbákat azért alkalmazzuk, mert a populáció eloszlását jellemző paraméter nem követi:

 

  • a normál eloszlást (folytonos változók esetén),

  • binomiális eloszlást (dichotóm adatsorok esetén)

  • vagy a poisson eloszlást (egy adott esemény bekövetkezésének eloszlása egy eseménytérben)

 

 

 

A folytonos adatsorok esetében a normál eloszlás meglétét a normalitásvizsgálatok segítségével végezhetjük. Erre vonatkozóan számos különböző leírást találunk. Konklúzióként azt tudjuk elmondani, hogy az adatsorok tesztelését érdemes első sorban a Saphiro-Wilk féle normalitásvizsgálattal ellenőrízni. Mivel ezt a statisztikai eljárást a szerzők n=50 elemszám mellett végezték el, eddig a határig biztos eredményt ad. A magasabb elemszámokkal is megbírkózik, megerősítésképpen elvégezhetjük a Kolmogorov-Smirnov féle normalitásvizsgálatot is. Mindkét próba nullhipotézise, hogy a minta normál eloszlású populációból származik, ellenkező esetben (szignifikáns eltérés esetén) az eloszlás nem normál, ilyenkor érdemes a nemparaméteres próbákat használni. Fontos felhívni a figyelmet arra is, hogy ha nincs lehetőségünk vagy tudásunk elvégezni a normalitásvizsgálatot, akkor az eloszlás alakját illetően meggyőződhetünk a hisztogram és a Q-Q plot ábra alapján is. 

 

 

A legtöbb nemparaméteres próba rangosoroláson alapul, amelynek segítségével megpróbálják kiküszöbölni a paraméteres eloszlásoktól való eltérést, azonban nem minden nemparaméteres próba dolgozik ezzel a metódussal. A rangsorolás alapja, hogy az adatsorokat (34, 56, 56, 71, 12) növekvő sorrendbe helyezve (12, 34, 56, 56, 71) egyesével sorszámot kapnak (1, 2, 3, 4, 5). Ezek a sorszámok az azonos számok esetén is növekvők lesznek (1, 2, 3, 4, 5), azonban a sorszámozás végeztével az azonos sorszámúak között átlagot vonunk (1, 2, 3,5, 3,5, 5). Az így kapott rangsor alkalmassá válik a későbbi összehasonlításra. Fontos kiemelni, hogy csak akkor használjunk nemparaméteres próbát, amikor biztosak vagyunk benne, hogy a paraméteres próbák feltételeinek mindegyike vagy többszörös feltétel esetén nagyobb része sérül. A nemparametrikus eljárások a parametrikus eljárásokkal szemben kevésbé robosztusak, így bizonytalanság esetén javasolt inkább a paraméteres pár megfelelő használata. 

estimations.jpeg

A legtöbb információnk a paraméterről akkor van, ha az követi a normál eloszlás alakját és attól nem tér el számottevően (bal oldali eloszlás). Azonban számos esetben tapasztalhatjuk azt, hogy ez a feltétel nem teljesül (jobb oldali eloszlás). Ekkor nem tudunk biztosat mondani a paraméterről, leginkább azért, mert az eltérő eloszlások nagyon sok "formát ölthetnek". Más esetben pedig egyszerűen nincs lehetőségünk megismerni a populációt jellemző paramétert. 

nplots.gif
Cpk_exp_distribution.png

A Q-Q plot ábra normál eloszlás esetén (bal felső sarok) követi az ábra közepén lineárian növekvő egyenest. Minél inkább eltérő a pontok halmaza, annál biztosabb, hogy az adatsor nem követi a normál eloszlást.

A hisztogramra képzeletben rávetítve a normál eloszlásra jellemző haranggörbét (Gauss-görbe) megfigyelhetjük, hogy attól milyen eltérések mutatkoznak. A hisztogram "oszlopainak" illeszkednie kell a görbéhez. Ettől eltérő formák esetén nem teljesül a normalitás. 

Star Badge
 

Wilcoxon-féle rangpróba

A Wilcoxon-féle előjeles rangpróba célja, hogy megvizsgálja a rendelkezésre álló minták (minta) különbségét. Egyszerre használatos akkor, amikor egy előre meghatározott medián értékhez szeretnénk hasonlítani a mintánkat és akkor is, amikor egy csoporton végzünk két összefüggő mérést. Ezekben az esetekben a teszt azt vizsgálja, hogy a különbségek mediánja mennyire tér el a nullától. 

A próba feltétele, hogy a minta nem-normális eloszlású populációból származzon. A függő (vizsgált) változónak folytonosnak (metrikus skála) vagy ordinális mérési szintűnek kell lennie kell lennie. Diszkrét változók esetében a próba nem alkalmazható, hiszen ott mediánt nem tudunk meghatározni. 

 

Nullhipotézis: a populációk mediánja nem tér el nullától

Alternatív hipotézis: a populációátlag eltér nullától

 

Ha a próba eredménye szignifikáns, elvetjük a nullhipotézist és az alternatív hipotézist választjuk.  

 Hivatkozása: W(df - szabadságfok) = próba értéke, Z = z értéke, p = szignifikancia 

Abacus

módszerek a wilcoxon-féle rangpróba futtatására

 

Mann-whitney u próba

Abacus

A Mann-Whitney U próba célja, hogy két független populáció mintáját hasonlítsa össze. Ezek a minták ugyanannak a függő változónak két csoporton történt mérései. Ehhez mintákat kell vennünk, két független csoportból, melyeken ugyanazt a jelenséget mérjük. A kapott változó mediánjait vetjük össze, így lehet kifejezni, hogy a két független mérés eredményei között nulla (azaz nincs) a különbség.

A próba feltétele, hogy a minták nem-normális eloszlású populációból származzanak, emiatt a függő (vizsgált) változónak vagy folytonosnak (metrikus skála) vagy ordinális skálán mértnek kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott mediánokat nem tudunk meghatározni. Bár alkalmazási módja megfelel a kétmintás (független mintás) t-próbának, nem tekinthető annak nem paraméteres verziójának. 

Nullhipotézis: a populáció mediánjai egyenlők

Alternatív hipotézis: a populáció mediánjai eltérők

Ha a próba eredménye bármelyik kritérium szerint szignifikáns, elvetjük a nullhipotézist.  

 Hivatkozása: U(df - szabadságfok) = próba értéke, Z = z értéke, p = szignifikancia 

módszerek a mann-whitney u próba futtatására

 

A Kruskal-Wallis próba célja, hogy három vagy több független populáció mintáját hasonlítsa össze. Ezek a minták ugyanannak a függő változónak több csoporton történt mérései. Ehhez mintákat kell vennünk, több független csoportból, melyeken ugyanazt a jelenséget mérjük. A kapott változó mediánjait vetjük össze, így lehet kifejezni, hogy a független mérések eredményei között nulla (azaz nincs) a különbség.

A próba feltétele, hogy a minták nem-normális eloszlású populációból származzanak, emiatt a függő (vizsgált) változónak vagy folytonosnak (metrikus skála) vagy ordinális skálán mértnek kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott mediánokat nem tudunk meghatározni. Bár alkalmazási módja megfelel a kétmintás (független mintás) t-próbának, nem tekinthető annak nem paraméteres verziójának. 

Nullhipotézis: a populáció mediánjai egyenlők

Alternatív hipotézis: a populáció mediánjai eltérők

Ha a próba eredménye bármelyik kritérium szerint szignifikáns, elvetjük a nullhipotézist.  

 Hivatkozása: U(df - szabadságfok) = próba értéke, Z = z értéke, p = szignifikancia 

KRUSKAL-WALLIS PRÓBA

Abacus

módszerek a kruskal-wallis próba futtatására

 

Friedman próba

A Friedman próba célja, hogy ugyanannak a populációnak három vagy több összetartozó mintáját hasonlítsa össze. Ezek az összetartozó minták általában ugyanazon az egyedeken mért többszöri vizsgálatok, vagy valamilyen módon összepárosítható adatok. Ehhez mintákat kell vennünk a populációból (háromnál többet időben egymást követőe) és az ott kapott értékek különbségének nullához kell közelítenie vagy pont nullának kell lennie. Így lehet kifejezni, hogy a páros mérés eredményei között nulla (azaz nincs) a különbség.

A próba feltétele, hogy a különbséget adó minta normális eloszlású populációból származzon, emiatt a függő (vizsgált) változónak folytonosnak (metrikus skála) kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott átlagértéket nem tudunk meghatározni. A gyakorlatban kivételt képeznek a Likert-skálák, amelyeket ordinális jellegük ellenére, metrikusnak tekintünk az elemzések során. 

Nullhipotézis: a populáció átlagainak a különbsége nulla

Alternatív hipotézis: a populáció átlagainak különbsége eltér nullától

Ha a próba eredménye bármelyik kritérium (t-érték, p-érték, konfidencia intervallum) szerint szignifikáns, elvetjük a nullhipotézist.  

 Hivatkozása: t(df: szabadságfok (n-1)) = t értéke, p = szignifikancia 

Abacus

módszerek a FRIEDMAN próba futtatására