T-próbák alkalmazási köre

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosságban a t-próbákról; alkalmazási feltételek; döntési folyamat; egymintás t-próba; páros t-próba; kétmintás t-próba; hivatkozás APA formátumban; futtatás: SPSS, R, Kézi számítások  

Market Analysis

Letölthető jegyzetek


StatOkos Jegyzet: t-próbák

StatOkos Jegyzet: Összefoglaló

Adatfájlok: SPSS

Adatfájlok: Excel 

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv
 

A hipotézisvizsgálatok általános célja, hogy a populációból szerzett minták tulajdonságai között különbséget keressenek. Ezek az összehasonlítások alapvetően azt feltételezik, hogy a minták között nincs számottevő (szignifikáns) eltérés. Ezt a feltételezést nevezzük nullhipotézisnek (H0). A különbségek keresésére leggyakrabban a hipotézisvizsgálatok közé tartozó t-próbákat használjuk. A t-próbák általánosan azt feltételezik, hogy a minták átlagai (!) között nem találunk eltérést és a nevét jelző próbastatisztika értéke, azaz a "t-érték", követi a Student-féle t-eloszlást, annak egy megadott intervallumában van. A döntési kritérium ebben az esetben úgy fogalmazható meg, hogy a t-eloszlás egy előre meghatározott intervallumába a saját eredményünk beletartozik-e vagy sem.  Amennyiben ebben az intervallumban megtaláljuk a saját értékünket, akkor a nullhipotézist megtartjuk, vagyis a mintánk nem tér el:

  • egy előre meghatározott értéktől (egymintás t-próba),

  • egymástól (kétmintás t-próba)

  • vagy egy elő- és utómérés átlaga nem különbözik (páros t-próba)

 

Ellenkező esetben az eltérést feltételező ún. alternatív hipotézist (Ha) választjuk. A t-próbák (mivel követik a Student-féle t-eloszlást) folytonos (függő) változók átlagait vizsgálják. Ez abból az összefüggésből ered, hogy a diszkrét változóknak nem lehet haranggörbe alakú eloszlásuk és átlaguk. A t-próbák általános feltétele tehát, hogy a minták normál eloszlásból származó folytonos változók legyenek. A legtöbb statisztikai program esetében nem a t-érték, hanem a vele párhuzamosan kalkulációra kerülő p-érték alapján hozunk döntést. Ettől függetlenül mindkét értéket figyelembe vehetjük a számításaink során, ezek általában megegyező konklúziót mutatnak.

 

A t-próbákat általánosan paraméteres próbáknak is nevezzük azért, mert az előfeltételüknek minősülő normál eloszlás számos tulajdonságát ismerhetjük előre, azonban egy nem-normál eloszlásnál már nehéz megmondani ezeket a paramétereket, hiszen számos variációjuk lehetséges. Fontos tudni, hogy a t-próbák igencsak robosztusak (erősen megbízhatóak), így ha a feltételek közül az egyik sérül, még lehet őket használni biztonsággal. Több feltétel sérülése esetén vagy ordinális adatsoroknál, a nemparaméteres próbákat alkalmazzuk. 

Abacus

Általában a t-próbákról

A hipotézisvizsgálatok kézi számításakor általában "t-értéket" határozunk meg, míg a számítógépes programok általában megadják a p értéket is. Mindkét érték meghatározása egy α (alfa) szintű hibahatárhoz képest történik. Ez az érték a legtöbb kutatásban 0.05-ös alfa érték, de találhatunk szigorúbb feltételű, 0.01-es alfa értékkel számoló kutatásokat is. A p-érték szignifikanciáját tehát ehhez mérten igazítjuk. Amennyiben ennél az alfa értéknél kisebb a mi p-értékünk, akkor elvetjük az egyezést feltételező nullhipotézist és elfogadjuk a különbséget feltételező alternatív hipotézist.

[p<0.05/0.01] vagy [|t|> a meghatározott alfa és szabadságfok melletti t-érték] = a próba eredménye szignifikáns különbséget jelez (Elvetjük a nullhipotézist (H0) és az alternatív hipotézist (Ha) használjuk)


[p>=0.05/0.01] vagy [|t| < a meghatározott alfa és szabadságfok melletti t-érték] = a próba eredménye nem jelez szignifikáns eltérést (Megtartjuk a nullhipotézist (H0))

 

 

A t-próbák t értékének a vizsgálata azonban ettől némileg eltérő, annak ellenére, hogy a p-érték alapján döntünk általában. A t-érték azt határozza meg, hogy a próbastatisztikánk számítása során kapott eredmény beletartozik-e a Student-féle t-eloszlás előre meghatározott intervallumába (általában szintén 0.05-ös alfa szinten jelzett érték intervallumába, a, kép). Ha igen, akkor megtartjuk az egyezést feltételező nullhipotézist, ha nem, akkor elvetjük azt. Ne zavarjon meg senkit, hogy a t-próbák előfeltétele a normál eloszlás és a döntést pedig a t-érték Student-féle eloszlásához viszonyítjuk! Az egyik (normál eloszlás) előfeltétel, míg a másik (Student-féle t-eloszlás) egy döntési kritériumhoz kapcsolódik (b, kép)! A t-érték és a p-érték eredményei azonos konklúziót mutatnak!

tpdftb.gif

a, A Student-féle t-eloszlás által meghatározott t érték intevallumán belül megtartjuk a nullhipotézist. Mivel a t lehet mínusz és pozitív érték is, így a t abszolút értékénél kisebb számokat soroljuk ebbe az intervallumba.

Hasonlóképpen dönthetünk konfidenciaintervallum alapján is, ahol általánosan 95%-os konfidenciaintervallumot (CI) használunk. Itt szintén azt keressük, hogy az általunk kapott átlag vajon 95%-os bizonyossággal bele esik-e ebbe az intervallumba. Mindegyik esetben a mintánk átlagát vizsgáljuk (X¯), és következtetünk belőle a populáció (vélhetően) valós átlagára (μ). Miért használunk 0.05-ös értéket (t és p esetén) és 95%-os konfidenciaintervallumot? Azért, mert ezt az elméleti (valójában 5%-os) értéket határozzuk meg arra vonatkozóan, hogy a véletlen szignifikáns különbséget okozott volna a mi esetünkben. Vagyis 95%-ban biztosak lehetünk abban, hogy nem a véletlen által kaptunk az eredményünket.

 

Arra is figyelnünk kell, hogy az elfogadási tartományt egyoldalas vagy két oldalas tesztek esetében különbözőképpen értelmezzük. Ugyanis amíg az egyoldalas próbák alfa értékét valamelyik oldal (pozitív vagy negatív eltérés) egyik végének teljes szakaszára értelmezzük (c, kép) , addig a kétoldalas próbák alfa értéke a két végponton, mind a negatív és pozitív tartományban összesen adja ki az alfa értékét (d, kép)!  

Legyünk tisztában azzal is, hogy egy mérésből vagy egy mintavételből nem tudunk teljes bizonyossággal bármit is állítani a teljes populációnkról, így azt a kellő odafigyeléssel és kritikai szemlélettel kezeljük!

example2-1.gif

b, t-próba próbastatisztikájának értékei. Először meg kell határoznunk a próbának megfelelő szabadságfokot (df - amit az elemszámból számítunk), valamint a megfelelő szignifikancia értéket. A kettő mátrixa megmutatja, hogy a megfelelő elemszám és szignifikancia szint mellett, milyen t-érték (pozitív és negatív) intervallumban fogadhatjuk el a saját eredményünket.

Standard Normal Distribution upper tail.

elfogadási tartomány

c, egyoldalas próba elfogadási tartománya

Standard Normal Distribution both tails.

elfogadási tartomány

d, kétoldalas próba elfogadási tartománya

Star Badge
 

Az egymintás t-próba célja, hogy a populáció átlagát hasonlítsa egy előre megadott értékhez viszonyítva. Ehhez mintát kell vennünk a populációból és az ott kapott értéket kell összehasonlítani egy standard, korábban már meghatározott átlagértékkel. Ez lehet például egy meglévő teszt korábban mért átlagértékének és a saját mérésünk átlagának az összehasonlítása.

A próba feltétele, hogy a minta normális eloszlású populációból származzon, emiatt a függő (vizsgált) változónak folytonosnak (metrikus skála) kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott átlagértéket nem tudunk meghatározni. A gyakorlatban kivételt képeznek a Likert-skálák, amelyeket ordinális jellegük ellenére, metrikusnak tekintünk az elemzések során. 

 

Nullhipotézis: a populációátlag nem tér el az adott értéktől (konstans), azzal megegyezik

Alternatív hipotézis: a populációátlag eltér az adott értéktől (konstans)

 

Ha a próba eredménye bármelyik kritérium (t-érték, p-érték, konfidencia intervallum) szerint szignifikáns, elvetjük a nullhipotézist.  

 Hivatkozása: t(df: szabadságfok (n-1)) = t értéke, p = szignifikancia 

Abacus

Egymintás t-próba

Az egymintás t-próba kétoldalas, paraméteres próba. Mivel az egymintás t-próba kézi számítása is átlagokkal és szórásokkal dolgozik, nem használhatjuk nem-folytonos, tehát nominális és ordinális változók esetében. Annak a megállapítására, hogy az általunk kapott átlag beletartozik-e az elfogadási tartományba, három különböző mód lehetséges:

  • konfidencia intervallum alapján

  • t-érték alapján

  • p-érték alapján

Ezek egyenértékűek, a különbségek megállapítására egyformán alkalmasak. Ha konfidencia intervallum alapján akarunk dönteni, akkor meg kell határozni a mintánk alapján azt az elfogadási tartományt, amelyben még elfogadjuk a konstans (c), vagyis a már meglévő, standard adatunk értékét. A t-érték próba statisztikájával hasonlóképpen egy elfogadási intervallumot adunk meg, majd a képlettel meghatározott értéket megvizsgálva eldöntjük, hogy az adott intervallumba beletartozik-e az érték vagy sem. A p-érték alapján történő döntés pedig megmutatja, hogy mekkora a valószínűsége annak, hogy a kapott eltérést a véletlen okozza. Egy 0.05-ös p-érték esetében ez pontosan 5%-ot jelent. A kézi számítások leírásában bővebben foglalkozunk ennek meghatározásával.

Star Badge
one-sample-normal.gif

Az egymintás t-próba során azt próbáljuk meghatározni, hogy a populáció átlagot jelentő érték (μ) mennyire tér el a konstans értéktől (c). A populációátlagra a mintánkból következtethetünk, a konstans pedig egy, már előre meghatározott érték, eredmény. Számos esetben használható, kutatási célokra leginkább a saját eredményeink, egy "gold standardhoz" való viszonyítása a leggyakoribb alkalmazási mód.

Hipotézisek:

H0: c=μ (azaz nincs eltérés a konstans és az átlag között)

Ha: c≠μ (azaz van eltérés a konstans és az átlag között)

Egymintás t-próba (Kézi számolás)


Az egymintás t-próba kézi számolásakor a konfidencia intervallumot és a t-érték alapján történő döntést határozzuk meg. A p-értéket szoftver segítségével számoljuk.

A konfidencia intervallum alapján történő döntés elvi alapja az, hogy meghatározzuk a populációátlag segítségével mind negatív és pozitív irányban azt a határt, ameddig elfogadjuk a vizsgált konstans értékét. Amennyiben a vizsgált konstans nincs ebben az intervallumban, akkor a számításunk eredménye szignifikáns eltérést jelez, a nullhipotézist pedig elvetjük. Vagyis az eredmény szignifikánsan eltér, emiatt az alternatív hipotézist kell választanunk.

Számításhoz szükséges információk:

Alfa érték: ezzel határozzuk meg, hogy milyen hibahatár mellett vizsgálódunk, ez az érték egy 0.05-ös alfa érték, amely segítségünkre van a választásban a t-érték táblázata alapján

Df: szabadságfok, amely szintén a t-érték táblázatában játszik jelentős szerepet. Az egymintás t-próba esetében ez az (n-1)-es érték, vagyis a (teljes elemszám-1)

t-érték: az alfa és a df alapján meghatározott számszerű adat, amelyet a táblázatban találunk

mintaátlag: a mintánk folytonos változóinak átlaga

SD: szórás, az értékek a mintaátlag körüli szóródása

SE: standard hiba, a többszöri mintavétel során kapott átlagok szóródása, amely tartalmazza a populáció valós átlagát. Számítása: szórás/a minta elemszámának a gyöke

c: konstans, amely standard átlagot hasonlítjuk a saját mintánkhoz

CI, konfidencia intervallum képlete:

CI= mintaátlag-(t-érték*SE); mintaátlag+(t-érték*SE)

Táblázat:

Példa:

n: 20 fő

Alfa=0.05

Df=19

t-érték=3,17

mintaátlag= 19,5

SD= 3,75

SE= 0,83

c= 17,2

Konfidencia intervallum alapján történő döntés

CI=19,75-(3,17*0,83); 19,75+(3,17*0,83)=19,75-2,66; 19,75+2,66= [17,09;22,4]

Vagyis a konstans elfogadási tartománya 17,09 és 22,4 közé esik. Ennek értelmében a 17,2-es érték beletartozik az elfogadási tartományba, a nullhipotézist megtartjuk, vagyis 95%-os konfidenciaintervallummal a minta értéke nem szignifikáns 5%-os szinten.

T-érték meghatározása

A korábban bemutatott adatok szintén szükségesek, illetve a t-értéket egy külön képlettel tudjuk meghatározni. Esetünkben ez:

Vagyis a számlálóban, kivonjuk a mintaátlagból a konstans értékét és ezt elosztjuk a standard hibával.

Maradva az előző példánál, a t-értéke=(19,75-17,2)/0,83=2,55/0,83=3,07

A korábban már megkapott t-érték 3,17 volt. Ebben az esetben, ha a számítás során kapott t-érték negatív vagy pozitív nem jelent problémát, ugyanis az abszolút érték alapján döntünk.

  • Amennyiben t abszolút értéke (számolás alapján) kisebb, mint a táblázat t-értéke, akkor a student-féle t eloszlásba beletartozik a konstansunk, a nullhipotézist megtartjuk, a konstans nem tér el szignifikánsan a mintánktól.

  • Amennyiben t abszolút értéke (számolás alapján) nagyobb, mint a táblázat t-rtéke akkor a student-féle t eloszlásba nem tartozik bele a konstansunk, a nullhipotézist elvetjük, megtartjuk az alternatív hipotézist, a konstans szignifikánsan eltért minta átlagától. Erre vonatkozóan

azt kell tehát megfigyelnünk, hogy az átlagtól egyenlő távolságra, a táblázat szerint megadott t-érték pozitív és negatív intervallumán belül vagy azon túl van a t-értékünk a t-eloszlás szerint. A mi esetünkben ez a két határvonal -3,17 és 3,17 közé esik (fehér terület), azon túl elvetjük a nullhipotézist (fekete terület):




Egymintás t-próba (SPSS)


Az egymintás t-próba SPSS-ben az ANALYZE>COMPARE MEANS>ONE SAMPLE T TEST fül alatt található: A felugró ablak bal oldaláról húzzuk át a TEST VARIABLE részre azt a változót (változókat), amelyek a saját mintánkat adják és össze szeretnénk hasonlítani a konstans értékével Majd a TEST VALUE rubrikájába írjuk be az általunk ismert átlagértéket, a konstanst. Majd futtassuk a próbát az OK gomb lenyomásával. A kapott táblázataink közül az első mutatja a leíró statisztikát, ahol megtalálható az elemszám (N), az átlag (MEAN), a szórás (STD.DEVIATON) és a standard hiba (STD. ERROR MEAN). Az alatta lévő táblázatban látjuk a megfelelő szabadságfok (df) és alfa (alapbeállítás 0.05) által meghatározott t-értéket (t), az említett szabadságfokot (df), a p-értéket (Sig. 2 tailed), az átlagtól való eltérést (MEAN DIFFERENCE) és a 95%-os konfidencia intervallumot az adatsorok közül a legkisebb (LOWER) és a legnagyobb (UPPER) eltérésre a MEAN DIFFERENCE-hez képest. Az adatok értelmezése a p-érték alapján történik. Amennyiben kisebb, mint 0.05, a különbség szignifikáns, a konstans nem származhat a populációt reprezentáló mintából, a nullhipotézist elvetjük. Ellenkező esetben a populációt reprezentáló minta átlaga lehet a konstans, vagyis a nullhipotézist megtartjuk.




Egymintás t-próba (R)






módszerek az egymintás t-próba futtatására

 

A páros mintás t-próba célja, hogy ugyanannak a populációnak két összetartozó mintáját hasonlítsa össze. Ezek az összetartozó minták általában ugyanazon az egyedeken mért elő és- utóvizsgálat, vagy valamilyen módon összepárosítható adatok lesznek. Ehhez mintákat kell vennünk a populációból (két darabot) és az ott kapott értékek különbségének nullához kell közelítenie vagy pont nullának kell lennie. Így lehet kifejezni, hogy a páros mérés eredményei között nulla (azaz nincs) a különbség.

A próba feltétele, hogy a különbséget adó minta normális eloszlású populációból származzon, emiatt a függő (vizsgált) változónak folytonosnak (metrikus skála) kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott átlagértéket nem tudunk meghatározni. A gyakorlatban kivételt képeznek a Likert-skálák, amelyeket ordinális jellegük ellenére, metrikusnak tekintünk az elemzések során. 

Nullhipotézis: a populáció átlagainak a különbsége nulla

Alternatív hipotézis: a populáció átlagainak különbsége eltér nullától

Ha a próba eredménye bármelyik kritérium (t-érték, p-érték, konfidencia intervallum) szerint szignifikáns, elvetjük a nullhipotézist.  

 Hivatkozása: t(df: szabadságfok (n-1)) = t értéke, p = szignifikancia 

páros mintás t-próba

Abacus

Az páros mintás t-próba kétoldalas, paraméteres próba. Mivel a páros mintás t-próba kézi számítása is átlagokkal és szórásokkal dolgozik, nem használhatjuk nem-folytonos, tehát nominális és ordinális változók esetében. Annak a megállapítására, hogy az általunk kapott átlag beletartozik-e az elfogadási tartományba, három különböző mód lehetséges:

  • konfidencia intervallum alapján

  • t-érték alapján

  • p-érték alapján

Ezek egyenértékűek, a különbségek megállapítására egyformán alkalmasak. Ha konfidencia intervallum alapján akarunk dönteni, akkor meg kell határozni a minták átlagainak különbsége alapján azt az elfogadási tartományt, amelybe még beletartozhat a nulla (0), vagyis az átlagok különbsége még nem tér el számottevően attól. A t-érték próba statisztikájával hasonlóképpen egy elfogadási intervallumot adunk meg, majd a képlettel meghatározott értéket megvizsgálva eldöntjük, hogy az adott intervallumba beletartozik-e a saját értékünk vagy sem. A p-érték alapján történő döntés pedig megmutatja, hogy mekkora a valószínűsége annak, hogy a kapott eltérést a véletlen okozza. Egy 0.05-ös p-érték esetében ez pontosan 5%-ot jelent. A kézi számítások leírásában bővebben foglalkozunk ennek meghatározásával.

Star Badge

módszerek a páros mintás t-próba futtatására

Egymintás t-próba (Kézi számolás)


Az egymintás t-próba kézi számolásakor a konfidencia intervallumot és a t-érték alapján történő döntést határozzuk meg. A p-értéket szoftver segítségével számoljuk.

A konfidencia intervallum alapján történő döntés elvi alapja az, hogy meghatározzuk a populációátlag segítségével mind negatív és pozitív irányban azt a határt, ameddig elfogadjuk a vizsgált konstans értékét. Amennyiben a vizsgált konstans nincs ebben az intervallumban, akkor a számításunk eredménye szignifikáns eltérést jelez, a nullhipotézist pedig elvetjük. Vagyis az eredmény szignifikánsan eltér, emiatt az alternatív hipotézist kell választanunk.

Számításhoz szükséges információk:

Alfa érték: ezzel határozzuk meg, hogy milyen hibahatár mellett vizsgálódunk, ez az érték egy 0.05-ös alfa érték, amely segítségünkre van a választásban a t-érték táblázata alapján

Df: szabadságfok, amely szintén a t-érték táblázatában játszik jelentős szerepet. Az egymintás t-próba esetében ez az (n-1)-es érték, vagyis a (teljes elemszám-1)

t-érték: az alfa és a df alapján meghatározott számszerű adat, amelyet a táblázatban találunk

mintaátlag: a mintánk folytonos változóinak átlaga

SD: szórás, az értékek a mintaátlag körüli szóródása

SE: standard hiba, a többszöri mintavétel során kapott átlagok szóródása, amely tartalmazza a populáció valós átlagát. Számítása: szórás/a minta elemszámának a gyöke

c: konstans, amely standard átlagot hasonlítjuk a saját mintánkhoz

CI, konfidencia intervallum képlete:

CI= mintaátlag-(t-érték*SE); mintaátlag+(t-érték*SE)

Táblázat:

Példa:

n: 20 fő

Alfa=0.05

Df=19

t-érték=3,17

mintaátlag= 19,5

SD= 3,75

SE= 0,83

c= 17,2

Konfidencia intervallum alapján történő döntés

CI=19,75-(3,17*0,83); 19,75+(3,17*0,83)=19,75-2,66; 19,75+2,66= [17,09;22,4]

Vagyis a konstans elfogadási tartománya 17,09 és 22,4 közé esik. Ennek értelmében a 17,2-es érték beletartozik az elfogadási tartományba, a nullhipotézist megtartjuk, vagyis 95%-os konfidenciaintervallummal a minta értéke nem szignifikáns 5%-os szinten.

T-érték meghatározása

A korábban bemutatott adatok szintén szükségesek, illetve a t-értéket egy külön képlettel tudjuk meghatározni. Esetünkben ez:

Vagyis a számlálóban, kivonjuk a mintaátlagból a konstans értékét és ezt elosztjuk a standard hibával.

Maradva az előző példánál, a t-értéke=(19,75-17,2)/0,83=2,55/0,83=3,07

A korábban már megkapott t-érték 3,17 volt. Ebben az esetben, ha a számítás során kapott t-érték negatív vagy pozitív nem jelent problémát, ugyanis az abszolút érték alapján döntünk.

  • Amennyiben t abszolút értéke (számolás alapján) kisebb, mint a táblázat t-értéke, akkor a student-féle t eloszlásba beletartozik a konstansunk, a nullhipotézist megtartjuk, a konstans nem tér el szignifikánsan a mintánktól.

  • Amennyiben t abszolút értéke (számolás alapján) nagyobb, mint a táblázat t-rtéke akkor a student-féle t eloszlásba nem tartozik bele a konstansunk, a nullhipotézist elvetjük, megtartjuk az alternatív hipotézist, a konstans szignifikánsan eltért minta átlagától. Erre vonatkozóan

azt kell tehát megfigyelnünk, hogy az átlagtól egyenlő távolságra, a táblázat szerint megadott t-érték pozitív és negatív intervallumán belül vagy azon túl van a t-értékünk a t-eloszlás szerint. A mi esetünkben ez a két határvonal -3,17 és 3,17 közé esik (fehér terület), azon túl elvetjük a nullhipotézist (fekete terület):




Egymintás t-próba (SPSS)


Az egymintás t-próba SPSS-ben az ANALYZE>COMPARE MEANS>ONE SAMPLE T TEST fül alatt található: A felugró ablak bal oldaláról húzzuk át a TEST VARIABLE részre azt a változót (változókat), amelyek a saját mintánkat adják és össze szeretnénk hasonlítani a konstans értékével Majd a TEST VALUE rubrikájába írjuk be az általunk ismert átlagértéket, a konstanst. Majd futtassuk a próbát az OK gomb lenyomásával. A kapott táblázataink közül az első mutatja a leíró statisztikát, ahol megtalálható az elemszám (N), az átlag (MEAN), a szórás (STD.DEVIATON) és a standard hiba (STD. ERROR MEAN). Az alatta lévő táblázatban látjuk a megfelelő szabadságfok (df) és alfa (alapbeállítás 0.05) által meghatározott t-értéket (t), az említett szabadságfokot (df), a p-értéket (Sig. 2 tailed), az átlagtól való eltérést (MEAN DIFFERENCE) és a 95%-os konfidencia intervallumot az adatsorok közül a legkisebb (LOWER) és a legnagyobb (UPPER) eltérésre a MEAN DIFFERENCE-hez képest. Az adatok értelmezése a p-érték alapján történik. Amennyiben kisebb, mint 0.05, a különbség szignifikáns, a konstans nem származhat a populációt reprezentáló mintából, a nullhipotézist elvetjük. Ellenkező esetben a populációt reprezentáló minta átlaga lehet a konstans, vagyis a nullhipotézist megtartjuk.




Egymintás t-próba (R)






 

A kétmintás (vagy független mintás) t-próba célja, hogy két független populáció mintáját hasonlítsa össze. Ezek a minták ugyanannak a függő változónak két csoporton történt mérései. Ehhez mintákat kell vennünk, két független csoportból, melyeken ugyanazt a jelenséget mérjük. A kapott változó átlagait vetjük össze, így lehet kifejezni, hogy a két független mérés eredményei között nulla (azaz nincs) a különbség.

A próba feltétele, hogy a minták normális eloszlású populációból származzanak, emiatt a függő (vizsgált) változónak folytonosnak (metrikus skála) kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott átlagértéket nem tudunk meghatározni. A gyakorlatban kivételt képeznek a Likert-skálák, amelyeket ordinális jellegük ellenére, metrikusnak tekintünk az elemzések során. További feltétel, hogy a minták varianciája megegyezzen! Ennek összehasonlítását F-próbával végezzük. Amennyiben a varianciák megegyeznek és minták normális eloszlást mutatnak, a kétmintás t-próba klasszikus formáját használjuk. Eltérő varianciák esetében vagy ha nincs ismeretünk a varianciákról, akkor az ún. Welch-féle kétmintás t-próbát kell alkalmazni.

Nullhipotézis: a populáció átlagai egyenlők (μ1=μ2)

Alternatív hipotézis: a populáció átlagai eltérők (μ1/=μ2)

Ha a próba eredménye bármelyik kritérium (t-érték, p-érték, konfidencia intervallum) szerint szignifikáns, elvetjük a nullhipotézist.  

 Hivatkozása: t(df: szabadságfok (n-1)) = t értéke, p = szignifikancia 

Kétmintás t-próba

Abacus

A kétmintás t-próba kétoldalas, paraméteres próba. Mivel a kétmintás t-próba kézi számítása is átlagokkal és szórásokkal dolgozik, nem használhatjuk nem folytonos, tehát nominális és ordinális változók esetében. Annak a megállapítására, hogy az általunk kapott átlag beletartozik-e az elfogadási tartományba, három különböző mód lehetséges:

  • konfidencia intervallum alapján

  • t-érték alapján

  • p-érték alapján

Ezek egyenértékűek, a különbségek megállapítására egyformán alkalmasak. Ha konfidencia intervallum alapján akarunk dönteni, akkor meg kell határozni a minták átlagai alapján azt az elfogadási tartományt, amelybe még beletartozhat mindkét átlag. A t-érték próba statisztikájával hasonlóképpen egy elfogadási intervallumot adunk meg, majd a képlettel meghatározott értéket megvizsgálva eldöntjük, hogy az adott intervallumba beletartozik-e a saját értékünk vagy sem. A p-érték alapján történő döntés pedig megmutatja, hogy mekkora a valószínűsége annak, hogy a kapott eltérést a véletlen okozza. Egy 0.05-ös p-érték esetében ez pontosan 5%-ot jelent. A kézi számítások leírásában bővebben foglalkozunk ennek meghatározásával.

A kétmintás t-próba esetében fontos kérdés a varianciák egyezősége vagy különbözősége. Azért fontos tudnunk, hogy a varianciák milyenek a két mintában, mert a középértéktől való eltérés (jelen esetben az átlagtól való eltérés) másképp is alakulhat annak ellenére, hogy az átlagok megegyeznek (a, kép)! 

Star Badge
random35.gif

a, Figyeljük meg, hogy mi történne akkor, ha a kétmintás t-próbával csak az átlagok egyezőségéről döntenénk! Azt mondanánk, hogy a két minta megegyezik, holott a szórásokból meghatározott variancia rámutat a minták különbözőségére. 

A varianciák egyezésének megállapítása az F-próba segítségével történik, amelyet bemutatunk a kézi számítás részben. Ha az F-próba segítségével azt állapítjuk meg, hogy a varianciák egyeznek, akkor a klasszikus kétmintás t-próbát alkalmazzuk, amelynek szabadságfogka gyorsan meghatározható a két csoport elemszámainak összegéből és abból kivonva kettőt (n+m-2 képlettel). Amennyiben eltérő varianciákat tapasztalunk az F-próba alapján a Welch-féle módszert kell alkalmaznunk, amely a varianciák ismeretének vagy eltérésének hiányában is megbízható becslést ad a mintán keresztül a populációra. A Welch-féle t-próba szabdságfoka egy képlettel határozható meg, amelyet szintén bemutatunk a kéziszámolással foglalkozó részben. A statisztikai programok is elkülönítik a két számítási módot. Abban az esetben, ha a normalitás sem teljesül, használjuk a Mann-Whitney féle nemparaméteres próbát!

módszerek a kétmintás t-próba futtatására

Kétmintás t-próba és Welch-próba (Kézi számolás)


A kétmintás t-próba és Welch-próba kézi számolásakor a t-érték alapján történő döntést határozzuk meg. A p-értéket szoftver segítségével számoljuk.

Számításhoz szükséges információk:

Alfa érték: ezzel határozzuk meg, hogy milyen hibahatár mellett vizsgálódunk, ez az érték egy 0.05-ös alfa érték, amely segítségünkre van a választásban a t-érték táblázata alapján

Df: szabadságfok, amely szintén a t-érték táblázatában és az F-próba esetében játszik jelentős szerepet (az F-próba segítségével a varianciák azonosságáról döntünk). A t-érték meghatározásakor klasszikus kétmintás t-próba esetében ez a (n+m-2)-es érték, vagyis a (két csoport teljes elemszáma-1), a Welch-féle kétmintás t-próba esetén képlettel határozható meg.

t-érték: az alfa és a df alapján meghatározott számszerű adat, amelyet a táblázatban találunk

mintaátlag1,2: a mintánk folytonos változóinak átlaga

SD1,2: szórás, az értékek a mintaátlag körüli szóródása

SE1,2: standard hiba, a többszöri mintavétel során kapott átlagok szóródása, amely tartalmazza a populáció valós átlagát. Számítása: szórás/a minta elemszámának a gyöke

Táblázat:

Példa:

x: 20 fő

y: 19 fő

Alfa=0.05

Df=38

t-érték=2.02

mintaátlagx= 19,5

mintaátlagy= 23,4

SDx= 5 az n csoport szórása

SDy= 4,5 az m csoport szórása

SEx=1.11

SEy=1.03

Varianciák azonosságának meghatározása

Ahol a számlálóba kerül a nagyobb szórás varianciája (szórásnégyzet), a nevezőbe pedig a kisebb szórás négyzete (varianciája). Az itt kapott értéket az F táblázatból keressük meg, ahol szabadságfok (df) a számlálóban szereplő (szóráshoz tartozó elemszám-1), illetve a nevezőben szereplő (szóráshoz tartozó elemszám-1). F táblázat itt található.

Amennyiben az általunk kapott F érték nagyobb, mint a táblázatban szereplő F érték, akkor a különbség szignifikáns, vagyis a varianciák eltérőek!

T-érték meghatározása egyező varianciák esetére: Klasszikus kétmintás t-próba

A korábban bemutatott adatok szintén szükségesek, illetve a t-értéket egy külön képlettel tudjuk meghatározni. Esetünkben számlálóban a minták különbségének átlaga, nevezőben a standard hiba a mintaátlagok különbségére:

Ahol SDp:

a kapott T érték abszolút értéke ha kisebb, mint a táblázatban szereplő t érték, akkor a próba nem szignifikáns, megtartjuk a nullhipotézist. Ellenkező esetben az alternatív hipotézist választjuk.

T-érték meghatározása egyező varianciák esetére: Welch-féle kétmintás t-próba

Ahol a t-értékhez szükséges szabadságfok:

a kapott t-érték abszolút értéke ha kisebb, mint a táblázatban szereplő t-érték, akkor a próba nem szignifikáns, megtartjuk a nullhipotézist. Ellenkező esetben az alternatív hipotézist választjuk.




Kétmintás t-próba és Welch-próba (SPSS)


A kétmintás t-próba SPSS-ben az ANALYZE>COMPARE MEANS>PAIRED-SAMPLES T TEST fül alatt található: A felugró ablak bal oldaláról húzzuk át a TEST VARIABLE(S) részre azokat a változó(kat), amelyek a saját mintánkat adják és össze szeretnénk hasonlítani. A GROUPING VARIABLE részhez kerüljön az a változó, amellyel kialakítjuk a két darab csoportunkat. A DEFINE GROUPS gomb segítségével meg kell adnunk a csoport kódolási értékét. Majd futtassuk a próbát az OK gomb lenyomásával. A kapott táblázataink közül az első mutatja a leíró statisztikát, ahol megtalálható az elemszám (N), az átlag (MEAN), a szórás (STD.DEVIATON) és a standard hiba (STD. ERROR MEAN). Az Independents Samples Test táblázatben először vizsgáljuk meg a Levene's Test for Equality of Variances táblázatot. Az első sor azt mutatja, hogy a varianciák megegyeznek, a második sor azt, hogy a varianciák eltérnek. Az eltérő varianciák esetében az első sor [Sig. értéke] szignifikánsnak fog mutatkozni, innen tudjuk, hogy a varianciák eltérnek. Ha sikerült megállapítani, hogy a varianciák eltérők, vagy megegyeznek, akkor a megfelelő soron végighaladva tekintsük meg a szabadságfokot és a szignifikancia értékét. Azonos varianciák esetén: Kétmintás t-próba (felső sor)
Eltérő varianciák esetén: Welch-féle kétmintás t-próba (alsó sor)
Amelyek eredményét értelmezzük a táblázaton belül. Az adatok értelmezése a p-érték alapján történik. Amennyiben kisebb, mint 0.05, a különbség szignifikáns, vagyis a populáció átlagok nem egyeznek meg, a nullhipotézist elvetjük. Ellenkező esetben a populációt reprezentáló minta átlagai származhatnak azonos populációból, a nullhipotézist megtartjuk.




Kétmintás t-próba és Welch-próba (R)