VALÓSZÍNŰSÉGSZÁMÍTÁSRÓL RÖVIDEN

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Valószínűségszámítás

Bayes tétele a valószínűségszámításban

Bayes tétele a kutatási hipotézisek világában

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

BEVEZETŐ

A valószínűségszámítás eredete a szerencsejátékokhoz kapcsolódik, ennek hagyományát matematikaórákon is megtapasztalhattátok, amikor kártyajátékokkal, kockadobással vagy éppen rulettjátékkal vezettek fel egy-egy feladatot. A valószínűségszámítás ugyanis olyan nagyszámú próbákra tud nagyon jó becsléseket adni, amelyek egymástól függetlenek, de ugyanolyan módon kerültek végrehajtásra.

Ez az alapvetés a kutatásunk mintavétele, és az eredményeink elemzése során is fontos lesz, ugyanis nem szabad alábecsülnünk a véletlen okozta mérési eltéréseket.

VÉLETLEN, VALÓSZÍNŰSÉG ÉS BAYES-TÉTELE

A társadalomtudományok esetében alkalmazott eljárások egyfajta „mozgó” populációval dolgoznak. Az ilyen típusú populáció nem csak térben, de minőségben sem állandó. Gondoljunk például arra, hogy 2000 és 2010 között nagyobb eséllyel találkoztunk volna olyan emberrel, aki élt a II. Világháború során, mint idén, 2017-ben. Ennek az esélye biztosan csökkent abból az okból kifolyólag, hogy az emberi élettartam véges és a háború egy emberöltővel ezelőtt zajlott le.

Mindazonáltal az sem mindegy, hogy sorsolással vagy éppen tudatosan választjuk ki a számunkra releváns populációt. Most képzeljük el azt, hogy pontos becslést szeretnénk adni egy ország dohányzóinak a számarányáról. Több módon is elindulhatunk, mégis a legcélszerűbb az, ha a lehető legtöbb szempont alapján hasonló embereket választunk a vizsgálatra, ami az előfeltételezéseink alapján a teljes népességet is képviselheti. Ezek lehetnek a nem, életkor, elhasznált dohányáru mennyisége, napi dohányzás gyakorisága stb. Az ilyen formán „illesztett” mérések megfelelőek lehetnek és bízhatunk benne, hogy a kapott eredményeink (többnyire) megfelelnek majd a valóságnak.

A valószínűségről közelebbről

Hogy megérthessük a valószínűség jelentőségét, játsszunk el a gondolattal: adott egy utcai szerencsejátékos, aki azt mondja, hogy a kalapjába rejtett 10 kártya közül, nagyon sok, de nem végtelen számú húzás során többször fogja kihúzni a varázslatos 7-es számot, mint mi magunk. A józan ész alapján hasonló húzási arányban reménykedhetünk, hiszen a véletlen pont ebben kap szerepet. Ne feledjük: sok, de nem végtelen sok húzásról van szó, nem törődve idővel és térrel körülöttünk. Mik a lehetőségeink? 10 kártyából mindig az számít találatnak, ha az 7-es számot mutat. Ebben az esetben minden új húzás új lehetőségnek tekinthető, hiszen a kártyát a húzást követően visszatesszük a kalapba. Az esélyeinket az alábbi módon tudjuk prezentálni:

 

 

 

A mi esetünkben ez azt jelenti, hogy egytized valószínűséggel fogjuk kihúzni mindketten a 7-es lapot egy hosszú játék során. Azaz körülbelül 10% esélyünk van a számunkra megfelelő lap kivételére. A játék végeztével azonban azt tapasztaljuk, hogy a kártyamágus az esetek 21%-ában húzta ki a 7-es lapot, míg mi maradtunk az elvárható 10%-os találati aránynál. Ekkor jobb gyanakodni, hiszen a véletlen senkivel sem kivételezik és egy igazán magas számú próba során kapott több, mint dupla akkora találat vélhetően nem a véletlen műve. Valaminek lennie kell a háttérben. Hirtelen elkapva a húzó kesztyűs kezét, észrevesszük, hogy mágnes van erősítve rá, a kártyánk pedig – mely nem szokványos papíron volt -, tartalmaz némi vasat is.

A véletlen új útjai a statisztikában

A véletlen és a statisztika kapcsolata ezért fontos. Segít a „józan” gondolkodásban és valaminek a megítélésében. A későbbiekben bemutatott statisztikai próbák különbséget tesznek majd esetek és esetek között és rámutatnak arra, hogyan tudjuk bizonyítani az igazunkat a legkülönfélébb kérdésekben.

A statisztikába az bejutott egy olyan matematikai tétel, amely a hagyományos frekventista iskolával ellentétben másképp tekint a statisztikára és a bejóslás folyamatokra. A Thomas Bayes nevével jelzett matematikai formula hétköznapi megfogalmazásban egy inverz rendszer felállítását részletezi. De hogyan is néz ez ki a statisztikai gondolkodásban? Tudjuk, hogy 2+2 = 4, azonban honnan tudjuk visszafele, hogy a 4 milyen számadatok összeadásából jött létre? Ez a fajta fordított vagy visszatekintő gondolkodási forma a jelenleg is uralkodó statisztikai próbáknak egyik hiányossága, ugyanis mindig a megszokott módon haladunk az események – jelen esetben számolások – láncolatával.

A pszichológiai intézetben a BA három évfolyamán statisztika teszteket íratnak minden év végén, hogy követni tudják a diákok fejlődését a tantárgyban. Mivel minél fiatalabb évfolyamról van szó, annál biztosabb az elégtelen dolgozat lehetősége, a kezdő tudás és a gyakorlatlanság miatt.

A mintába való válogatás során 33-33-33% arányban vannak BA1, BA2, BA3 diákok. Az eredmények alapján a BA1 évfolyamon a bukás aránya 15%, a BA2 évfolyamon 5%, míg a BA3 évfolyamon 0%, ott mindenki átmegy, hiszen csak akkor kaphatják meg a diplomájukat, ha sikeres a teszt, ezért mindenki szorgalmasan tanul. Találomra kiválasztunk egy bukott diákot. A kérdés az, hogy mekkora eséllyel jött ő a BA1 évfolyamból? Annyit látunk, hogy bármelyik évfolyamot is nézzük, az, hogy egy diákot találomra kiválasszunk a BA1 évfolyamról, 33%-os eséllyel tehetjük meg. Ugyanekkora eséllyel választunk a BA2 és BA3 évfolyamról is. Azonban ha már az is számít, hogy mekkora az esély arra, hogy bukott diákot válasszunk, jelentősen megnöveli a BA1 évfolyam esélyeit, míg a BA3 évfolyamét 0-ra csökkenti. Láthatjuk, hogy volt egy kezdeti valószínűség, melyet a mintavételkor alkalmaztunk és egy kritérium, melynek tükrében szeretnénk kiszámolni a valószínűséget.

 

 

Az esemény bekövetkezése, mely az alapvető találomra való kiválasztásra utal, az alábbiak szerint írható fel, ahol legyen BA1=B1, BA2=B2, BA3=B3, valamint az A|Bk a bukott diákok százalékos aránya:

 

 

 

Ahhoz, hogy megtudjuk a csoportból való „A” esemény bekövetkezésének lehetőségét, nézzük a meg P(A) esemény valószínűséget, ahol „A” a bukott diákokat jelenti – azaz annak kiválasztását!

Ennek logikája alapján, a találat arányát viszonyítjuk az összes esethez és szorozzuk az egyéni független választások valószínűségével (P(Bx). Ezeket összevonását mondja ki a teljes valószínűség tétele, amit felírva kapjuk az alábbi képletet:

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)

azaz

P(A)=0,15*0,33+0,05*0,33*0,00*0,33=0,066

 

ennek értelmében: 6,66 % eséllyel fogunk találomra választani bukott diákot a három (összevont) csoportból.

Ám mi azt akarjuk megtudni, hogy mekkora esélyünk van arra, hogy a BA1 évfolyamról választunk bukott diákot.

A felírható kiválasztási esemény a következő, ahol az új eseményt Bk-val jelölhetünk így:

 

P(A|Bk)P(Bk)

Ennek értelmében már Bayes-tételét alkalmazva jutunk el a következő egyenlethez:

 

 

 

 

 

 

 

 

azaz:

 

 

ennek értelmében láthatjuk, hogy 75%-os valószínűséggel fogunk választani bukott diákot a BA1 évfolyamból, azaz az eddigi 33%-os független választás valószínűsége a bukott diákok arányaival kiegészítve már 75%-ra emelkedett.

Laplace, korának egyik nagy matematikusa felismerte, hogy ezek a formulák nem csak a matematika, hanem összegészében az egész tudományos gondolkodás szolgálatába állíthatóak. Tételezzük fel, hogy a hipotézisünk és a vizsgált események empirikus bizonyítékainak leírását egy képletbe szeretnénk foglalni, ahogy azt Bayes-tétele alapján feliírható lenne. Ebben az esetben a hipotézisünk jelölése történjen „H”, a kutatási eredményeink pedig „K” szerint. Bayes-tétele alapján jegyezzük fel a valószínűségi eseményt a hipotézisünk teljesülésére P(H), a P(K) pedig a kutatási eredmények megtörténésére. Ezen a ponton különítsünk el két lehetőséget: a prior és posterior valószínűséget. A prior valószínűség szerint a hipotézisünk fennállása esetén megkapjuk a kutatási eredményeinket. Ennek a képletnek a fordítottja, ahol posteori valószínűség szerint a kutatási eredményeink megléte esetén a hipotézisünket fenntartjuk.

 

Képlettel:

 

Ahol P(H|K) a posterior valalószínűség és P(H) a prior valószínűség.

A statisztikai és módszertani értelmezése abban rejlik, hogy bizonyos események megtörténése esetén meghagyjuk-e a prior helyét vagy elvetjük azt. Lássunk erre vonatkozóan két példát:

1, "Egy zenész azt állítja, hogy egyetlen partitúraoldal áttanulmányozása után megmondja, hogy a nevezett mű Haydn vagy Mozart alkotása. Állítását ellenőrzendő tíz véletlenszerűen és egymástól függetlenül kiválasztott oldalt mutattak meg neki, és ő mind a tízről helyesen állapította meg, ki a szerző."

 

2, "A kocsmában részeg társaság azzal szórakozik, hogy egy társukat ráveszik, próbálja meg eltalálni: a feldobott érme fej vagy írás lesz-e. Egymás után tízszer elvégzik a kísérletet, és társuk mind a tíz alkalommal helyesen találta el, hogy mi lesz a dobás eredménye."

                                                                                                                                       /Hunyadi László - Bayesi gondolkodás a statisztikában/

Mindkét esetben teljes volt a találat! Valójában a helyes találat valószínűsége 50% próbánként. Ezt az 50%-ot 10 döntés alapján tudjuk felírni, melynek értelmében 0,5^10 azaz 0,001 a valószínűség az események teljes találattal végződő megtörténésére, ami igencsak alacsony. Ennek ellenére mégis inkább hajlandóak vagyunk a prior tudásunkkal élve azt mondani, hogy a zenész valóban érthet a szakmájához, mintsem azt, hogy a részeg emberünk paranormális képességekkel bírna. A bayes-i felfogás azt mondja erre, hogy ez egy szubjektív tényező, ami a kutatási vélekedésünket megváltoztathatja, míg a hagyományos értelmezésben objektív tényezők alapján teszünk különbséget. A frekventista felfogás szerint ugyanis mindkét eredmény ugyanolyan statisztikai mutatóval rendelkezik.

A klasszikus statisztika szembeállítva a bayesi statisztikával jóval kötöttebbnek tűnhet. A bayesi statisztika például a kutatási paramétereket mindvégig valószínűségek alapján határozza meg, mely valószínűség sosem kőbe vésett számadat: inkább szubjektív és flexibilis magyarázó erő. A klasszikus statisztika számtalan esetben elvonatkoztat a külső tényezőktől, míg a bayesi statisztika szerint igenis vannak olyan prior tényezők, melyek könnyedén eldönthetnek kutatási kérdéseket. Fontos, hogy a hagyományos statisztikai mintákból általában egy nagyobb populáció értékeire következtetünk és bízunk benne, hogy a kis megfigyelések alkalmazhatóak a nagy megfigyelésekre. A bayesi statisztika szerint mégis minden minta értékelése egyéni, éppen a köré rendeződő szubjektív és szabad véleményezési keret és az azt befolyásoló külső tényezők miatt.

A jelen statisztikai összefoglaló érdekességként említi meg a bayesi felfogást, ennek ellenére további olvasásra ajánljuk :

Hunyadi László - Bayesi gondolkodás a statisztikában című munkáját, mely segítségül volt az összefoglaló megírásában.