Leíró statisztika

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Bevezetés; skálatípusok; középérték mutatók; szóródási mutatók és terjedelem; Példák: SPSS, R, Kézi számítások  

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv
 

Amikor statisztikával foglalkozunk, nem elég az egyes statisztikai próbák ismeretére szorítkozni. A módszertani alapfogalmak elsajátításával meghatározhatjuk, milyen mutatókat számolunk ki, vagy hogy milyen módon nyerjük ki eredményeinket az adathalmazunkból. Az alábbiakban bemutatunk néhány alapvető jelentőségű fogalmat, a legfontosabb középértékeket és szóródási mutatókat. Azok számára, akik már ismerik ezeket a fogalmakat egy táblázatot biztosítunk, amely röviden összegzi, milyen mérési szint szükséges az adott mutató alkalmazásához, valamint, hogy mikor melyiket érdemes alkalmazni. A középértékek és az általános statisztikai mutatók együtt jelentik a leíró statisztikát. 

BEVEZETés

Abacus
 

Az általunk megfigyelt jelenségeket először mérhetővé, illetve statisztikai módszerekkel elemezhetővé kell tennünk. A számszerűsített adatok (változók) esetében különböző mérési szinteket különböztethetünk meg, amely a későbbiekben hatással lesz arra, hogy mely statisztikai módszereket alkalmazhatjuk adatainkon, illetve azt is meghatározza, hogy milyen leíró statisztikai adatok és középérték mutatók segítségével tudjuk megfelelően bemutatni a mintánkat.

Szórás


A szórás megmutatja, hogy az adatsorunk középértékéhez képest az értékeink várhatóan milyen mértékben térnek el. A szórás segítségével egy képet kapunk arról, hogy a vizsgált adatok mekkora ingadozást mutatnak. Abban az esetben, ha azt mondjuk, hogy a 3,2-es átlaghoz tartozó szórás értéke 0,8, akkor megállapíthatjuk, hogy a diákok nagy többsége 2,4 és 4 között ért el valamilyen érdemjegyet.

Nézzük meg egy példán keresztül, miről is van szó:

A definíció szerint a szórás az átlagtól való eltérések négyzetes középértéke. Ezt azonban sokkal egyszerűbb megérteni, ha lépésenként vesszük a szórás kiszámítását:

1) Kiszámoljuk az átlagot.
2) Kivonjuk az egyes adatokat az átlagból
3) A kapott különbségeket (mely az átlagtól való eltérés irányától függően lehet pozitív, vagy negatív szám) négyzetre emeljük
4) Kiszámoljuk a kapott számok átlagát
5) Az új átlagból gyököt vonunk

A jegyeink a következők:

4, 1, 3, 3, 3, 2, 5, 5, 5, 1

ezek átlaga a korábbi tudásunk alapján 3,2, melyet a következőképpen számítunk ki: A következőkben a már kiszámolt átlagból kivonjuk az egyes értékeket. Vagyis az első esetben például 4 - 3,2 = 0,8-at kapunk. Ha ezt minden elemmel elvégezzük az eredmény a következő számsor:
0,8; -2,2; 0,2; 0,2; 0,2; -1,2; 1,8; 1,8; 1,8; -2,2 Ezek a számok két információt hordoznak az átlag és a kiindulási érték kapcsolatáról: annak nagyságát, és irányát is megállapíthatjuk általuk. Az átlagtól való eltérés irányát a szám előjele adja meg. A pozitív eltérés azt jelenti, az eredeti érték nagyobb volt az átlagnál, a negatív eltérés esetén a kiindulási érték az átlagnál kisebb volt. A szórás kiszámításához azonban el kell tüntetnünk ezeket az előjeleket, amit a négyzetre emeléssel oldunk meg. A négyzetre emelés után végül kiszámoljuk az így megkapott értékek átlagát, és ebből gyököt vonunk (hiszen korábban az értékeket négyzetre emeltük, ezt „semlegesítjük ezzel a lépéssel”). A szórás tehát 1,469. Ez a mi esetünkben annyit jelent, hogy 1,731 és 4,669 közötti érdemjegyeket értek el a diákok. Akik ennél alacsonyabb, illetve magasabb osztályzatot szereztek, vagyis ezen a tartományon kívül estek, „kiugró” értéknek számítanak. Mivel a vizsga átlag a közepes érdemjegynek felel meg, így az elégtelen és a jeles osztályzatok is kiugrónak számítanak.




Konfidencia intervallum és strandard hiba


Számunkra másik érdekes adat a konfidencia intervallum. Legyen adott egy 100 főt számláló, matematikai tesztet írt populáció. Többszöri mérést követően a sikeres vizsgák általános pontaránya 57-63/100 pont között mozgott, 95%-os konfidencia intervallummal. Mit jelent ez? Azt, hogy a mintánkból egy találomra választott diák 95%-os bizonyossággal kerül az 57-63 pontot elért határba. Egy másik csoporton végzett elemzés szerint ugyanez a 95%-os adat jelenik meg 54-66 pontos intervallummal, azaz a vizsgákon általában (jelen esetben 95%-os bizonyossággal) 54-66 közötti pontra teljesítene egy véletlenszerűen kiválasztott diák. Ezzel annyit tudunk mondani, hogy az első esetben 95%-os bizonyosággal fog a vizsgán átjutó diák az 57-63 ponthatárok közé esni, míg a második esetében 95%-os bizonyossággal az 54-66 pont közé. A konfidencia intervallum rendelkezik egy alsó és felső határral (példánkban 57 pont – alsó határ, 63 pont felső határ), az intervallum értéke pedig százalékos arányban fejezi ki az ebbe a spektrumba való tartozás lehetőségét. Ennek megadása azért lehet lényeges a számunkra, mert sosem lehetünk biztosak a sorozatos mérések azonos értékében, így megadunk egy intervallumot, melyen belül az értékeink mozoghatnak. Mind a szignifikanciapróbák, mind a konfidencia intervallum segítségünkre van az előrejelzésben.
Az ábrán láthatunk egy normál eloszlású görbét (Gauss-görbe, vagy harang görbe néven is hallhattok róla), illetve a rajta feltüntetett szóródási egységeket is. Láthatjuk, hogy az első szóródásegységen kétszer 34,1 %, azaz megközelítőleg 68% szerepel. A két szórásegység esetében ez már 95%. Általánosságban elmondható, hogy ez a tendencia jellemző a normál görbével leírt populációkra. Vagyis a minta 68%-a fog az első szóródási intervallumba, míg a minta 95%-a fog a(z első és) második szóródási terjedelembe tartozni, és így tovább. Természetesen, ez nem minden esetben teljesül, a későbbiekben láthatunk olyan görbéket, melyekre ezek a megállapítások nem lehetnek érvényesek. Az átlagtól való eltérés összevetése a szórásegységekkel együttesen a Standard Hibát (SE) is ábrázolhatják. A standard hiba a minta szórása és a valóságban létező, de nehezen megismerhető teljes populáció átlaga (és szórása) között von párhuzamot. Amíg a minta átlagával meghatározhatjuk, hogy az általunk kiválasztott egyedek milyen tulajdonságokkal bírnak és a szórással a mintánk (!) szóródását vizsgáljuk, addig a standard hiba megmutatja azt, hogy a mintából meghatározva, milyen intervallumon belül találhatjuk majd meg a teljes populáció valós átlagát! Nézzünk egy példát!
n=81 fő átlagos tesztpontszám=71 pont minta szórása (SD)=12 pont Számítsuk a standard hibát (SE) az alábbi képlettel: SE=szórás(sd)/gyök*elemszám(n) vagyis: SE=12/gyök*81=12/9=1,33* Milyen intervallumban találhatjuk tehát nagy valószínűséggel a teljes populáció átlagát? A válasz: 71+- 1.33* intervallumban, azaz 69.67-72.33 között.




Normál eloszlás és hisztogram


Általában bármely populáció intervallum változók esetén kapott értékei egy érték köré rendeződnek, melytől balra haladva csökkenő, jobbra haladva növekvő tendenciát mutatnak az adatok. Ezzel párhuzamosan a hozzájuk tartozó elemszám (mind a növekvő, mind a csökkenő értékek esetében) fokozatosan is csökken. Amennyiben ezek a változások szimmetrikusak, normál eloszlásról beszélünk. Egyfajta szabályszerűség jelenik meg a szórás kapcsán a normál eloszlású minták esetében: általában az átlagtól való egy szórásegység, mind jobbra és mind balra hozzávetőleg a teljes minta 68%-át fedi le. Az átlagtól való két szórásegység már a teljes minta 95%-át tartalmazza. A fenti ábrán egy normál eloszlású görbét láthatunk (Gauss-görbe, vagy harang görbe néven is hallhattok róla). A görbe alakját az „x” és „y” tengelyen felvett értékek befolyásolják. Általánosságban elmondható, hogy az „y” tengely mutatja meg a darabszámát az „x” tengelyen található értékeknek. Amennyiben a magasságot mérjük, az „x” tengely mentén elhelyezkedő magasságtartományok populáción belüli előfordulását az „y” tengelyen ábrázoljuk. A normál görbe közepe az átlagot, a móduszt, és a mediánt egyszerre mutatja meg. Egy példa:
Sok mendemonda kering Napóleon magasságáról. Képzeljünk el, hogy az ábránk függőleges, „y” tengelyén darabszámokat, míg a vízszintes, „x” tengelyen magasságértékeket jelöltük centiméterben. Napóleon magassága 175 centiméter volt, azonban a testőreit és legjobb katonáit gondosan úgy válogatta össze, hogy azok az állomány legmagasabb emberei legyenek. Így élhet a fejünkben az a kép, hogy Napóleon csak egy hataloméhes „törpe” volt. Egyébként ez az ominózus 175 centiméteres magasság megfelel a korabeli francia átlag viszonyoknak, azaz Napóleon magasságát tekintve teljesen átlagos volt, az intelligenciahányadosa és hatalomvágya viszont az egekben lehetett. Képzeljük el, hogy a franciák esetében a legtöbb ember az átlagnak tekintett 175 centiméter körül van. A fenti ábrán a 0 pont jelenti a mi esetünkben a 175 centimétert. Vegyünk egy hipotetikus szórást, ami a teljes populációra vetítve 9 cm. Mit jelent mindez? Az ábra -1 és 1 közötti szelvényei pont ezt a 9 centimétert jelölnék jobbra és balra is, azaz a populáció nagy része, körülbelül 68%-a 166 és 184 cm közti magasságot venne fel. Ahogy haladunk az átlagtól jobbra és balra, úgy csökkennek az átlagtól eltérő magasságokhoz köthető darabszámok. A gyakorlatban ez annyit jelent, hogy míg nagyjából átlagos magasságú emberből sok van, addig a szélsőségesen alacsony és magas emberek száma az átlagosakénál sokkal alacsonyabb-épp ezért tűnhetnek a nagyon magas vagy alacsony emberek furcsának, szokatlannak. Hisztogram Ha az adott testmagasságokhoz oszlopok formájában rendelnénk az oda tartozó, olyan magasságú embereket, akkor középen tetőzne a magasságot jelölő oszlop, melyet egyre alacsonyabb oszlopok vennének körül, amíg el nem tűnnek a diagram látható tartományából. Ezt az ábrázolási módot nevezzük hisztogramnak. Gondolatban már rá is tudjuk húzni a normál görbét erre a normál eloszlású mintát ábrázoló hisztogramra. Sok esetben (ez inkább szabály, mint kivétel) a minta nem követi teljes mértékben tökéletesen a normál görbét, ám ettől függetlenül még a normalitás határain belül mozoghat. Ha a képzeletbeli görbénk szélein nem megy túl az oszlop magassága, még megfelelünk a normalitás kritériumának. Ezt érdemes megjegyezni, mert a normál eloszlás előfeltétele minden parametrikus próbának. A hisztogramokról még egy fontos információt leolvashatunk: Az az oszlopok területeinek mérete az adott értékintervallum számosságát is jelöli. Azt sem szabad elfelejteni, hogy a hisztogramot csupán jól számszerűsíthető adatokra lehet elkészíteni, az értékek közötti különbségek pedig mindig egyformák, vagyis nem minőségi, hanem mennyiségi különbség tapasztalható köztük. Ezeket az adatsorokat paraméteres adatoknak is nevezzük, hiszen le lehet őket írni egy normál görbével.
A későbbiekben nem biztos, hogy sok alkalmunk lesz olyan adatokat vizsgálni, amelyek normál eloszlásúak. A görbénk két tulajdonság mentén térhet el ettől: a ferdeség és a csúcsosság tekintetében. Amikor az ábránk szimmetrikus, azaz semelyik tényező mentén nem mutat eltérést az eloszlás, akkor beszélhetünk csupán normál eloszlásról. Ilyenkor a ferdeség és a csúcsosság értéke is 0.




Csúcsosság és ferdeség


A csúcsosság és a ferdeség a normál eloszlástól való eltérést mutatják meg. Az adatok „x” tengelyen történő jobbra, vagy balra tolódását a ferdeség, az „y” tengelyen való hegyesedését vagy ellapulását pedig a csúcsosság adja meg. A két mutató pozitív, nulla, vagy negatív értéket vehet fel. Normál eloszlás esetén mindkét mutató 0, ám ez a valóságban nagyon ritka. Az előtesztelés menüpont alatt leírjuk, milyen értékhatárokon belül fogadhatjuk el ettől az értéktől való deviációt.

A ferdeség A ferdeség az adatok „x” tengelyen történő jobbra, vagy balra tolódását mutatja meg. Amennyiben a teljes tartomány közepénél figyelhető meg az adatok csoportosulása, a ferdeség 0 lesz. Minél távolabb haladunk ettől a ponttól, annál nagyobb lesz a ferdeség mértéke, és az ezt kifejező érték. Az eltérés két irányban történhet. Ha az eltolódás a tartomány közepétől balra figyelhető meg, azaz több olyan adatunk van, mely a középponttól alacsonyabb értéket vesz fel, pozitív ferdeséget tapasztalunk. Ilyenkor a módusz értéke a legkisebb, a medián értéke ettől valamivel magasabb, az átlag pedig a legmagasabb értékünk lesz. A negatív ferdeség akkor fordul elő, ha a tartomány közepétől jobbra helyezkedik el az adataink többsége. Ilyenkor az átlag értéke a legkisebb, ettől magasabb a medián, és a módusz értéke a legmagasabb lesz.
A csúcsosság A csúcsosság az „y” tengelyen történő normál eloszlástól való eltérést fejezi ki. Ha túl sok olyan adatunk van, melyek ugyanabba a tartományba esnek, a csúcsosság magasabb fokú lesz, vagyis az értéke nagyobb lesz, mint 0 (ami a normál eloszlás csúcsosságát jelentené). Ezt leptokurtikus görbének nevezzük. Az alacsonyabb fokú csúcsosságot, tehát, mikor sok tartományban oszlanak el hasonló mértékben az adatok, és a görbénk inkább laposnak mondható, platykurtikus görbének nevezzük. A normál eloszláskor tapasztalható csúcsosság neve mezokurtikus. Az fenti ábrán a felső a következők láthatók: A) normál eloszláshoz tartozó ferdeségű görbe B) balra ferde görbe (értékek a skála elején tobzódnak) C) jobbra ferde görbe (értékek a skála végén tobzódnak) D) A normál görbénél (vékonyabb vonal) csúcsosabb, leptokurtikus görbe (kevesebben vannak az átlag körül) E) a normál görbénél (vékonyabb vonal) laposabb, platykurtikus görbe (többen vannak az átlag körül)




Példák SPSS-ben


Az átlag, módusz, medián, szórás, normálgörbe és hisztogram egyaránt elérhető az Analyze>Descriptive Statistics>Frequencies fül alatt A variables oldalra húzva a változóinkat, lekérhetjük a számunkra szükséges adatokat. Az átlag, módusz, medián, szórás, csúcsosság, ferdeség, kvartilisek a „Statistics” gomb alatt érhető el, míg a hisztogramot normálgörbével a „Charts” menüpontban találjuk. A „Statistics” menüpont A „Chart” menüpont, ahol nem csak hisztogramot, de kör- és oszlopdiagramot is kérhetünk. A futtatást követően a kapott értékek alapján már vonhatunk le kezdetleges következtetéseket. Melyeket a hisztogramok grafikusan ábrázolnak.





SKÁLATÍPUSOK

Abacus
 

KÖZÉPÉRTÉK MUTATÓK

Abacus

A középérték mutatók az adataink értéknagyságának centrumát fejezik ki, azaz az értékek csoportosulását egyetlen számmal határozzák meg. A módszertani fejezetben is beszéltünk róla, illetve itt is megemlítettük a három különböző változótípust. Ezek közül a középértékek tekintetében más-más mutatókat használunk. Ha megismertük a három változótípust, majd azonosítottuk a középértékeket, akkor megérthetjük, hogy melyik skálatípus miért és melyik középérték kiszámítását vonhatja maga után.

Átlag


Az átlag vagy más néven számtani közép „n” darab szám összegének „n”-ed része. Alkalmazása metrikus, azaz intervallum-és arányskálákon értelmezhető. Az átlag használata akkor célravezető, ha az adathalmaz nem tartalmaz kiugró értékeket, ugyanis ezek torzíthatják a kapott eredményt. Ilyen esetben célszerűbb mediánt használni. Példaként képzeljünk el egy olyan kutatást, ahol a minta egy részét a matematikában szélsőségesen tehetséges emberek teszik ki, míg a minta másik felére az jellemző, hogy nehézségeik vannak a számolásban. Tegyük fel, hogy azok, akik tehetségesebbek, egy általunk megválasztott matematikai teszten mindannyian 100 pontot érnek el, míg az ügyetlenebbek mindannyian 60 pontot szereznek. Ha a rendkívül tehetségek csoportjába 10, az ügyetlenebbek közé pedig 20 főt sorolhatunk, akkor a teljes minta a teszten elért átlagpontszámát a következőképpen számolhatjuk ki: Átlag = [(10x100)+(20x60)]/30 = 73,3 Az átlagos pontszám ekkor 73,3 lenne, ami sem a tehetségeseket, sem az ügyetlenebbeket nem írná le megfelelően. Ennek oka a nem megfelelő eloszlás, ugyanis az átlag a vizsgált elemek közötti (nagy) különbségeket igyekszik kiegyensúlyozni és ezáltal egy olyan értéket megadni, amely az adott tulajdonság tekintetében a mintánk „elvi középpontján” helyezkedik el. Ha a minta tagjai által elért pontszámokat ábrázolnánk egy görbén, akkor azt látnánk, hogy csak 100 és 60 pontál jelenik meg csúcsosodás, az átlaggal megegyező, vagy ahhoz közelítő érték viszont egyáltalán nem fordult elő.
Tévedett volna az átlag? Aligha. Csupán a felvehető értékek között keresett egy olyan (új) értéket, amely a résztvevő személyek pontszámát a teljes elemszámmal súlyozva jellemzi. Az egyetlen probléma, hogy az átlagot könnyen torzíthatja egy-egy jelentősebben kiugró érték. Kiugró értékek azok az adatok, melyek jócskán a normál tartományon kívül esnek. Az előbbi példánál maradva: Ha a kutatásunkban csupán 5, a matematikában kiugróan tehetséges ember vett volna részt, és mindenki más 60 pontot ért volna el, akkor annak az 5 főnek a 100 pontos eredménye is képes lett volna az átlag eltolására.

Tehát, ha olyan adatsor átlagát szeretnénk vizsgálni, mely ilyen kiugró értékeket tartalmaz, érdemes megfontolni egy másik középérték alkalmazását. Az átlagot leginkább a minél változatosabb adathalmazok esetében érdemes választani, az átlagszámításra legalkalmasabb adatok pedig azok, melyek a normáleloszlást követik.




Medián


A medián "n" darab sorbarendezhető szám középső értéke. A mediántól jobbra és balra is ugyanannyi számot találunk. Alkalmazhatósági köre tehát a legalább ordinális mérési szintű változóknál kezdődik. Ahol az átlag nem ad kellőképpen reprezentatív eredményt vagy a mérési szintjéből adódóan nem is értelmezhető, érdemes lehet mediánt alkalmazni. A medián az átlaghoz viszonyítva kevésbé érzékeny a kiugró értékekre, ezért, ha az adatsorunk ezt indokolja, és a kiugró elemet nincs lehetőségünk kivenni, érdemes a mediánt alapul venni. A medián számításakor az adatokat először növekvő sorba rendezzük. Érdemes még egyszer megjegyezni, hogy ehhez az értékeknek sorbarendezhetőknek kell lenniük.

Nézzük: Ha 20-an értek el 60 pontot, 10-en pedig 100-at, akkor az adatokat sorba rendezve ezt láthatjuk: 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, Az adatsorban jelenleg 30 fő található. A medián az adatsor középső eleme, melytől jobbra és balra ugyanannyi számú (fele-fele) arányú elem található, amely kisebb, illetve nagyobb. Páratlan elemszám esetén tehát könnyedén megadható, mi a középső elem. Páros elemszám esetén pedig a két középső elem számtani közepét (átlagát) vesszük. A medián ebben az esetben 60 pont. Ha visszaemlékezünk arra, amikor az átlagszámítás esetén használtuk ugyanezeket az adatokat, emlékezhetünk, hogy akkor olyan értéket kaptunk eredményként, mely nem is szerepelt az egyes személyek által elért pontszámok között. Ebben az esetben viszont a medián olyan értéket vesz fel, amely a minta nagyobb részének, vagyis 20 főnek az eredményéről pontos leírást ad.




Módusz


A módusz legalább nominális változókon értelmezhető és a leggyakrabban előforduló értéket mutatja meg a vizsgált adatsorban. Egy adathalmazon belül több „leggyakoribb” érték is előfordulhat, ilyenkor több móduszunk is lesz. Ha például egy osztályban 10-10-10 fő lenne 160, 175 és 190 centiméter magas, három móduszunk lenne. Ezt multimodális módusznak nevezzük. Amikor egy érték szerepel a leggyakrabban, akkor egy móduszunk lesz, melyet unimodális módusznak nevezünk.





Táblázat: Skálatípusok és mérési szintek

Az alábbi táblázat megmutatja, hogy az egyes mérési skálákra milyen középértékeket érdemes és kell alkalmazni. A belátást megkönnyíti, ha magabiztosan ismerjük mind az átlag, a módusz és a medián fogalmát. Általánosan elmondható, minél "magasabb" a mérési szint, annál több középértéket használhatunk.

Financial Chart

Milyen középérték mutatókat használhatok adott mérési szint esetén? Mit mutathat ezzel szemben a gyakorlat?

A metrikus mérési szintű változók esetében mind az átlag, medián és módusz egyszerre alkalmazható (lásd a táblázatban fentebb). Azonban a metrikus adatsor jellegéből adódóan is hozhatunk döntést, melyiket használjuk a gyakorlatban. 

Amennyiben az adatsorunk változatos, nincsenek klaszter jellegű csoportosulások az adatokban, sem egy nagyon gyakori érték, érdemes használnunk az átlagot. 

Amennyiben az adatsorunk néhány lehetséges érték közül vesz fel egyet, nem változatos és nincs egy kifejezetten gyakori értéke, alkalmazzuk a mediánt.

Amennyiben az adatsorunk néhány vagy nagyon kevés értéket vesz fel, nem változatos, használjuk a móduszt vagyis a leggyakrabban előforduló értéket. 

 

SZÓRÓDÁSI MUTATÓK ÉS TERJEDELEM

A szóródási mutatók azt mérik, hogy az adott értékek mennyire koncentrálódnak a középérték körül, az ingadozás mértékét fejezik ki egy számmal. 


A terjedelem a legnagyobb és legkisebb elem közti különbséget írja le. Ennek a mutatónak csak olyan skálák esetében van értelme, ahol az elemek (legalább) sorrendbe állíthatók, nagyságuk pedig megállapítható. Ilyenek a metrikus skálák.

Szórás


A szórás megmutatja, hogy az adatsorunk középértékéhez képest az értékeink várhatóan milyen mértékben térnek el. A szórás segítségével egy képet kapunk arról, hogy a vizsgált adatok mekkora ingadozást mutatnak. Abban az esetben, ha azt mondjuk, hogy a 3,2-es átlaghoz tartozó szórás értéke 0,8, akkor megállapíthatjuk, hogy a diákok nagy többsége 2,4 és 4 között ért el valamilyen érdemjegyet.

Nézzük meg egy példán keresztül, miről is van szó:

A definíció szerint a szórás az átlagtól való eltérések négyzetes középértéke. Ezt azonban sokkal egyszerűbb megérteni, ha lépésenként vesszük a szórás kiszámítását:

1) Kiszámoljuk az átlagot.
2) Kivonjuk az egyes adatokat az átlagból
3) A kapott különbségeket (mely az átlagtól való eltérés irányától függően lehet pozitív, vagy negatív szám) négyzetre emeljük
4) Kiszámoljuk a kapott számok átlagát
5) Az új átlagból gyököt vonunk

A jegyeink a következők:

4, 1, 3, 3, 3, 2, 5, 5, 5, 1

ezek átlaga a korábbi tudásunk alapján 3,2, melyet a következőképpen számítunk ki: A következőkben a már kiszámolt átlagból kivonjuk az egyes értékeket. Vagyis az első esetben például 4 - 3,2 = 0,8-at kapunk. Ha ezt minden elemmel elvégezzük az eredmény a következő számsor:
0,8; -2,2; 0,2; 0,2; 0,2; -1,2; 1,8; 1,8; 1,8; -2,2 Ezek a számok két információt hordoznak az átlag és a kiindulási érték kapcsolatáról: annak nagyságát, és irányát is megállapíthatjuk általuk. Az átlagtól való eltérés irányát a szám előjele adja meg. A pozitív eltérés azt jelenti, az eredeti érték nagyobb volt az átlagnál, a negatív eltérés esetén a kiindulási érték az átlagnál kisebb volt. A szórás kiszámításához azonban el kell tüntetnünk ezeket az előjeleket, amit a négyzetre emeléssel oldunk meg. A négyzetre emelés után végül kiszámoljuk az így megkapott értékek átlagát, és ebből gyököt vonunk (hiszen korábban az értékeket négyzetre emeltük, ezt „semlegesítjük ezzel a lépéssel”). A szórás tehát 1,469. Ez a mi esetünkben annyit jelent, hogy 1,731 és 4,669 közötti érdemjegyeket értek el a diákok. Akik ennél alacsonyabb, illetve magasabb osztályzatot szereztek, vagyis ezen a tartományon kívül estek, „kiugró” értéknek számítanak. Mivel a vizsga átlag a közepes érdemjegynek felel meg, így az elégtelen és a jeles osztályzatok is kiugrónak számítanak.




Konfidencia intervallum és strandard hiba


Számunkra másik érdekes adat a konfidencia intervallum. Legyen adott egy 100 főt számláló, matematikai tesztet írt populáció. Többszöri mérést követően a sikeres vizsgák általános pontaránya 57-63/100 pont között mozgott, 95%-os konfidencia intervallummal. Mit jelent ez? Azt, hogy a mintánkból egy találomra választott diák 95%-os bizonyossággal kerül az 57-63 pontot elért határba. Egy másik csoporton végzett elemzés szerint ugyanez a 95%-os adat jelenik meg 54-66 pontos intervallummal, azaz a vizsgákon általában (jelen esetben 95%-os bizonyossággal) 54-66 közötti pontra teljesítene egy véletlenszerűen kiválasztott diák. Ezzel annyit tudunk mondani, hogy az első esetben 95%-os bizonyosággal fog a vizsgán átjutó diák az 57-63 ponthatárok közé esni, míg a második esetében 95%-os bizonyossággal az 54-66 pont közé. A konfidencia intervallum rendelkezik egy alsó és felső határral (példánkban 57 pont – alsó határ, 63 pont felső határ), az intervallum értéke pedig százalékos arányban fejezi ki az ebbe a spektrumba való tartozás lehetőségét. Ennek megadása azért lehet lényeges a számunkra, mert sosem lehetünk biztosak a sorozatos mérések azonos értékében, így megadunk egy intervallumot, melyen belül az értékeink mozoghatnak. Mind a szignifikanciapróbák, mind a konfidencia intervallum segítségünkre van az előrejelzésben.
Az ábrán láthatunk egy normál eloszlású görbét (Gauss-görbe, vagy harang görbe néven is hallhattok róla), illetve a rajta feltüntetett szóródási egységeket is. Láthatjuk, hogy az első szóródásegységen kétszer 34,1 %, azaz megközelítőleg 68% szerepel. A két szórásegység esetében ez már 95%. Általánosságban elmondható, hogy ez a tendencia jellemző a normál görbével leírt populációkra. Vagyis a minta 68%-a fog az első szóródási intervallumba, míg a minta 95%-a fog a(z első és) második szóródási terjedelembe tartozni, és így tovább. Természetesen, ez nem minden esetben teljesül, a későbbiekben láthatunk olyan görbéket, melyekre ezek a megállapítások nem lehetnek érvényesek. Az átlagtól való eltérés összevetése a szórásegységekkel együttesen a Standard Hibát (SE) is ábrázolhatják. A standard hiba a minta szórása és a valóságban létező, de nehezen megismerhető teljes populáció átlaga (és szórása) között von párhuzamot. Amíg a minta átlagával meghatározhatjuk, hogy az általunk kiválasztott egyedek milyen tulajdonságokkal bírnak és a szórással a mintánk (!) szóródását vizsgáljuk, addig a standard hiba megmutatja azt, hogy a mintából meghatározva, milyen intervallumon belül találhatjuk majd meg a teljes populáció valós átlagát! Nézzünk egy példát!
n=81 fő átlagos tesztpontszám=71 pont minta szórása (SD)=12 pont Számítsuk a standard hibát (SE) az alábbi képlettel: SE=szórás(sd)/gyök*elemszám(n) vagyis: SE=12/gyök*81=12/9=1,33* Milyen intervallumban találhatjuk tehát nagy valószínűséggel a teljes populáció átlagát? A válasz: 71+- 1.33* intervallumban, azaz 69.67-72.33 között.




Normál eloszlás és hisztogram


Általában bármely populáció intervallum változók esetén kapott értékei egy érték köré rendeződnek, melytől balra haladva csökkenő, jobbra haladva növekvő tendenciát mutatnak az adatok. Ezzel párhuzamosan a hozzájuk tartozó elemszám (mind a növekvő, mind a csökkenő értékek esetében) fokozatosan is csökken. Amennyiben ezek a változások szimmetrikusak, normál eloszlásról beszélünk. Egyfajta szabályszerűség jelenik meg a szórás kapcsán a normál eloszlású minták esetében: általában az átlagtól való egy szórásegység, mind jobbra és mind balra hozzávetőleg a teljes minta 68%-át fedi le. Az átlagtól való két szórásegység már a teljes minta 95%-át tartalmazza. A fenti ábrán egy normál eloszlású görbét láthatunk (Gauss-görbe, vagy harang görbe néven is hallhattok róla). A görbe alakját az „x” és „y” tengelyen felvett értékek befolyásolják. Általánosságban elmondható, hogy az „y” tengely mutatja meg a darabszámát az „x” tengelyen található értékeknek. Amennyiben a magasságot mérjük, az „x” tengely mentén elhelyezkedő magasságtartományok populáción belüli előfordulását az „y” tengelyen ábrázoljuk. A normál görbe közepe az átlagot, a móduszt, és a mediánt egyszerre mutatja meg. Egy példa:
Sok mendemonda kering Napóleon magasságáról. Képzeljünk el, hogy az ábránk függőleges, „y” tengelyén darabszámokat, míg a vízszintes, „x” tengelyen magasságértékeket jelöltük centiméterben. Napóleon magassága 175 centiméter volt, azonban a testőreit és legjobb katonáit gondosan úgy válogatta össze, hogy azok az állomány legmagasabb emberei legyenek. Így élhet a fejünkben az a kép, hogy Napóleon csak egy hataloméhes „törpe” volt. Egyébként ez az ominózus 175 centiméteres magasság megfelel a korabeli francia átlag viszonyoknak, azaz Napóleon magasságát tekintve teljesen átlagos volt, az intelligenciahányadosa és hatalomvágya viszont az egekben lehetett. Képzeljük el, hogy a franciák esetében a legtöbb ember az átlagnak tekintett 175 centiméter körül van. A fenti ábrán a 0 pont jelenti a mi esetünkben a 175 centimétert. Vegyünk egy hipotetikus szórást, ami a teljes populációra vetítve 9 cm. Mit jelent mindez? Az ábra -1 és 1 közötti szelvényei pont ezt a 9 centimétert jelölnék jobbra és balra is, azaz a populáció nagy része, körülbelül 68%-a 166 és 184 cm közti magasságot venne fel. Ahogy haladunk az átlagtól jobbra és balra, úgy csökkennek az átlagtól eltérő magasságokhoz köthető darabszámok. A gyakorlatban ez annyit jelent, hogy míg nagyjából átlagos magasságú emberből sok van, addig a szélsőségesen alacsony és magas emberek száma az átlagosakénál sokkal alacsonyabb-épp ezért tűnhetnek a nagyon magas vagy alacsony emberek furcsának, szokatlannak. Hisztogram Ha az adott testmagasságokhoz oszlopok formájában rendelnénk az oda tartozó, olyan magasságú embereket, akkor középen tetőzne a magasságot jelölő oszlop, melyet egyre alacsonyabb oszlopok vennének körül, amíg el nem tűnnek a diagram látható tartományából. Ezt az ábrázolási módot nevezzük hisztogramnak. Gondolatban már rá is tudjuk húzni a normál görbét erre a normál eloszlású mintát ábrázoló hisztogramra. Sok esetben (ez inkább szabály, mint kivétel) a minta nem követi teljes mértékben tökéletesen a normál görbét, ám ettől függetlenül még a normalitás határain belül mozoghat. Ha a képzeletbeli görbénk szélein nem megy túl az oszlop magassága, még megfelelünk a normalitás kritériumának. Ezt érdemes megjegyezni, mert a normál eloszlás előfeltétele minden parametrikus próbának. A hisztogramokról még egy fontos információt leolvashatunk: Az az oszlopok területeinek mérete az adott értékintervallum számosságát is jelöli. Azt sem szabad elfelejteni, hogy a hisztogramot csupán jól számszerűsíthető adatokra lehet elkészíteni, az értékek közötti különbségek pedig mindig egyformák, vagyis nem minőségi, hanem mennyiségi különbség tapasztalható köztük. Ezeket az adatsorokat paraméteres adatoknak is nevezzük, hiszen le lehet őket írni egy normál görbével.
A későbbiekben nem biztos, hogy sok alkalmunk lesz olyan adatokat vizsgálni, amelyek normál eloszlásúak. A görbénk két tulajdonság mentén térhet el ettől: a ferdeség és a csúcsosság tekintetében. Amikor az ábránk szimmetrikus, azaz semelyik tényező mentén nem mutat eltérést az eloszlás, akkor beszélhetünk csupán normál eloszlásról. Ilyenkor a ferdeség és a csúcsosság értéke is 0.




Csúcsosság és ferdeség


A csúcsosság és a ferdeség a normál eloszlástól való eltérést mutatják meg. Az adatok „x” tengelyen történő jobbra, vagy balra tolódását a ferdeség, az „y” tengelyen való hegyesedését vagy ellapulását pedig a csúcsosság adja meg. A két mutató pozitív, nulla, vagy negatív értéket vehet fel. Normál eloszlás esetén mindkét mutató 0, ám ez a valóságban nagyon ritka. Az előtesztelés menüpont alatt leírjuk, milyen értékhatárokon belül fogadhatjuk el ettől az értéktől való deviációt.

A ferdeség A ferdeség az adatok „x” tengelyen történő jobbra, vagy balra tolódását mutatja meg. Amennyiben a teljes tartomány közepénél figyelhető meg az adatok csoportosulása, a ferdeség 0 lesz. Minél távolabb haladunk ettől a ponttól, annál nagyobb lesz a ferdeség mértéke, és az ezt kifejező érték. Az eltérés két irányban történhet. Ha az eltolódás a tartomány közepétől balra figyelhető meg, azaz több olyan adatunk van, mely a középponttól alacsonyabb értéket vesz fel, pozitív ferdeséget tapasztalunk. Ilyenkor a módusz értéke a legkisebb, a medián értéke ettől valamivel magasabb, az átlag pedig a legmagasabb értékünk lesz. A negatív ferdeség akkor fordul elő, ha a tartomány közepétől jobbra helyezkedik el az adataink többsége. Ilyenkor az átlag értéke a legkisebb, ettől magasabb a medián, és a módusz értéke a legmagasabb lesz.
A csúcsosság A csúcsosság az „y” tengelyen történő normál eloszlástól való eltérést fejezi ki. Ha túl sok olyan adatunk van, melyek ugyanabba a tartományba esnek, a csúcsosság magasabb fokú lesz, vagyis az értéke nagyobb lesz, mint 0 (ami a normál eloszlás csúcsosságát jelentené). Ezt leptokurtikus görbének nevezzük. Az alacsonyabb fokú csúcsosságot, tehát, mikor sok tartományban oszlanak el hasonló mértékben az adatok, és a görbénk inkább laposnak mondható, platykurtikus görbének nevezzük. A normál eloszláskor tapasztalható csúcsosság neve mezokurtikus. Az fenti ábrán a felső a következők láthatók: A) normál eloszláshoz tartozó ferdeségű görbe B) balra ferde görbe (értékek a skála elején tobzódnak) C) jobbra ferde görbe (értékek a skála végén tobzódnak) D) A normál görbénél (vékonyabb vonal) csúcsosabb, leptokurtikus görbe (kevesebben vannak az átlag körül) E) a normál görbénél (vékonyabb vonal) laposabb, platykurtikus görbe (többen vannak az átlag körül)




Példák SPSS-ben


Az átlag, módusz, medián, szórás, normálgörbe és hisztogram egyaránt elérhető az Analyze>Descriptive Statistics>Frequencies fül alatt A variables oldalra húzva a változóinkat, lekérhetjük a számunkra szükséges adatokat. Az átlag, módusz, medián, szórás, csúcsosság, ferdeség, kvartilisek a „Statistics” gomb alatt érhető el, míg a hisztogramot normálgörbével a „Charts” menüpontban találjuk. A „Statistics” menüpont A „Chart” menüpont, ahol nem csak hisztogramot, de kör- és oszlopdiagramot is kérhetünk. A futtatást követően a kapott értékek alapján már vonhatunk le kezdetleges következtetéseket. Melyeket a hisztogramok grafikusan ábrázolnak.





Abacus