Leíró statisztika

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Bevezetés; skálatípusok; középérték mutatók; szóródási mutatók és terjedelem; Példák: SPSS, R, Kézi számítások  

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv
 

Amikor statisztikával foglalkozunk, nem elég az egyes statisztikai próbák ismeretére szorítkozni. A módszertani alapfogalmak elsajátításával meghatározhatjuk, milyen mutatókat számolunk ki, vagy hogy milyen módon nyerjük ki eredményeinket az adathalmazunkból. Az alábbiakban bemutatunk néhány alapvető jelentőségű fogalmat, a legfontosabb középértékeket és szóródási mutatókat. Azok számára, akik már ismerik ezeket a fogalmakat egy táblázatot biztosítunk, amely röviden összegzi, milyen mérési szint szükséges az adott mutató alkalmazásához, valamint, hogy mikor melyiket érdemes alkalmazni. A középértékek és az általános statisztikai mutatók együtt jelentik a leíró statisztikát. 

BEVEZETés

Abacus
 

Az általunk megfigyelt jelenségeket először mérhetővé, illetve statisztikai módszerekkel elemezhetővé kell tennünk. A számszerűsített adatok (változók) esetében különböző mérési szinteket különböztethetünk meg, amely a későbbiekben hatással lesz arra, hogy mely statisztikai módszereket alkalmazhatjuk adatainkon, illetve azt is meghatározza, hogy milyen leíró statisztikai adatok és középérték mutatók segítségével tudjuk megfelelően bemutatni a mintánkat.

Nominális változók


A nominális változók valamilyen névleges értéket adnak meg, melyek nem rendezhetők sorrendbe, hiszen egymástól minőségükben különböznek. Ez a gyakorlatban azt jelenti, hogy a változó egyes kategóriái között nem tudunk mennyiségi különbséget tenni, nem tudjuk azt mondani, hogy az egyik kategóriát azért jelöltük egyessel, mert a kettes többet ér, esetleg mert a kettes másodrangú, tehát a kategóriák számokkal való jelölése önkényes. A nem (férfi, nő) egy ilyen mérési szintű változó, de ide sorolhatjuk az igen/nem típusú kérdéseket, valamint például azt, hogy ki milyen szakon tanul. Az olyan nominális változókat, melyek összesen két értéket vesznek fel (pl.: nem), dichotóm változóknak nevezzük. Ha elemezni szeretnénk őket, akkor a legcélszerűbb az, ha a változók százalékos megoszlását vagy éppen a leggyakrabban előforduló értéket (móduszt) vizsgáljuk. Azért használjuk ezt a két mutatót, mert az adatok egymáshoz viszonyított számszerűsített aránya az, ami számunkra információval szolgálhat a nominális változók esetén. ​​ Példa: nő vagy férfi? Kategóriába sorolható, de nem átlagolható érték




Ordinális változók


Az ordinális változók értékei annyival több információt hordoznak a nominális változókhoz viszonyítva, hogy meghatározott sorba lehet rendezni őket. A kategóriák között nincs pontosan meghatározható mértékű különbség, ugyanis az eltérés a minőségben és annak fokában van. Ennek a minőségbeli különbségnek azonban nem tudunk egyforma, egységes távot adni, azaz lehet, hogy az egyes kategóriák más-más mértékben különböznek egymástól. Ez a gyakorlatban azt jelenti, hogy a kategóriákat jelölő számok pl.: végzettség esetén nem árulkodnak az érettségivel és egyetemi diplomával rendelkezők tudásának mértéke közötti különbségről, de jeleznek egyfajta sorrendiséget, ebben az esetben tehát az egyetemi diplomát az érettséginél nagyobb számmal érdemes jelölnünk. Kutatásaink során az iskolai végzettség mellett ordinális változók lehetnek még pl.: a jövedelemszintre vonatkozó adatok, vagy bizonyos esetben a Likert-skálák is. Ez utóbbi lényege, hogy a résztvevőknek egy n darab számból álló skálán való besorolással kell dönteni adott kérdésekben, például, hogy 1 és 5 között mennyire vagyunk elégedettek az alábbi magyarázattal (ahol egy az egyáltalán nem, öt a teljes mértékben). A Likert-skálával kapcsolatban fontos megjegyezni, hogy nincs egyértelmű szokás arra vonatkozóan, hogy milyen mérési szintű változóként kezeljük: Bár jellegéből adódóan inkább ordinális skálának számít, a legtöbb esetben metrikusként kezelik. Az ordinális változók esetén érdemes megkeresnünk a középső értéket, a mediánt, és ezt alkalmazni a statisztikai elemzések során. Példa: Az iskolai szint vagy a kategóriákra osztott jövedelmi szint ordinális változók. Egymás követik meghatározott sorrendben, de a kategóriák közötti különbség nem mindenhol egyértelmű.




Metrikus változók


A metrikus változókon lehetőségünk nyílik matematikai műveletek elvégzésére. Azok az adattípusok tartoznak ide, amelyek első ránézésre is egyértelműen számszerű mérési adatoknak tűnnek: A metrikus változók esetében az egyes értékek közötti távolság rendszerint egyenlő, mértéke nem változik. Ilyen például a testmagasság vagy a reakcióidő (ezek esetében árulkodó lehet, hogy állandó mértékegységgel rendelkező értékek).
A metrikus változókat további két típusba sorolhatjuk, ezek az intervallum- és arányskálák. A fő különbség közöttük az, hogy az intervallumskáláknak nincs olyan nulla pontja, melyet természetesen tudnánk értelmezni. Hogy mit is jelent ez? Intervallumskála lehet például a Celsius-fok, hiszen értelmezhetjük a negatív tartományokban is. Ezzel szemben az arányskála rendelkezik természetes nulla ponttal. Például a magasság – bár elképzelni talán el tudjuk-, mégsem lép a 0 centiméter alá. Mindkét típusra alkalmazhatjuk az átlagot és a szórást, a későbbiekben pedig arra is kitérünk, hogy ezek a mutatók milyen tulajdonságokkal – erősségekkel és problémákkal – rendelkeznek.
Példa: a magasság centiméterben (vagy más mérőszámban) megadott értéke metrikus változó, hiszen az egységek közötti különbség mindig ugyanannyi. Az adatokkal már egyszerűbb matematikai műveletek is végezhetők.





SKÁLATÍPUSOK

Abacus
 

KÖZÉPÉRTÉK MUTATÓK

Abacus

A középérték mutatók az adataink értéknagyságának centrumát fejezik ki, azaz az értékek csoportosulását egyetlen számmal határozzák meg. A módszertani fejezetben is beszéltünk róla, illetve itt is megemlítettük a három különböző változótípust. Ezek közül a középértékek tekintetében más-más mutatókat használunk. Ha megismertük a három változótípust, majd azonosítottuk a középértékeket, akkor megérthetjük, hogy melyik skálatípus miért és melyik középérték kiszámítását vonhatja maga után.

Átlag


Az átlag vagy más néven számtani közép „n” darab szám összegének „n”-ed része. Alkalmazása metrikus, azaz intervallum-és arányskálákon értelmezhető. Az átlag használata akkor célravezető, ha az adathalmaz nem tartalmaz kiugró értékeket, ugyanis ezek torzíthatják a kapott eredményt. Ilyen esetben célszerűbb mediánt használni. Példaként képzeljünk el egy olyan kutatást, ahol a minta egy részét a matematikában szélsőségesen tehetséges emberek teszik ki, míg a minta másik felére az jellemző, hogy nehézségeik vannak a számolásban. Tegyük fel, hogy azok, akik tehetségesebbek, egy általunk megválasztott matematikai teszten mindannyian 100 pontot érnek el, míg az ügyetlenebbek mindannyian 60 pontot szereznek. Ha a rendkívül tehetségek csoportjába 10, az ügyetlenebbek közé pedig 20 főt sorolhatunk, akkor a teljes minta a teszten elért átlagpontszámát a következőképpen számolhatjuk ki: Átlag = [(10x100)+(20x60)]/30 = 73,3 Az átlagos pontszám ekkor 73,3 lenne, ami sem a tehetségeseket, sem az ügyetlenebbeket nem írná le megfelelően. Ennek oka a nem megfelelő eloszlás, ugyanis az átlag a vizsgált elemek közötti (nagy) különbségeket igyekszik kiegyensúlyozni és ezáltal egy olyan értéket megadni, amely az adott tulajdonság tekintetében a mintánk „elvi középpontján” helyezkedik el. Ha a minta tagjai által elért pontszámokat ábrázolnánk egy görbén, akkor azt látnánk, hogy csak 100 és 60 pontál jelenik meg csúcsosodás, az átlaggal megegyező, vagy ahhoz közelítő érték viszont egyáltalán nem fordult elő.
Tévedett volna az átlag? Aligha. Csupán a felvehető értékek között keresett egy olyan (új) értéket, amely a résztvevő személyek pontszámát a teljes elemszámmal súlyozva jellemzi. Az egyetlen probléma, hogy az átlagot könnyen torzíthatja egy-egy jelentősebben kiugró érték. Kiugró értékek azok az adatok, melyek jócskán a normál tartományon kívül esnek. Az előbbi példánál maradva: Ha a kutatásunkban csupán 5, a matematikában kiugróan tehetséges ember vett volna részt, és mindenki más 60 pontot ért volna el, akkor annak az 5 főnek a 100 pontos eredménye is képes lett volna az átlag eltolására.

Tehát, ha olyan adatsor átlagát szeretnénk vizsgálni, mely ilyen kiugró értékeket tartalmaz, érdemes megfontolni egy másik középérték alkalmazását. Az átlagot leginkább a minél változatosabb adathalmazok esetében érdemes választani, az átlagszámításra legalkalmasabb adatok pedig azok, melyek a normáleloszlást követik.




Medián


A medián "n" darab sorbarendezhető szám középső értéke. A mediántól jobbra és balra is ugyanannyi számot találunk. Alkalmazhatósági köre tehát a legalább ordinális mérési szintű változóknál kezdődik. Ahol az átlag nem ad kellőképpen reprezentatív eredményt vagy a mérési szintjéből adódóan nem is értelmezhető, érdemes lehet mediánt alkalmazni. A medián az átlaghoz viszonyítva kevésbé érzékeny a kiugró értékekre, ezért, ha az adatsorunk ezt indokolja, és a kiugró elemet nincs lehetőségünk kivenni, érdemes a mediánt alapul venni. A medián számításakor az adatokat először növekvő sorba rendezzük. Érdemes még egyszer megjegyezni, hogy ehhez az értékeknek sorbarendezhetőknek kell lenniük.

Nézzük: Ha 20-an értek el 60 pontot, 10-en pedig 100-at, akkor az adatokat sorba rendezve ezt láthatjuk: 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, Az adatsorban jelenleg 30 fő található. A medián az adatsor középső eleme, melytől jobbra és balra ugyanannyi számú (fele-fele) arányú elem található, amely kisebb, illetve nagyobb. Páratlan elemszám esetén tehát könnyedén megadható, mi a középső elem. Páros elemszám esetén pedig a két középső elem számtani közepét (átlagát) vesszük. A medián ebben az esetben 60 pont. Ha visszaemlékezünk arra, amikor az átlagszámítás esetén használtuk ugyanezeket az adatokat, emlékezhetünk, hogy akkor olyan értéket kaptunk eredményként, mely nem is szerepelt az egyes személyek által elért pontszámok között. Ebben az esetben viszont a medián olyan értéket vesz fel, amely a minta nagyobb részének, vagyis 20 főnek az eredményéről pontos leírást ad.




Módusz


A módusz legalább nominális változókon értelmezhető és a leggyakrabban előforduló értéket mutatja meg a vizsgált adatsorban. Egy adathalmazon belül több „leggyakoribb” érték is előfordulhat, ilyenkor több móduszunk is lesz. Ha például egy osztályban 10-10-10 fő lenne 160, 175 és 190 centiméter magas, három móduszunk lenne. Ezt multimodális módusznak nevezzük. Amikor egy érték szerepel a leggyakrabban, akkor egy móduszunk lesz, melyet unimodális módusznak nevezünk.





Táblázat: Skálatípusok és mérési szintek

Az alábbi táblázat megmutatja, hogy az egyes mérési skálákra milyen középértékeket érdemes és kell alkalmazni. A belátást megkönnyíti, ha magabiztosan ismerjük mind az átlag, a módusz és a medián fogalmát. Általánosan elmondható, minél "magasabb" a mérési szint, annál több középértéket használhatunk.

Financial Chart

Milyen középérték mutatókat használhatok adott mérési szint esetén? Mit mutathat ezzel szemben a gyakorlat?

A metrikus mérési szintű változók esetében mind az átlag, medián és módusz egyszerre alkalmazható (lásd a táblázatban fentebb). Azonban a metrikus adatsor jellegéből adódóan is hozhatunk döntést, melyiket használjuk a gyakorlatban. 

Amennyiben az adatsorunk változatos, nincsenek klaszter jellegű csoportosulások az adatokban, sem egy nagyon gyakori érték, érdemes használnunk az átlagot. 

Amennyiben az adatsorunk néhány lehetséges érték közül vesz fel egyet, nem változatos és nincs egy kifejezetten gyakori értéke, alkalmazzuk a mediánt.

Amennyiben az adatsorunk néhány vagy nagyon kevés értéket vesz fel, nem változatos, használjuk a móduszt vagyis a leggyakrabban előforduló értéket. 

 

SZÓRÓDÁSI MUTATÓK ÉS TERJEDELEM

A szóródási mutatók azt mérik, hogy az adott értékek mennyire koncentrálódnak a középérték körül, az ingadozás mértékét fejezik ki egy számmal. 


A terjedelem a legnagyobb és legkisebb elem közti különbséget írja le. Ennek a mutatónak csak olyan skálák esetében van értelme, ahol az elemek (legalább) sorrendbe állíthatók, nagyságuk pedig megállapítható. Ilyenek a metrikus skálák.

Átlag


Az átlag vagy más néven számtani közép „n” darab szám összegének „n”-ed része. Alkalmazása metrikus, azaz intervallum-és arányskálákon értelmezhető. Az átlag használata akkor célravezető, ha az adathalmaz nem tartalmaz kiugró értékeket, ugyanis ezek torzíthatják a kapott eredményt. Ilyen esetben célszerűbb mediánt használni. Példaként képzeljünk el egy olyan kutatást, ahol a minta egy részét a matematikában szélsőségesen tehetséges emberek teszik ki, míg a minta másik felére az jellemző, hogy nehézségeik vannak a számolásban. Tegyük fel, hogy azok, akik tehetségesebbek, egy általunk megválasztott matematikai teszten mindannyian 100 pontot érnek el, míg az ügyetlenebbek mindannyian 60 pontot szereznek. Ha a rendkívül tehetségek csoportjába 10, az ügyetlenebbek közé pedig 20 főt sorolhatunk, akkor a teljes minta a teszten elért átlagpontszámát a következőképpen számolhatjuk ki: Átlag = [(10x100)+(20x60)]/30 = 73,3 Az átlagos pontszám ekkor 73,3 lenne, ami sem a tehetségeseket, sem az ügyetlenebbeket nem írná le megfelelően. Ennek oka a nem megfelelő eloszlás, ugyanis az átlag a vizsgált elemek közötti (nagy) különbségeket igyekszik kiegyensúlyozni és ezáltal egy olyan értéket megadni, amely az adott tulajdonság tekintetében a mintánk „elvi középpontján” helyezkedik el. Ha a minta tagjai által elért pontszámokat ábrázolnánk egy görbén, akkor azt látnánk, hogy csak 100 és 60 pontál jelenik meg csúcsosodás, az átlaggal megegyező, vagy ahhoz közelítő érték viszont egyáltalán nem fordult elő.
Tévedett volna az átlag? Aligha. Csupán a felvehető értékek között keresett egy olyan (új) értéket, amely a résztvevő személyek pontszámát a teljes elemszámmal súlyozva jellemzi. Az egyetlen probléma, hogy az átlagot könnyen torzíthatja egy-egy jelentősebben kiugró érték. Kiugró értékek azok az adatok, melyek jócskán a normál tartományon kívül esnek. Az előbbi példánál maradva: Ha a kutatásunkban csupán 5, a matematikában kiugróan tehetséges ember vett volna részt, és mindenki más 60 pontot ért volna el, akkor annak az 5 főnek a 100 pontos eredménye is képes lett volna az átlag eltolására.

Tehát, ha olyan adatsor átlagát szeretnénk vizsgálni, mely ilyen kiugró értékeket tartalmaz, érdemes megfontolni egy másik középérték alkalmazását. Az átlagot leginkább a minél változatosabb adathalmazok esetében érdemes választani, az átlagszámításra legalkalmasabb adatok pedig azok, melyek a normáleloszlást követik.




Medián


A medián "n" darab sorbarendezhető szám középső értéke. A mediántól jobbra és balra is ugyanannyi számot találunk. Alkalmazhatósági köre tehát a legalább ordinális mérési szintű változóknál kezdődik. Ahol az átlag nem ad kellőképpen reprezentatív eredményt vagy a mérési szintjéből adódóan nem is értelmezhető, érdemes lehet mediánt alkalmazni. A medián az átlaghoz viszonyítva kevésbé érzékeny a kiugró értékekre, ezért, ha az adatsorunk ezt indokolja, és a kiugró elemet nincs lehetőségünk kivenni, érdemes a mediánt alapul venni. A medián számításakor az adatokat először növekvő sorba rendezzük. Érdemes még egyszer megjegyezni, hogy ehhez az értékeknek sorbarendezhetőknek kell lenniük.

Nézzük: Ha 20-an értek el 60 pontot, 10-en pedig 100-at, akkor az adatokat sorba rendezve ezt láthatjuk: 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, Az adatsorban jelenleg 30 fő található. A medián az adatsor középső eleme, melytől jobbra és balra ugyanannyi számú (fele-fele) arányú elem található, amely kisebb, illetve nagyobb. Páratlan elemszám esetén tehát könnyedén megadható, mi a középső elem. Páros elemszám esetén pedig a két középső elem számtani közepét (átlagát) vesszük. A medián ebben az esetben 60 pont. Ha visszaemlékezünk arra, amikor az átlagszámítás esetén használtuk ugyanezeket az adatokat, emlékezhetünk, hogy akkor olyan értéket kaptunk eredményként, mely nem is szerepelt az egyes személyek által elért pontszámok között. Ebben az esetben viszont a medián olyan értéket vesz fel, amely a minta nagyobb részének, vagyis 20 főnek az eredményéről pontos leírást ad.




Módusz


A módusz legalább nominális változókon értelmezhető és a leggyakrabban előforduló értéket mutatja meg a vizsgált adatsorban. Egy adathalmazon belül több „leggyakoribb” érték is előfordulhat, ilyenkor több móduszunk is lesz. Ha például egy osztályban 10-10-10 fő lenne 160, 175 és 190 centiméter magas, három móduszunk lenne. Ezt multimodális módusznak nevezzük. Amikor egy érték szerepel a leggyakrabban, akkor egy móduszunk lesz, melyet unimodális módusznak nevezünk.





Abacus