LEÍRÓ STATISZTIKA

Ajánlott könyvek

Andy Field: Discovering Statistics Using SPSS
Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

Letölthető adatfájlok

Standardizált adattábla - Minden statisztikai próbához - EXCEL

Standardizált adattábla - Minden statisztikai próbához - SPSS

Leíró Statisztika - SPSS

Please reload

Bevezető


Amikor statisztikával foglalkozunk, nem elég az egyes statisztikai próbák ismeretére szorítkozni. A módszertani alapfogalmak elsajátításával meghatározhatjuk, milyen mutatókat számolunk ki, vagy hogy milyen módon nyerjük ki eredményeinket az adathalmazunkból. Az alábbiakban bemutatunk néhány ilyen alapvető jelentőségű fogalmat, a legfontosabb középértékeket és szóródási mutatókat. Azok számára, akik már ismerik ezeket a fogalmakat egy táblázatot biztosítunk, mely röviden összegzi, milyen mérési szint szükséges az adott mutató alkalmazásához, valamint, hogy mikor melyiket érdemes alkalmazni. A középértékek és az általános statisztikai mutatók együtt jelentik a leíró statisztikát. 

 

Skálatípusok


Az általunk megfigyelt jelenségeket először mérhetővé, illetve statisztikai módszerekkel elemezhetővé kell tennünk. A számszerűsített adatok (változók) esetében különböző mérési szinteket különböztethetünk meg, amely a későbbiekben hatással lesz arra, hogy mely statisztikai módszereket alkalmazhatjuk adatainkon.

Fontos ismeretanyag!

Nominális változók


A nominális változók valamilyen névleges értéket adnak meg, melyek nem rendezhetők sorrendbe, hiszen egymástól minőségükben különböznek. Ez a gyakorlatban azt jelenti, hogy a változó egyes kategóriái között nem tudunk mennyiségi különbséget tenni, nem tudjuk azt mondani, hogy az egyik kategóriát azért jelöltük egyessel, mert a kettes többet ér, esetleg mert a kettes másodrangú, tehát a kategóriák számokkal való jelölése önkényes. A nem (férfi, nő) egy ilyen mérési szintű változó, de ide sorolhatjuk az igen/nem típusú kérdéseket, valamint például azt, hogy ki milyen szakon tanul. Az olyan nominális változókat, melyek összesen két értéket vesznek fel (pl.: nem), dichotóm változóknak nevezzük. Ha elemezni szeretnénk őket, akkor a legcélszerűbb az, ha a változók százalékos megoszlását vagy éppen a leggyakrabban előforduló értéket (móduszt) vizsgáljuk. Azért használjuk ezt a két mutatót, mert az adatok egymáshoz viszonyított számszerűsített aránya az, ami számunkra információval szolgálhat a nominális változók esetén. Példa: nő vagy férfi? Kategóriába sorolható, de nem átlagolható érték




Ordinális változók


Az ordinális változók értékei annyival több információt hordoznak a nominális változókhoz viszonyítva, hogy meghatározott sorba lehet rendezni őket. A kategóriák között nincs pontosan meghatározható mértékű különbség, ugyanis az eltérés a minőségben és annak fokában van. Ennek a minőségbeli különbségnek azonban nem tudunk egyforma, egységes távot adni, azaz lehet, hogy az egyes kategóriák más-más mértékben különböznek egymástól. Ez a gyakorlatban azt jelenti, hogy a kategóriákat jelölő számok pl.: végzettség esetén nem árulkodnak az érettségivel és egyetemi diplomával rendelkezők tudásának mértéke közötti különbségről, de jeleznek egyfajta sorrendiséget, ebben az esetben tehát az egyetemi diplomát az érettséginél nagyobb számmal érdemes jelölnünk. Kutatásaink során az iskolai végzettség mellett ordinális változók lehetnek még pl.: a jövedelemszintre vonatkozó adatok, vagy bizonyos esetben a Likert-skálák is. Ez utóbbi lényege, hogy a résztvevőknek egy n darab számból álló skálán való besorolással kell dönteni adott kérdésekben, például, hogy 1 és 5 között mennyire vagyunk elégedettek az alábbi magyarázattal (ahol egy az egyáltalán nem, öt a teljes mértékben). A Likert-skálával kapcsolatban fontos megjegyezni, hogy nincs egyértelmű szokás arra vonatkozóan, hogy milyen mérési szintű változóként kezeljük: Bár jellegéből adódóan inkább ordinális skálának számít, a legtöbb esetben metrikusként kezelik. Az ordinális változók esetén érdemes megkeresnünk a középső értéket, a mediánt, és ezt alkalmazni a statisztikai elemzések során. Példa: Az iskolai szint vagy a kategóriákra osztott jövedelmi szint ordinális változók. Egymás követik meghatározott sorrendben, de a kategóriák közötti különbség nem mindenhol egyértelmű.




Metrikus változók


A metrikus változókon lehetőségünk nyílik matematikai műveletek elvégzésére. Azok az adattípusok tartoznak ide, amelyek első ránézésre is egyértelműen számszerű mérési adatoknak tűnnek: A metrikus változók esetében az egyes értékek közötti távolság rendszerint egyenlő, mértéke nem változik. Ilyen például a testmagasság vagy a reakcióidő (ezek esetében árulkodó lehet, hogy állandó mértékegységgel rendelkező értékek).
A metrikus változókat további két típusba sorolhatjuk, ezek az intervallum- és arányskálák. A fő különbség közöttük az, hogy az intervallumskáláknak nincs olyan nulla pontja, melyet természetesen tudnánk értelmezni. Hogy mit is jelent ez? Intervallumskála lehet például a Celsius-fok, hiszen értelmezhetjük a negatív tartományokban is. Ezzel szemben az arányskála rendelkezik természetes nulla ponttal. Például a magasság – bár elképzelni talán el tudjuk-, mégsem lép a 0 centiméter alá. Mindkét típusra alkalmazhatjuk az átlagot és a szórást, a későbbiekben pedig arra is kitérünk, hogy ezek a mutatók milyen tulajdonságokkal – erősségekkel és problémákkal – rendelkeznek.
Példa: a magasság centiméterben (vagy más mérőszámban) megadott értéke metrikus változó, hiszen az egységek közötti különbség mindig ugyanannyi. Az adatokkal már egyszerűbb matematikai műveletek is végezhetők.





 

A változók jellemzése és bemutatása grafikusan

A dolgozatok és tudományos jellegű munkák egyik "alapkelléke" az adatainkat jellemző grafikon, grafikonok. Ennek célja az, hogy a lehető leghahatékonyabb módon mutassa be az adatsorainkat, továbbá a megértést és a lényeg kiemelését is könnyebbé teszi. Azonban a különböző adattípusok eltérő ábrázolási módot kívánnak meg. A korábban már bemutatott diszkrét (azaz kategorikus) változók másképp kerülnek prezentálásra, mint a folytonos változók. További lehetőséget és pontosítást láthatunk akkor, ha az adatainkat nominális, ordinális és metrikus mérési szintekre osztva szeretnénk ábrázolni. Ezekre vonatkozóan tekintsünk meg néhány példát:  

Az oszlopdiagramok (bal) és a kördiagramok (jobb) alkalmasak arra, hogy számszerű gyakoriságot vagy százalékos értékeket jelenítsünk meg. A százalékos érték a gyakoriság egy formája, az ún. relatív gyakoriság. Ennek az értéknek a meghatározása a százalékszámítás egyszerű módszerével történik, vagyis az adott értékrészletet elosztjuk a teljes értékkel és a kapott törtet megszorozzuk százzal (100). Az oszlop- és kördiagramok a kategorikus (és nominális) változók esetében használható leginkább, hiszen ezek a változók diszkréten, néhány értéket vehetnek fel, a megjelenítésük ebben a formában könnyű. Képzeljük el egy harminc fős osztály egyéni magasságértékeit oszlopdiagramon vagy kördiagramon ábrázolva. Túlságosan zsúfolt és nehezen értelmezhető lenne az eredmény.

Histogram_with_Distribution_Curve_04.png

A folytonos változók megjelenítésére leginkább alkalmas forma az ún. hisztogram készítése. Ránézésre nagyon hasonlít egy oszlopdiagramra, azonban bizonyos tulajdonságai eltérőek. A leginkább szembetűnő különbség, hogy intervallumokba lehet rendezni a folytonos értékeket és ezekben az intervallumokban jelöljük az "y" tengelyen megjelenő frekvenciát vagyis azt, hogy abban az intervallumban hány darab elemszám található. Egy teljes mérési intervallumban, amely az "x" tengely legelső és legutolsó értéke között mozog, általában meg tudunk állapítani egy átlagot (a képen ezt jelöli a mean, 60,7 értékkel). Az átlag értéke egy képzeletbeli Gauss-görbe (vagy normál görbe) csúcsa. Ha a hisztogramunk követi ezt a formát, akkor az eloszlásunk szimmetrikus (vagy másnéven paraméteres) eloszlású.

 
Schematic-representation-of-basic-types-

A hisztogramok remek lehetőséget adnak a folytonos adatsor gyors becslésére, amely mellett a számszerű statisztikai adatok átgondolása is szükségszerű! Azt is látjuk, hogy amikor a leggyakrabban előforduló érték (medián) és a minta átlaga megegyezik vagy közel azonos, akkor a minta eloszlása a leginkább szimmetrikus és egycsúcsú (a). Olyan eset is előfordulhat, amikor a mintának két módusza van (b), ezt multimodálisnak nevezzük, amely lehet szimmatrikus és kétcsúcsú (b) vagy aszimmetrikus és kétcsúcsú (c). Ha azt tapasztaljuk, hogy a legtöbb érték a skála elején (első felében) található, akkor a hisztogram jobbra ferde (e), ennek ellentéte lehet, ha a hisztogram balra ferde. Ez mit jelent? Az első esetben az értékek javarésze (leggyakrabban előforduló értéke, tehát módusza) az alsó, míg a második esetben a felső adattartományba esik. 

Fontos ismeretanyag!

Középértékek

 

A középértékek az adataink értéknagyságának centrumát fejezik ki, azaz az értékek csoportosulását egyetlen számmal fejezik ki. A módszertani fejezetben is beszéltünk róla, illetve itt is megemlítettük a három különböző változótípust. Ezek közül a középértékek tekintetében más-más mutatókat használunk. Ha megismertük a három változótípust, majd azonosítottuk a középértékeket, akkor megérthetjük, hogy melyik skálatípus miért és melyik középérték kiszámítását vonhatja maga után.

Átlag és négyzetes közép


Az átlag vagy más néven számtani közép „n” darab szám összegének „n”-ed része. Alkalmazása metrikus, azaz intervallum-és arányskálákon értelmezhető. Az átlag használata akkor célravezető, ha az adathalmaz nem tartalmaz kiugró értékeket, ugyanis ezek torzíthatják a kapott eredményt. Ilyen esetben célszerűbb mediánt használni.

Példaként képzeljünk el egy olyan kutatást, ahol a minta egy részét a matematikában szélsőségesen tehetséges emberek teszik ki, míg a minta másik felére az jellemző, hogy nehézségeik vannak a számolásban. Tegyük fel, hogy azok, akik tehetségesebbek, egy általunk megválasztott matematikai teszten mindannyian 100 pontot érnek el, míg az ügyetlenebbek mindannyian 60 pontot szereznek. Ha a rendkívül tehetségek csoportjába 10, az ügyetlenebbek közé pedig 20 főt sorolhatunk, akkor a teljes minta a teszten elért átlagpontszámát a következőképpen számolhatjuk ki:

Átlag = [(10x100)+(20x60)]/30 = 73,3

Az átlagos pontszám ekkor 73,3 lenne, ami sem a tehetségeseket, sem az ügyetlenebbeket nem írná le megfelelően. Ennek oka a nem megfelelő eloszlás, ugyanis az átlag a vizsgált elemek közötti (nagy) különbségeket igyekszik kiegyensúlyozni és ezáltal egy olyan értéket megadni, amely az adott tulajdonság tekintetében a mintánk „elvi középpontján” helyezkedik el. Ha a minta tagjai által elért pontszámokat ábrázolnánk egy görbén, akkor azt látnánk, hogy csak 100 és 60 pontál jelenik meg csúcsosodás, az átlaggal megegyező, vagy ahhoz közelítő érték viszont egyáltalán nem fordult elő.


Tévedett volna az átlag? Aligha. Csupán a felvehető értékek között keresett egy olyan (új) értéket, amely a résztvevő személyek pontszámát a teljes elemszámmal súlyozva jellemzi. Az egyetlen probléma, hogy az átlagot könnyen torzíthatja egy-egy jelentősebben kiugró érték. Kiugró értékek azok az adatok, melyek jócskán a normál tartományon kívül esnek. Az előbbi példánál maradva: Ha a kutatásunkban csupán 5, a matematikában kiugróan tehetséges ember vett volna részt, és mindenki más 60 pontot ért volna el, akkor annak az 5 főnek a 100 pontos eredménye is képes lett volna az átlag eltolására.

Tehát, ha olyan adatsor átlagát szeretnénk vizsgálni, mely ilyen kiugró értékeket tartalmaz, érdemes megfontolni egy másik középérték alkalmazását. Az átlagot leginkább a minél változatosabb adathalmazok esetében érdemes választani, az átlagszámításra legalkalmasabb adatok pedig azok, melyek a normáleloszlást követik. Erről később részletesen is olvashatsz.

Ha kiugró értékekkel találkozunk, az módosíthatja számításaink pontosságát. Szociálökonómiai kimutatásokkal szokás értelmezni egy ország átlagjövedelmét. Ez az adat reprezentálja az adott állam gazdasági erejét és az ott élő polgárok életszínvonalát is. A hivatalos kimutatásokat olvasva sokan mégis elkeserednek, ugyanis a saját fizetésük nem éri el az országos átlagot, míg mások megdöbbennek, hogy vannak emberek, akik ezen megadott szinten – sőt, valójában alatta – képesek élni. Az átlagosnál szegényebbek, illetve gazdagabbak egy társadalmon belül igencsak távol helyezkednek el egymástól. A két csoport tagjai vélhetően különböző szociális hálózattal is rendelkeznek, melynek elemei szintén hasonló meglepettséggel figyelik a kapott adatokat. Hogyan lehetséges mindez? Megeshet, hogy egy országon belül nem kiegyenlítettek a regionális- és gazdasági feltételek, illetve a tőke- és a jövedelemáramlás bizonyos társadalmi rétegekben dinamikusabban és koncentráltabban megy végbe, míg más rétegekben sokkal lassabb és kevésbé koncentrált ugyanez a folyamat. Ez a jelenség a valóságban gyakran előfordul, a világ országainak többsége ebben a státuszban van. Egyes elméletek azt is kifejtik, hogy létezik egy úgynevezett „szupergazdaság” a gazdaság(ok)on belül. A „szupergazdaság” egy olyan elméleti tér, ahol csupán néhány szereplő a jövedelmek legfelső 3%-át birtokolja. Ebben a rétegben a vagyonosodás lehetősége szinte exponenciálisan nő. Azaz ezen a végponton nagyon kevés szereplő osztozik nagyon magas jövedelmek felett. A gazdaság szereplőinek a maradék 97%-a között oszlik el az összes jövedelem fennmaradó hányada. Ezen a jelenségen enyhít némileg az országok lakossága, ugyanis a többnyire milliós lélekszám képes némileg mérsékelni a különbséget.

Az átlaggal és a szórással erősen összefüggő mutató a négyzetes középérték. A négyzetes középértéket képzeljük el úgy, mintha az átlag alapjául szolgáló értékeket négyzetre emelnénk, elosztanánk az elemszámmal, majd a kapott értékből gyököt vonnánk. Általában két kérdés merül fel bennünk ilyenkor: egyrészt miért kell négyzetre emelni ezeket az értékeket, másrészt miért ezt használjuk és miért nem az átlagot? Négyzetre emelnünk azért kell, mert ennek segítségével az esetleges negatív értékek elől is eltűnik a mínusz előjel. A második kérdésre a válasz már nem ennyire kielégítő. Négyzetes középértéket azért számolunk, mert a statisztika ezt kívánja meg számos próbánál. A négyzetes középérték érdekessége, hogy valamivel magasabb értéket mutat, mint a hagyományos átlag.




Medián


A medián "n" darab sorbarendezhető szám középső értéke. A mediántól jobbra és balra is ugyanannyi számot találunk. Alkalmazhatósági köre tehát a legalább ordinális mérési szintű változóknál kezdődik. Ahol az átlag nem ad kellőképpen reprezentatív eredményt vagy a mérési szintjéből adódóan nem is értelmezhető, érdemes lehet mediánt alkalmazni.

A medián az átlaghoz viszonyítva kevésbé érzékeny a kiugró értékekre, ezért, ha az adatsorunk ezt indokolja, és a kiugró elemet nincs lehetőségünk kivenni, érdemes a mediánt alapul venni. A medián számításakor az adatokat először növekvő sorba rendezzük. Érdemes még egyszer megjegyezni, hogy ehhez az értékeknek sorbarendezhetőknek kell lenniük.

Nézzük:

Ha 20-an értek el 60 pontot, 10-en pedig 100-at, akkor az adatokat sorba rendezve ezt láthatjuk:

60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100,

Az adatsorban jelenleg 30 fő található. A medián az adatsor középső eleme, melytől jobbra és balra ugyanannyi számú (fele-fele) arányú elem található, amely kisebb, illetve nagyobb. Páratlan elemszám esetén tehát könnyedén megadható, mi a középső elem. Páros elemszám esetén pedig a két középső elem számtani közepét (átlagát) vesszük.

A medián ebben az esetben 60 pont. Ha visszaemlékezünk arra, amikor az átlagszámítás esetén használtuk ugyanezeket az adatokat, emlékezhetünk, hogy akkor olyan értéket kaptunk eredményként, mely nem is szerepelt az egyes személyek által elért pontszámok között. Ebben az esetben viszont a medián olyan értéket vesz fel, amely a minta nagyobb részének, vagyis 20 főnek az eredményéről pontos leírást ad.




Módusz


A módusz legalább nominális változókon értelmezhető és a leggyakrabban előforduló értéket mutatja meg a vizsgált adatsorban.

Egy adathalmazon belül több „leggyakoribb” érték is előfordulhat, ilyenkor több móduszunk is lesz. Ha például egy osztályban 10 – 10 -10 fő lenne 160, 175 és 190 centiméter magas, három móduszunk lenne. Ezt multimodális módusznak nevezzük. Amikor egy érték szerepel a leggyakrabban, akkor egy móduszunk lesz, melyet unimodális módusznak nevezünk.





Milyen a nők és férfiak aránya a csapatban?

Táblázat: Skálatípusok és mérési szintek

Az alábbi táblázat megmutatja, hogy az egyes mérési skálákra milyen középértékeket érdemes és kell alkalmazni. A belátást megkönnyíti, ha magabiztosan ismerjük mind az átlag, a módusz és a medián fogalmát. Általánosan elmondható, minél "magasabb" a mérési szint, annál több középértéket használhatunk

Szóródási mutatók és terjedelem

A szóródási mutatók azt mérik, hogy az adott értékek mennyire koncentrálódnak a középérték körül, az ingadozás mértékét fejezik ki egy számmal. 


A terjedelem a legnagyobb és legkisebb elem közti különbséget írja le. Ennek a mutatónak csak olyan skálák esetében van értelme, ahol az elemek sorrendbe állíthatók, nagyságuk pedig megállapítható. Ilyenek a metrikus skálák.

Fontos ismeretanyag!

Szórás


A szórás megmutatja, hogy az adatsorunk középértékéhez képest az értékeink várhatóan milyen mértékben térnek el.

A szórás segítségével egy képet kapunk arról, hogy a vizsgált adatok mekkora ingadozást mutatnak. Abban az esetben, ha azt mondjuk, hogy a 3,2-es átlaghoz tartozó szórás értéke 0,8, akkor megállapíthatjuk, hogy a diákok nagy többsége 2,4 és 4 között ért el valamilyen érdemjegyet.

Nézzük meg egy példán keresztül, miről is van szó:

A definíció szerint a szórás az átlagtól való eltérések négyzetes középértéke. Ezt azonban sokkal egyszerűbb megérteni, ha lépésenként vesszük a szórás kiszámítását:

1) Kiszámoljuk az átlagot.
2) Kivonjuk az egyes adatokat az átlagból
3) A kapott különbségeket (mely az átlagtól való eltérés irányától függően lehet pozitív, vagy negatív szám) négyzetre emeljük
4) Kiszámoljuk a kapott számok átlagát
5) Az új átlagból gyököt vonunk

A jegyeink a következők:

4, 1, 3, 3, 3, 2, 5, 5, 5, 1

ezek átlaga a korábbi tudásunk alapján 3,2, melyet a következőképpen számítunk ki:

A következőkben a már kiszámolt átlagból kivonjuk az egyes értékeket. Vagyis az első esetben például 4 - 3,2 = 0,8-at kapunk. Ha ezt minden elemmel elvégezzük az eredmény a következő számsor:

0,8; -2,2; 0,2; 0,2; 0,2; -1,2; 1,8; 1,8; 1,8; -2,2 Ezek a számok két információt hordoznak az átlag és a kiindulási érték kapcsolatáról: annak nagyságát, és irányát is megállapíthatjuk általuk. Az átlagtól való eltérés irányát a szám előjele adja meg. A pozitív eltérés azt jelenti, az eredeti érték nagyobb volt az átlagnál, a negatív eltérés esetén a kiindulási érték az átlagnál kisebb volt. A szórás kiszámításához azonban el kell tüntetnünk ezeket az előjeleket, amit a négyzetre emeléssel oldunk meg. A négyzetre emelés után végül kiszámoljuk az így megkapott értékek átlagát, és ebből gyököt vonunk (hiszen korábban az értékeket négyzetre emeltük, ezt „semlegesítjük ezzel a lépéssel”). A szórás tehát 1,469. Ez a mi esetünkben annyit jelent, hogy 1,731 és 4,669 közötti érdemjegyeket értek el a diákok. Akik ennél alacsonyabb, illetve magasabb osztályzatot szereztek, vagyis ezen a tartományon kívül estek, „kiugró” értéknek számítanak. Mivel a vizsga átlag a közepes érdemjegynek felel meg, így az elégtelen és a jeles osztályzatok is kiugrónak számítanak.




Normál eloszlás


Általában bármely populáció intervallum változók esetén kapott értékei egy érték köré rendeződnek, melytől balra haladva csökkenő, jobbra haladva növekvő tendenciát mutatnak az adatok. Ezzel párhuzamosan a hozzájuk tartozó elemszám (mind a növekvő, mind a csökkenő értékek esetében) fokozatosan is csökken. Amennyiben ezek a változások szimmetrikusak, normál eloszlásról beszélünk.

Egyfajta szabályszerűség jelenik meg a szórás kapcsán a normál eloszlású minták esetében: általában az átlagtól való egy szórásegység, mind jobbra és mind balra hozzávetőleg a teljes minta 68%-át fedi le. Az átlagtól való két szórásegység már a teljes minta 95%-át tartalmazza.

A fenti ábrán egy normál eloszlású görbét láthatunk (Gauss-görbe, vagy harang görbe néven is hallhattok róla). A görbe alakját az „x” és „y” tengelyen felvett értékek befolyásolják. Általánosságban elmondható, hogy az „y” tengely mutatja meg a darabszámát az „x” tengelyen található értékeknek. Amennyiben a magasságot mérjük, az „x” tengely mentén elhelyezkedő magasságtartományok populáción belüli előfordulását az „y” tengelyen ábrázoljuk. A normál görbe közepe az átlagot, a móduszt, és a mediánt egyszerre mutatja meg.

Egy példa:
Sok mendemonda kering Napóleon magasságáról. Képzeljünk el, hogy az ábránk függőleges, „y” tengelyén darabszámokat, míg a vízszintes, „x” tengelyen magasságértékeket jelöltük centiméterben. Napóleon magassága 175 centiméter volt, azonban a testőreit és legjobb katonáit gondosan úgy válogatta össze, hogy azok az állomány legmagasabb emberei legyenek. Így élhet a fejünkben az a kép, hogy Napóleon csak egy hataloméhes „törpe” volt. Egyébként ez az ominózus 175 centiméteres magasság megfelel a korabeli francia átlag viszonyoknak, azaz Napóleon magasságát tekintve teljesen átlagos volt, az intelligenciahányadosa és hatalomvágya viszont az egekben lehetett. Képzeljük el, hogy a franciák esetében a legtöbb ember az átlagnak tekintett 175 centiméter körül van. A fenti ábrán a 0 pont jelenti a mi esetünkben a 175 centimétert. Vegyünk egy hipotetikus szórást, ami a teljes populációra vetítve 9 cm. Mit jelent mindez? Az ábra -1 és 1 közötti szelvényei pont ezt a 9 centimétert jelölnék jobbra és balra is, azaz a populáció nagy része, körülbelül 68%-a 166 és 184 cm közti magasságot venne fel. Ahogy haladunk az átlagtól jobbra és balra, úgy csökkennek az átlagtól eltérő magasságokhoz köthető darabszámok. A gyakorlatban ez annyit jelent, hogy míg nagyjából átlagos magasságú emberből sok van, addig a szélsőségesen alacsony és magas emberek száma az átlagosakénál sokkal alacsonyabb-épp ezért tűnhetnek a nagyon magas vagy alacsony emberek furcsának, szokatlannak. Ha az adott testmagasságokhoz oszlopok formájában rendelnénk az oda tartozó, olyan magasságú embereket, akkor középen tetőzne a magasságot jelölő oszlop, melyet egyre alacsonyabb oszlopok vennének körül, amíg el nem tűnnek a diagram látható tartományából. Ezt az ábrázolási módot nevezzük hisztogramnak. Gondolatban már rá is tudjuk húzni a normál görbét erre a normál eloszlású mintát ábrázoló hisztogramra. Sok esetben (ez inkább szabály, mint kivétel) a minta nem követi teljes mértékben tökéletesen a normál görbét, ám ettől függetlenül még a normalitás határain belül mozoghat. Ha a képzeletbeli görbénk szélein nem megy túl az oszlop magassága, még megfelelünk a normalitás kritériumának. Ezt érdemes megjegyezni, mert a normál eloszlás előfeltétele minden parametrikus próbának. A hisztogramokról még egy fontos információt leolvashatunk: Az az oszlopok területeinek mérete az adott értékintervallum számosságát is jelöli. Azt sem szabad elfelejteni, hogy a hisztogramot csupán jól számszerűsíthető adatokra lehet elkészíteni, az értékek közötti különbségek pedig mindig egyformák, vagyis nem minőségi, hanem mennyiségi különbség tapasztalható köztük. Ezeket az adatsorokat paraméteres adatoknak is nevezzük, hiszen le lehet őket írni egy normál görbével.
A későbbiekben nem biztos, hogy sok alkalmunk lesz olyan adatokat vizsgálni, amelyek normál eloszlásúak. A görbénk két tulajdonság mentén térhet el ettől: a ferdeség és a csúcsosság tekintetében. Amikor az ábránk szimmetrikus, azaz semelyik tényező mentén nem mutat eltérést az eloszlás, akkor beszélhetünk csupán normál eloszlásról. Ilyenkor a ferdeség és a csúcsosság értéke is 0.




Konfidencia intervallum és standard hiba


Számunkra másik érdekes adat a konfidencia intervallum. Legyen adott egy 100 főt számláló, matematikai tesztet írt populáció. Többszöri mérést követően a sikeres vizsgák általános pontaránya 57-63/100 pont között mozgott, 95%-os konfidencia intervallummal. Mit jelent ez? Azt, hogy a mintánkból egy találomra választott diák 95%-os bizonyossággal kerül az 57-63 pontot elért határba. Egy másik csoporton végzett elemzés szerint ugyanez a 95%-os adat jelenik meg 54-66 pontos intervallummal, azaz a vizsgákon általában (jelen esetben 95%-os bizonyossággal) 54-66 közötti pontra teljesítene egy véletlenszerűen kiválasztott diák. Ezzel annyit tudunk mondani, hogy az első esetben 95%-os bizonyosággal fog a vizsgán átjutó diák az 57-63 ponthatárok közé esni, míg a második esetében 95%-os bizonyossággal az 54-66 pont közé. A konfidencia intervallum rendelkezik egy alsó és felső határral (példánkban 57 pont – alsó határ, 63 pont felső határ), az intervallum értéke pedig százalékos arányban fejezi ki az ebbe a spektrumba való tartozás lehetőségét. Ennek megadása azért lehet lényeges a számunkra, mert sosem lehetünk biztosak a sorozatos mérések azonos értékében, így megadunk egy intervallumot, melyen belül az értékeink mozoghatnak. Mind a szignifikanciapróbák, mind a konfidencia intervallum segítségünkre van az előrejelzésben. Az ábrán láthatunk egy normál eloszlású görbét (Gauss-görbe, vagy harang görbe néven is hallhattok róla), illetve a rajta feltüntetett szóródási egységeket is. Láthatjuk, hogy az első szóródásegységen kétszer 34,1 %, azaz megközelítőleg 68% szerepel. A két szórásegység esetében ez már 95%. Általánosságban elmondható, hogy ez a tendencia jellemző a normál görbével leírt populációkra. Természetesen ez nem minden esetben teljesül, a későbbiekben láthatunk olyan görbéket, melyekre ezek a megállapítások nem lehetnek érvényesek. Az átlagtól való eltérés összevetése a szórásegységekkel együttesen a standard hibát is ábrázolhatják. Ebben a klasszikusnak számító esetben egy szórásegységen belül 68%-ot tesz ki a populáció számaránya, két szórásegységen belül pedig már 95%-ot. A standard hiba a szórásegységekre jellemző érték. Jelen esetben azt jelenti, hogy egy találomra kiválasztott egyed 68%-os valószínűséggel fog az első szóródási egységbe, míg 95%-os valószínűséggel már a második szóródási egységbe tartozni. Minél szélesebb a standard hibahatár, annál valószínűbb a csoportba való bekerülés, illetve besorolás lehetősége.




Csúcsosság és ferdeség


A csúcsosság és a ferdeség a normál eloszlástól való eltérést mutatják meg. Az adatok „x” tengelyen történő jobbra, vagy balra tolódását a ferdeség, az „y” tengelyen való hegyesedését vagy ellapulását pedig a csúcsosság adja meg. A két mutató pozitív, nulla, vagy negatív értéket vehet fel. Normál eloszlás esetén mindkét mutató 0, ám ez a valóságban nagyon ritka. Az előtesztelés menüpont alatt leírjuk, milyen értékhatárokon belül fogadhatjuk el ettől az értéktől való deviációt.

A ferdeség A ferdeség az adatok „x” tengelyen történő jobbra, vagy balra tolódását mutatja meg. Amennyiben a teljes tartomány közepénél figyelhető meg az adatok csoportosulása, a ferdeség 0 lesz. Minél távolabb haladunk ettől a ponttól, annál nagyobb lesz a ferdeség mértéke, és az ezt kifejező érték. Az eltérés két irányban történhet. Ha az eltolódás a tartomány közepétől balra figyelhető meg, azaz több olyan adatunk van, mely a középponttól alacsonyabb értéket vesz fel, pozitív ferdeséget tapasztalunk. Ilyenkor a módusz értéke a legkisebb, a medián értéke ettől valamivel magasabb, az átlag pedig a legmagasabb értékünk lesz. A negatív ferdeség akkor fordul elő, ha a tartomány közepétől jobbra helyezkedik el az adataink többsége. Ilyenkor az átlag értéke a legkisebb, ettől magasabb a medián, és a módusz értéke a legmagasabb lesz.
A csúcsosság A csúcsosság az „y” tengelyen történő normál eloszlástól való eltérést fejezi ki. Ha túl sok olyan adatunk van, melyek ugyanabba a tartományba esnek, a csúcsosság magasabb fokú lesz, vagyis az értéke nagyobb lesz, mint 0 (ami a normál eloszlás csúcsosságát jelentené). Ezt leptokurtikus görbének nevezzük. Az alacsonyabb fokú csúcsosságot, tehát, mikor sok tartományban oszlanak el hasonló mértékben az adatok, és a görbénk inkább laposnak mondható, platykurtikus görbének nevezzük. A normál eloszláskor tapasztalható csúcsosság neve mezokurtikus.

Az alábbi ábrán a felső sorban láthatók:

A) normál eloszláshoz tartozó ferdeségű görbe

B) pozitív ferdeségű görbe

C) negatív ferdeségű görbe.
Az alsó sorban

D) A normál görbénél (vékonyabb vonal) csúcsosabb, leptokurtikus görbe E) a normál görbénél (vékonyabb vonal) laposabb, platykurtikus görbe.




Példák SPSS-ben


Az átlag, módusz, medián, szórás, normálgörbe és hisztogram egyaránt elérhető az Analyze>Descriptive Statistics>Frequencies fül alatt A variables oldalra húzva a változóinkat, lekérhetjük a számunkra szükséges adatokat. Az átlag, módusz, medián, szórás, csúcsosság, ferdeség, kvartilisek a „Statistics” gomb alatt érhető el, míg a hisztogramot normálgörbével a „Charts” menüpontban találjuk. A „Statistics” menüpont A „Chart” menüpont, ahol nem csak hisztogramot, de torta- és oszlopdiagramot is kérhetünk. A futtatást követően a kapott értékek alapján már vonhatunk le kezdetleges következtetéseke. Melyeket a hisztogramok grafikusan ábrázolnak.




Példák R-ben


Ez a menüpont még üres, látogass vissza később!