Adatok és változók típusai

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Diszkrét változók, folytonos változók, nominális változók, ordinális változók, metrikus változók, intervallum- és arányskálák

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv
 

BEVEZETés

Bármilyen irányból is közelítjük meg a statisztikával kapcsolatos munkánkat, az elemzések előtt meg kell határoznunk azt, hogy milyen adatokkal dolgozunk. A tapasztalat azt mutatja, hogy sok esetben már - ebben - az első lépésben elbukik a statisztikai próbák helyes alkalmazása, ugyanis nem mindegy, hogy milyen statisztikai próbát milyen típusú adatsorral alkalmazunk. Emellett még arról is szólnunk kell, hogy a változó követi-e a normalitást (tehát önmagában paraméteres vagy nem paraméteres), hiszen ez is sok esetben döntő jelentőségű lehet a munkánk szempontjából. Ebben a részben azt próbáljuk bemutatni, hogy a változók  milyen besorolást kaphatnak, illetve azok milyen mérési munkát vonhatnak magukkal.

 

dISZKRÉT ÉS FOLYTONOS VÁLTOZÓK

Mielőtt bármilyen pontosítást tennénk a változók típusát illetően, tekintsük meg a két legnagyobb csoportot, a diszkrét és folytonos változókat. 

Diszkrét változónak tekintünk minden olyan adatot, amely nem vehet fel folytonos (elviekben végtelen sok értéket). Ilyen adatok például a nagyon sok esetben példaként alkalmazott [nemek, hajszín, szemszín (...)] stb. Azért tudjuk könnyen megkülönböztetni a diszkrét változókat a folytonos változóktól, mert jól el is lehet őket határolni. Nem moshatók össze, nincs közöttük átmenet. Gondoljunk például a vércsoportokra! Azok között megkülönböztetünk 0, A, B és AB típusokat. Ezek azért tekintendők diszkrétnek, mert nincs olyan érték, ami éppen az A és a 0 közé esne. Elméletben vélekedhetünk úgy, hogy az A és B között az AB csoport lehet, ám ez téves! Ugyanis itt egy kodomináns öröklődési folyamat miatt nem köztes, hanem egyszerre megjelenő tulajdonságaikkal egy új kategóriát hoznak létre. Visszatérve az adatok értelmezéséhez tehát, jegyezzünk meg mindig annyit: diszkrét változó az, amivel csoportokat tudunk képezni. Természetesen, nem ez az univerzális meghatározása a diszkrét változóinknak, de a gyakorlati alkalmazásában általában azt látjuk, hogy valamilyen csoportosító változóként tudunk rájuk hivatkozni. A teljes mintán pedig ezeknek a csoportoknak/elemeknek gyakorisága/eloszlása van. Továbbá ezek között az értékek között éles a határvonal és bármelyik elemet egyértelműen be tudjuk sorolni vagy az egyik vagy a másik csoportba (a változón belül).

Az itt látható ábrán egy mérési minta (mérési populáció) diszkrét változó által csoportokra bontott diagramját látjuk. A diszkrét változó tehát valamilyen tulajdonságot jelent, amely különböző mértékben/eloszlásban lelhető fel a populációban. Ebben az esetben 4 fő típust és egy egyéb kategóriát látunk. A gyakorlatban az is elmondható, hogy ha új elemet szeretnénk beilleszteni, akkor valamelyik kategóriába be tudjuk majd sorolni, hiszen nem folytonos, hanem konkrét (diszkrét) határokkal bírnak a csoportok. Az eloszlás pedig attól függ, hogy a teljes populációhoz mérten az egyes csoportokban hány elem található (százalékos formában, ezt 100-al szorozzuk). 

A folytonos változók a diszkrét változókkal szemben nem jellemezhetők egyértelmű határokkal. Az értékek között elméletben végtelen sok érték lehetséges, a gyakorlati alkalmazás viszont azt kívánja meg, hogy az elmélettől elszakadva még valamilyen értelmezhető és az emberi felfogás számára is megfelelő formában használjuk őket. A folytonos változók a leginkább alkalmasak arra, hogy a klasszikus statisztikai számításokat elvégezzük rajtuk (pl.: átlag, módusz, medián stb.) és a tudományos világban kialakult klasszikus mérési stílusoknak és paradigmáknak is a leginkább megfelelő tulajdonságokkal rendelkeznek. A folytonos változók közé sorolhatjuk a tesztpontszámok értékét, amennyiben azok nem ordinális jellegűek (lásd a következő fejezeteket!), illetve a reakcióidős feladatokat, valamint az olyan leíró jellegű adatsorokat, mint a magasság, tömeg, életkor stb. mérésére használt mértékegységek. 

 

Az alábbi ábra egy jó példa a folytonos változók vizuális bemutatásra. Látjuk, hogy az idősoron (hónapok) feltüntetett értékek egy-egy havi eladási mennyiséges jelölnek. Mivel ezek a mennyiségek egy 0 és 4000 egység közössi skálán gyakorlatilag bármilyen értéket felvehetnek, folytonosnak tekintjük. Látszik, hogy a havi egységeket egy folytonos vonallal össze is lehet kötni, így az méginkább alkalmas arra, hogy elképzeljük az éves változást. 

 

Skálatípusok

Az általunk megfigyelt jelenségeket először mérhetővé, illetve statisztikai módszerekkel elemezhetővé kell tennünk. A számszerűsített adatok (változók) esetében különböző mérési szinteket különböztethetünk meg, amely a későbbiekben hatással lesz arra, hogy mely statisztikai módszereket alkalmazhatjuk adatainkon. Az előzőekben áttekintettük, hogy a változóknak mely két nagy csoportját (diszkrét és folytonos) különböztetjük meg. Most tekintsünk megy részletesebb, háromosztatú leírást, amely a változókat nominális (diszkrét), ordinális (általában diszkrét) és metrikus (folytonos) skálákon értelmezi.

Fontos ismeretanyag!

A háromosztatú felbontás gyakorlati jelentőségű is! Ennek segítségével könnyebb megtalálni a számunkra szükséges statisztikai próbát, emellett például az SPSS programcsomag a változók beállításakor ezt a három lehetőséget teszi lehetővé.

Nominális változók


A nominális változók valamilyen névleges értéket adnak meg, melyek nem rendezhetők sorrendbe, hiszen egymástól minőségükben különböznek. Ez a gyakorlatban azt jelenti, hogy a változó egyes kategóriái között nem tudunk mennyiségi különbséget tenni, nem tudjuk azt mondani, hogy az egyik kategóriát azért jelöltük egyessel, mert a kettes többet ér, esetleg mert a kettes másodrangú, tehát a kategóriák számokkal való jelölése önkényes. A nem (férfi, nő) egy ilyen mérési szintű változó, de ide sorolhatjuk az igen/nem típusú kérdéseket, valamint például azt, hogy ki milyen szakon tanul. Az olyan nominális változókat, melyek összesen két értéket vesznek fel (pl.: nem), dichotóm változóknak nevezzük. Ha elemezni szeretnénk őket, akkor a legcélszerűbb az, ha a változók százalékos megoszlását vagy éppen a leggyakrabban előforduló értéket (móduszt) vizsgáljuk. Azért használjuk ezt a két mutatót, mert az adatok egymáshoz viszonyított számszerűsített aránya az, ami számunkra információval szolgálhat a nominális változók esetén. Példa: nő vagy férfi? Kategóriába sorolható, de nem átlagolható érték




Ordinális változók


Az ordinális változók értékei annyival több információt hordoznak a nominális változókhoz viszonyítva, hogy meghatározott sorba lehet rendezni őket. A kategóriák között nincs pontosan meghatározható mértékű különbség, ugyanis az eltérés a minőségben és annak fokában van. Ennek a minőségbeli különbségnek azonban nem tudunk egyforma, egységes távot adni, azaz lehet, hogy az egyes kategóriák más-más mértékben különböznek egymástól. Ez a gyakorlatban azt jelenti, hogy a kategóriákat jelölő számok pl.: végzettség esetén nem árulkodnak az érettségivel és egyetemi diplomával rendelkezők tudásának mértéke közötti különbségről, de jeleznek egyfajta sorrendiséget, ebben az esetben tehát az egyetemi diplomát az érettséginél nagyobb számmal érdemes jelölnünk. Kutatásaink során az iskolai végzettség mellett ordinális változók lehetnek még pl.: a jövedelemszintre vonatkozó adatok, vagy bizonyos esetben a Likert-skálák is. Ez utóbbi lényege, hogy a résztvevőknek egy n darab számból álló skálán való besorolással kell dönteni adott kérdésekben, például, hogy 1 és 5 között mennyire vagyunk elégedettek az alábbi magyarázattal (ahol egy az egyáltalán nem, öt a teljes mértékben). A Likert-skálával kapcsolatban fontos megjegyezni, hogy nincs egyértelmű szokás arra vonatkozóan, hogy milyen mérési szintű változóként kezeljük: Bár jellegéből adódóan inkább ordinális skálának számít, a legtöbb esetben metrikusként kezelik. Az ordinális változók esetén érdemes megkeresnünk a középső értéket, a mediánt, és ezt alkalmazni a statisztikai elemzések során. Példa: Az iskolai szint vagy a kategóriákra osztott jövedelmi szint ordinális változók. Egymás követik meghatározott sorrendben, de a kategóriák közötti különbség nem mindenhol egyértelmű.




Metrikus változók


A metrikus változókon lehetőségünk nyílik matematikai műveletek elvégzésére. Azok az adattípusok tartoznak ide, amelyek első ránézésre is egyértelműen számszerű mérési adatoknak tűnnek: A metrikus változók esetében az egyes értékek közötti távolság rendszerint egyenlő, mértéke nem változik. Ilyen például a testmagasság vagy a reakcióidő (ezek esetében árulkodó lehet, hogy állandó mértékegységgel rendelkező értékek).
A metrikus változókat további két típusba sorolhatjuk, ezek az intervallum- és arányskálák. A fő különbség közöttük az, hogy az intervallumskáláknak nincs olyan nulla pontja, melyet természetesen tudnánk értelmezni.

Ez azt jelenti, hogy a skálája nem ér véget/vagy kezdődik a nulla értékkel. Intervallumskála lehet például a Celsius-fok, hiszen értelmezhetjük a negatív tartományokban is.

Ezzel szemben az arányskála rendelkezik természetes nulla ponttal. Azaz a skála nulla pontja rögzített, azzal kezdődik vagyér véget. Például a magasság vagy a kg nem lép a 0 centiméter/kilogramm alá. Mindkét típusra alkalmazhatjuk az átlagot és a szórást, a későbbiekben pedig arra is kitérünk, hogy ezek a mutatók milyen tulajdonságokkal – erősségekkel és problémákkal – rendelkeznek.
Példa: a magasság centiméterben (vagy más mérőszámban) megadott értéke metrikus változó, hiszen az egységek közötti különbség mindig ugyanannyi. Az adatokkal már egyszerűbb matematikai műveletek is végezhetők.





tablazat.PNG
 

EGYEDEK ÉS VÁLTOZÓK RENDEZÉSE

Változók, oszlopban

Amikor eljutunk oda, hogy felvettük az adatainkat, a (későbbi) rendezés és adatbevitel miatt fontos újra tisztázni, hogy mi az a változó és mi az, amihez ez a változó tartozik. Általában azt látjuk, hogy a változók egyedekhez tartoznak. Az egyedek többnyire azok az elemek, amelyeken a vizsgálatot elvégezzük. Többnyire emberekről van szó (ha a pszichológiai kísérletekben gondolkodunk), de az etológiai kísérletek állatokkal (ez igaz a legtöbb biológiai, farmakológiai kísérletre is) foglalkoznak, de egyed lehet egy földtani mérés helyszíne is. Az adatrendezés során ezeket az egyedeket sorok jelentik. Ennek az elrendezésnek praktikus okai vannak, ugyanis így a legbiztosabb az, hogy az adatsorunk átlátható és könnyen kezelhető lesz. 

A változók tehát az egyedhez tartozó bármilyen jellemzőt jelentenek. Ezek a jellemzők nagyon különfélék lehetnek, mint ahogy láttuk is a korábbi példáinkban. 

 

data2.png

Egyedek, sorban

Változók, oszlopban