Image by William Iven

MELYIK A LEGMEGFELELŐBB ADATVIZUALIZÁCIÓS TECHNIKA?

Ha statisztikai eredményeket szeretnénk közölni, szinte biztos, hogy szükségünk lesz, valamilyen grafikus megjelenítési módra ahhoz, hogy könnyen érthető és gyorsan átlátható legyen az eredményünk. Mivel az ember elsődleges ingermodalitása a vizuális természetű, ki kell használnunk ezt a lehetőséget. Egyes szakcikkek nem teszik kötelezővé, mások viszont kifejezetten előírják az adatok vizualizációját. Ugyanakkor leginkább a prezentálás folyamatában használjuk a grafikonokat. Bármelyikről is legyen szó, a legfontosabb szabály a helyes használat és a könnyű értelmezhetőség. A legtöbb esetben sajnos helytelenül használjuk a grafikonokat, melyből következik, hogy az értelmezhetősége sem lesz könnyű. Mielőtt megmutatnánk, hogy milyen típusú grafikonokat készíthettek, tekintsünk meg három alapszabályt: 

1. A diszkrét változókat nem lehet olyan grafikonokkal ábrázolni, amelyben az értékeknek folytonosnak kell lennie. Például: hisztogramok. Használjunk inkább kördiagramokat, amely a diszkrét változók megoszlását jól szemléltetik.

2. Az ordinális változókat célszerű oszlopdiagramokkal ábrázolni, ugyanis a különböző - általában egymást követő - kategóriák  számosságát ezzel jól tudjuk ábrázolni.

 

3. A folytonos változókat hisztogramokkal érdemes ábrázolni, ugyanis a hisztogramok egy "oszlopa" az adott érték számosságát (gyakoriságát) mutatja. 

 

 

 HOGYAN JELENÍTSÜNK MEG ADATOKAT? 

Mit szeretnénk megjeleníteni?

diagramvalasztasi_javaslatok-1.png

ADATSOROK ÖSSZEHASONLÍTÁSA ELEMEK KÖZÖTT

A grafikus kimutatások egyik legalapvetőbb módja, ha az egyes elemeket összehasonlítjuk. Általában, ezek az elemek valójában megfigyelt esetek vagy esetcsoportok. A diagramok segítségével nagyon szemléletesen bemutathatóak például az elemekhez tartozó, vizsgált változók. Ebben az esetben megkülönböztetjük azt, hogy az elemnek egy változója vagy két változója van. Egy változó esetén néhány elemtől, egészen sok elemig vagy több kategóriában is megjeleníthetünk adatokat. Amennyiben egy elemnek két változója van, akkor ott az "x" és "y" tengely mentén jellemezhetjük a változókat (azaz két változót). 

 

Változó szélességű oszlopdiagram

variable-width-06.png

Változó szélességű oszlopdiagramot használunk akkor, amikor az egyes eseteinknek két tulajdonságát szeretnénk szemléltetni. Ezek a tulajdonságok egy koordinátarendszer "x" és "y" tengelyén ábrázolhatók. Rendszerint eloszlást mutatnak be, amely esetében az "x" tengely mutatja az adott elem számosságát a teljes esetszámhoz viszonyítva, míg az "y' tengely ennek a százalékos arányát fejezi ki. Láthatjuk, hogy minél nagyobb egy téglalap területe a diagramon belül, annál nagyobb hányaddal jelenik meg a szummázott adatsorban.

Pl: Meg akarjuk mutatni, hogy a teljes éves termelékenységhez melyik hónap milyen hányadban járult hozzá. 

A mellékelt ábrán jól látható, hogy a változó szélességű oszlopdiagram "x" tengelyén az adott elem számossága, míg az "y" tengelyen annak megoszlása látható. Vagyis például az 'A' eset elemszáma: 82 és ez a teljes minta 35%-át teszi ki. Forrás: www.dundas.com

Táblázatba illesztett diagramok

 
tabel.png

A táblázatba illesztett diagramok, vagy táblázatos elrendezésű diagramok egy bizonyos diagramtípusból készített "montázsként" értelmezhetők. Célja, hogy az azonos adatvizualizációs technikával készült diagramokat egymás mellett mutassa meg. Ez jól szemlélteti az egyes eltéréseket. Akkor használható, ha az eseteknek egy változóját szeretnénk megjeleníteni. 

Sávdiagram és oszlopdiagram

 

A két legismertebb diagramtípus. Ebben az esetben az egyes elemek számosságát lehet összehasonlítóan ábrázolni. Célszerűbb a sávdiagramot akkor használni, amikor sok esetünk van. Néhány eset tekintetében megfelelő választás a klasszikus oszlopdiagram. Utóbbit néhány eset számosságára vagy ordinális adatsorok rangsorértékeinek megjelenítésére használhatjuk.

excel-suli-3_screenshot_20110714114633_o
Personal_pronouns2.jpg

ADATSOROK IDŐBENI VÁLTOZÁSÁNAK ÖSSZEHASONLÍTÁSA

Egyes tényezők tulajdonságait, azok időbeli változásával lehet a leginkább jellemezni. Az ilyen típusú kutatásokba tartoznak a hosszmetszeti kutatások vagy a hosszú ideig tartó, ún. longitudinális kutatások is. Az adatok kinyerését úgy végezzük, hogy időben előrehaladva többször is mintát veszünk. Különbséget teszünk a grafikus megjelenítésben akkor, ha sok időszak (vagy egy időben történő sok mérés) vagy csak néhány időszak (egy időben történő néhány mérés) adatait vetjük össze.

Sugárdiagram

 

A sugárdiagram használatát akkor érdemes megfontolni, amikor több, egymást követő mérést végzünk és az adataink mindig újra és újra ugyanabból az értékből indulnak ki, vagyis minden mérés logikájában független az előzőtől. Fontos, hogy a méréseknek azonos karakterűeknek kell lennie, tehát a mérési skálázásának terjedelme hasonló beosztást kell kapjon és ugyanahhoz a kezdőponthoz legyenek hasonlítva. A sugárdiagram középpontja mutatja ezt a kezdőpontot. Egyszerre párhuzamosan több elemet is meg lehet vele jeleníteni, a könnyebb összehasonlítás miatt.

affee6b3-c3db-47c1-8a0e-fc621e90fa90.jpg

A példában láthatjuk, hogy a kertészet milyen egységnyi mennyiséget (db) értékesített. A kiindulópont mindig a sugárdiagram középpontja (0 érték). Azt is könnyedén leolvashatjuk, hogy az egyes termékek mely hónapban fogynak. Az elemekhez tartozó terület mutatja az eladások "nagyságát". 

 

Vonaldiagramok

A vonaldiagramok szintén kedvelt diagramtípus. Segítségükkel olyan mérési eseményeket jeleníthetünk meg, amelynek lényeges az időbeli haladása és változása közötti folyamatos kapcsolat. A vonaldiagramok leginkább azt is feltételezik, hogy az elemek értékkészlete nem vesz fel (gyakran) egy-egy azonos kiindulási értéket, a sugárdiagramokkal szemben. Általában az "x" tengely jelöli az időben való előrehaladást, míg az "y" tengely az értékeket mutatja. A vonaldiagramot akkor is lehet használni, ha több elemünk van és azokat ugyanazon változó mentén szeretnénk összehasonlítani. 

line-chart.png
1_3L_OB5rwF7af1EpvR5kQIQ.png

Forrás: www.excel-easy.com

Sávdiagram és oszlopdiagram

 

Az oszlop és sávdiagramokat az időbeli változások bemutatására is használhatjuk. Amire figyelnünk kell, hogy az "x" tengely mindig a változás időbeliségét jelölje. 

excel-suli-3_screenshot_20110714114633_o
Personal_pronouns2.jpg

ÉRTÉKEK ELOSZLÁSÁNAK ÁBRÁZOLÁSA

Az eloszlás megjelenítése általában két célt szolgál. Egyrészt, azt a valószínűséget mutatja meg a mintánkon, amely mellett bizonyos értékek megjelenhetnek az adatsor típusától függően. A mintán kapott eloszlásból szintén valószínűségi becsléssel következtethetünk a teljes populáció eloszlására is. Továbbá, a vizualizáció segítségével meghatározhatjuk azt, hogy milyen lehet a minta összetétele. Ez lehet például a normál görbétől való szignifikáns eltérés detektálása. Általánosan követhető szabály, hogy az ordinális adatsorok vagy kevés értéket tartalmazó metrikus adatsorok eloszlását oszlopdiagrammal (oszlophisztogrammal), míg a metrikus adatsorok vagy sok értéket tartalmazó metrikus adatsor eloszlását klasszikus hisztogrammal (vonalhisztogrammal) ábrázolhatjuk. Két változó esetén pontdiagramot használhatunk, mely esetében az "x" tengely az egyik, míg az "y" tengely a másik változó és az értékek metszéspontjára helyezi az egyedet. Három változó esetén hasonlóképpen járunk el, csak ott egy "z" változó tovább árnyalhatja a képet, az adatmegjelenítés pedig háromdimenzióssá válik.

Hisztogramok

 

A hisztogramok az eloszlások megjelenítésére alkalmas diagramok. Segítségükkel meghatározhatjuk az egyes értékekhez rendelhető elemszámot. Ennek értelmében, az "x" tengelyen ábrázoljuk az adatsort, ahol az értékek rendszerint jól elhatárolt és egyforma "távolsággal" ábrázolt számok. Például, vegyünk az "x" tengelyen centiméterben megadott magasságértékeket 100 és 200 között. Az "y" tengely pedig ábrázolja a bizonyos magasságokhoz tartozó elemszámokat. Ha ezeket jelöltük és a pontokat egy képzeletbeli (vagy valós) vonallal összekötjük, akkor megkapjuk a magasságértékek vonalhisztogramját. Azt is megtehetjük, hogy egyes értékeket vagy értékközöket ábrázolunk egy oszloppal. Ekko a magasságértékek oszlopdiagramját kapjuk meg.  

Cpk_exp_distribution.png
leíró SPSS6..png
 

Kétdimenziós és háromdimenziós pontdiagramok

A mintában található egyedeknek/eseteknek nem csak egy, hanem kettő vagy három változóját is meg tudjuk jeleníteni egyidejűleg. Ez azért célszerű a gyakorlatban, mert a mintáról szerezhető információt tovább árnyalja. Képzeljük el a gyakorlatban, hogy ismerjük egy osztály magasságértékeit centiméterben 100 és 200 között. Egy normál histogram esetében megkapjuk az adott magasságértékhez tartozó darabszámot és megállapítjuk, hogy milyen a minta eloszlása. Megnézve azonban a valóságban az osztályt, felfigyelünk egy nagyon érdekes tényezőre. Azt láthatjuk, hogy az osztálynak körülbelül fele nagyon vékony, míg a másik fele nagyon kövér. Ez a megismerés szempontjából lényeges tényező. A magasságok és tömegek együttes ábrzásolására emiatt használhatunk pontdiagramot, ahol az egyik tengelyen a magasságértékek, míg a másik tengelyen a tömegértékek (kg) kerülnek ábrázolásra. Az egyedekhez tartozó két egyéni érték az a pont, ahol a tömeg és a magasságértékek metszéspontja található. A pontdiagramon most már azt látjuk, hogy a pontok jelentősen kettéválnak a tömeg tekintetében. A minta egyik része a pontiagram bal alsó (vékonyak), míg a másik része a jobb felső (kövérek) részére kerül.

A háromdimenziós pontdiagramok (területdiagramok) a hagyományos pontdiagramok logikájára épül. Azonban itt már egy harmadik tengelyen ábrázolva, az adatokat vetület formájában látjuk.   

Háromdimenziós (terület) diagram

Synthetic_data_2D_histograms.png

Kétdimenziós pontdiagram

ÉRTÉKEK ÖSSZETÉTELÉNEK ÁBRÁZOLÁSA

A mintánk rendszerint különböző, mégis egymással összefüggésbe hozható eseményeket/egyedeket tartalmazhat. Vegyük a nominális adatsorok példáját: néhány kategóriát vagy csoportot megjelenítő tulajdonságokról hordoznak információt. Ilyenek lehetnek a nemek vagy a hajszín és szemszín, az emberek esetében. De nominális kategória, hogy sós vagy édes péksütemények eladási statisztikájáról csinálunk összehasonlítást. Az összetétel tehát állhat egy kornkét időpontra vetített adatokból. Az összetétel azonban változhat az idő előrehaladtával, ezért egyes kategóriák vagy csoportok számossága, teljesítménye stb. nőhet vagy csökkenhet. 

Keresztmetszeti összetétel

 

A keresztmetszeti összetételben meghatározunk az idővonalon egy kitüntetett időpontot vagy egy időszakot vizsgálunk összetétel szempontjából és azt nem hasonlítjuk más időszakokhoz. Ebben az esetben, az összetétel bemutatására a legegyszerűbb mód, ha a klasszikus tortadiagramot/kördiagramot alkalmazzuk. Ez a diagramtípus egyszerűen ábrázolja, hogy a teljes egészhez viszonyítva (egész kör), milyen arányban találhatók az egyes kategóriák. Ezeket a kategóriákat szeletként jelenítjük meg, rendeszerint különböző színnel jelöljük.
 

 

 

 

 

 

 

 

 

 

 

 

 

 


Az is lehetséges, hogy egyes kategóriák a teljes egészhez képest negatív vagy pozitív értékként jelennek meg. Például egy bevétel meghatározása esetén a kiadásokat hasonlítjük össze a bevételekkel, majd a kapott eredményt értelmezzük. Amikor ilyen negatív és pozitív értékeket akarunk egyszerre megjeleníteni, használjuk az ún. vízesésdiagramot. Itt a pozitív és negatív értékek és az összegzés is megjeleníthető. 

Mit tehetünk abban az esetben, ha az egyes elemzések összetételét akarjuk egymás mellé helyezni? Készíthetünk például halmozott oszlopdiagramokat, ahol az oszlopok egész az adott mintát, az azon belül található sávok pedig az összetétel egy-egy elemét mutatják. 

Pie-chart.jpg
Waterfall_1.png

Kördiagram

Vízesés diagram

 
 
12211112645_0b4ce5842e_z.jpg

Halmozott oszlopdiagram

Hosszmetszeti összetétel

 

A hosszmetszeti összetételben tehát különböző időpontok egymáshoz viszonyított arányát jelenítjük meg. Azonban lényeges, hogy hány időpontot akarunk összehasonlítani. Ha csak néhány időpontot, akkor bátran használhatjuk az oszlopdiagramokat, melyek esetében az oszlopok egy-egy időpontnak felelnek meg. Amennyiben viszont sok mérési időpontunk van és a változás követése a pontok gyakorisága miatt folytonossá válik, alkalmazzunk területdiagramokat. Mindkét esetében elkülöníthetünk további két esetet. Az egyik esetében a megjelenített adatok, egymáshoz viszonyított relatív arányait mutatja, míg a másik esetében az abszolút számosságok is megjeleníthetők. 

Area_chart_of_Washington_brewery_product

Területdiagram

12211112645_0b4ce5842e_z.jpg

Halmozott oszlopdiagram

 

ÉRTÉKEK KÖZÖTTI KAPCSOLAT ÁBRÁZOLÁSA

Az értékek közötti kapcsolatok ábrázolása a korrelációs technikákhoz fűződik. A korreláció azt mutatja meg, hogy az egyik adatsor változásával párhuzamosan ugyanolyan irányban (vagy ellentétes irányban) változik-e a másik adatsor. Fontos hozzátenni, hogy csak azért, mert két adatsor párhuzamos változást mutat, nem feltétlenül jelenti azt, hogy a két változó között kapcsolat is van. Az ok-okozati kapcsolatok feltárására a lineáris regresszió technikáját alkalmazhatjuk.  A korreláció esetében megrajzolhatunk egy egyenest, amely a kapcsolat irányát és erősségét segít meghatározni. Amennyiben a vonal, amelyet a pontokra húzhatunk, a bal alsó sarokból indul és a jobb felső sarokba tart, akkor pozitív együttjárást, míg ellentétes esetben negatív együttjárást jelent. A pontok minél inkább közel helyezkednek el az egyeneshez, annál erősebb a korreláció. Vagyis a szétszórt ponthalmazok ebben az esetben nem jelentenek együttjárást. Ismeretes még az ún. buborékdiagram, ahol a buborék mérete egy új információ megjelenítésére alkalmas. Rendszerint  rész/egész hányados nagyságát ábrázoló funkciója van.

20543208761_892b33cf67_b.jpg

Korrelációs pontdiagram

Bubble_chart.jpg

Buborékdiagram