Miért fontos az adatvizualizáció? Mi fontos az adatvizualizációban?
Rovatszerkesztő megjegyzése: A számítógépek teljesítménye által megkönnyített adatvizualizáció a modern adattudomány egyik alapvető eszközét jelenti. Antony Unwin professzor az Augsburgi Egyetemről ismerteti az adatvizualizáció különböző felhasználási módjait, feltárja a terület jövőbeli kutatási lehetőségeit, és megvizsgálja, hogyan tanítják az adatvizualizációt.
Az adatvizualizáció grafikus megjelenítéseket jelent az adatok bemutatására. Néha minden egyes adatpontot berajzolnak, mint a szórásdiagramban, néha statisztikai összegzéseket is megjeleníthetnek, mint a hisztogramban. A megjelenítések főként leíró jellegűek, a “nyers” adatokra és egyszerű összefoglalókra koncentrálnak. Tartalmazhatják a transzformált adatok megjelenítését is, néha bonyolult transzformációkon alapulva. Az egyik ember statisztikája lehet a másik ember nyers adata. A grafikai munka más aspektusaihoz hasonlóan hasznos lenne, ha lenne egy elfogadott fogalmi és terminológiai alap, amelyre építeni lehetne. A fő cél az adatok és statisztikák vizualizálása, a megjelenítések értelmezése az információszerzés érdekében.
Az adatok vizualizálása hasznos az adatok tisztítására, az adatszerkezet feltárására, a kiugró értékek és szokatlan csoportok felderítésére, a trendek és klaszterek azonosítására, a helyi minták kiszúrására, a modellezés kimenetének értékelésére és az eredmények bemutatására. A feltáró adatelemzéshez és adatbányászathoz elengedhetetlen az adatminőség ellenőrzéséhez, valamint ahhoz, hogy az elemzők megismerjék az előttük álló adatok szerkezetét és jellemzőit. Ez az adatelemzésnek az a része, amely a tankönyvekben alulértékelt, a tényleges vizsgálatokban azonban állandóan jelen van. Nézze meg például a maratoni célba érési idők eloszlásainak egyoldalú csúcsait (marastats, 2019).
A grafikonok olyan adatjellemzőket tárnak fel, amelyeket a statisztika és a modellek esetleg nem vesznek észre: az adatok szokatlan eloszlásait, helyi mintákat, klasztereket, hiányokat, hiányzó értékeket, a kerekítés vagy halmozás bizonyítékát, implicit határokat, kiugró értékeket és így tovább. A grafikonok olyan kérdéseket vetnek fel, amelyek kutatásra ösztönöznek és ötleteket sugallnak. Könnyen hangzik. Valójában a grafikonok értelmezéséhez tapasztalatra van szükség a potenciálisan érdekes jellemzők azonosításához, és statisztikai érzékre a túlértelmezés veszélyeitől való óvakodáshoz. Ahogy a grafikonok hasznosak a modelleredmények ellenőrzéséhez, úgy a modellek is hasznosak a grafikonokból levezetett ötletek ellenőrzéséhez (a modellekről bővebben lásd Hand, 2019).
Ez az áttekintés a statikus grafikonokra koncentrál. A dinamikus grafikák és különösen az interaktív grafikák a fejlődés izgalmas szakaszában vannak, és még sok mindent hozzátehetnek. Ezek külön cikket igényelnek. Kiváló példa erre a Human Terrain, a világ népességét 3D-ben bemutató dinamikus grafika, valamint az interaktív NameVoyager.
“A Picture Is Worth a Thousand Words”
A híres mondások saját életet élnek. Egy kép nem helyettesíti az ezer szót; ezer szóra (vagy még többre) van szüksége. Az adatok vizualizálásához ismerni kell a kontextust, az adatok forrását, azt, hogy hogyan és miért gyűjtötték őket, hogy lehetne-e többet gyűjteni, a megjelenítések megrajzolásának okait, és azt, hogy a szükséges háttérismeretekkel rendelkező emberek tanácsára hogyan lehet értelmezni őket. Van egy történet, miszerint M. G. Kendall a következő szavakkal bírálta el R. A. Fisher egyik könyvét: “Senki ne olvassa ezt a könyvet, aki még nem olvasta”. Így van ez a grafikákkal is. Ha már elolvastad az összes kísérő szöveget, a megjelenítés gyakran emlékezetes és könnyen érthető. Ha nem, akkor nem az. A grafikák önmagukban nem elegendőek, egy egésznek a részei. Kiegészítik a szöveget, és a szöveg kiegészíti őket. Student Lanarkshire-i tejkísérletének újraelemzése (Student, 1931) kiváló példa erre (és egy nagy adathalmaz korai elemzéseként is érdekes).
A szöveg és a grafika lehetséges szinergiáját úgy értékelhetjük, ha saját grafikáinkat átbeszéljük, elmagyarázzuk másoknak. Miért rajzoltad ezeket a grafikákat? Hogyan rajzolta őket? Mi látható rajta? Vannak érdekes minták? Mit lehetne megváltoztatni és javítani? Milyen más grafikákat lehetne rajzolni? Hogyan ellenőrizhetők a következtetések? Többet kellene beszélni a grafikákról, és kevésbé bízni abban, hogy a grafikák magukért beszélnek.
Amikor olyan grafikákról van szó, amelyeket nem maga rajzolt, ugyanezek a kérdések még mindig relevánsak, bár nehezebb lehet rájuk válaszolni. Edward Tufte Charles Minard Napóleon oroszországi hadjáratát bemutató ábráját a valaha rajzolt legjobb statisztikai grafikának nevezte (Tufte, 2001). Ez egy csodálatos grafika, amely teljes mértékben megérdemli a rá zúduló dicséretet, mégis, ahogy Lee Wilkinson rámutatott The Grammar of Graphics című könyvében (Wilkinson, 2005), a megjelenítésben vannak pontatlanságok és pontatlanságok. Miért nem mutatott rájuk korábban senki? Túlságosan hozzászoktunk ahhoz, hogy kritikátlanul elfogadjuk a grafikákat, és nem kérdezünk tőlük eleget.
Prezentáció és feltáró grafika
A prezentáció és a feltáró grafika egészen más állatok. Az eredmények bemutatása során előfordulhat, hogy csak egy grafikának van helye, és fogalma sincs, hányan láthatják azt. Ha egy újságban, a televízióban vagy a világhálón jelenik meg, a közönsége akár több millió ember is lehet. A grafikának jól megtervezettnek és jól megrajzoltnak kell lennie, hatékony magyarázó szöveggel kísérve. Másrészt, ha adatokat tár fel, akkor sok-sok grafikára van szüksége, és ezek egyetlen közönségnek szólnak: magának. Az egyes grafikáknak nem kell tökéletesnek lenniük, de alternatív nézeteket és kiegészítő információkat kell nyújtaniuk. A prezentációs grafikákat ismert információk közvetítésére használják, és gyakran a figyelem felkeltésére tervezik őket. A feltáró grafikákat új információk megtalálására használják, és az információra kell irányítaniuk a figyelmet.
A publikált grafikák általában prezentációs grafikák, részben azért, mert publikálásra készülnek, részben pedig azért, mert senki sem akar több száz gyors grafikát látni, amelyek talán hasznosak, talán nem. Ez inkább olyan, mint a matematikai bizonyítások: a cikkek az elegáns és tömör végleges változatokat tartalmazzák, nem pedig az előtte lévő firkált jegyzeteket és véletlenszerű ötleteket. Hány grafikát rajzolhattak meg, mielőtt kiválasztották azt a feltűnő kijelzőt, amely az elmúlt évek brit kabinetminisztereinek lemondásait mutatja be (Institute for Government, 2019)?
A feltáró grafikák kihasználják, hogy ma már milyen könnyű grafikákat rajzolni és újra rajzolni. Ami korábban lassú és fárasztó folyamat volt, beleértve még a kijelzők kinyomtatását is, mára gyors és rugalmas lett. Ugyanakkor új, további készségekre van szükség. Az érdekes jellemzők azonosítása és annak tudása, hogy hogyan lehet azokat részletesebben ellenőrizni a számtalan lehetséges grafika közül, nem csupán a sok grafika megrajzolásának kérdése, hanem értelmezési készségekre és annak megbecsülésére is szükség van, hogy melyik grafika milyen információt nyújt. Nagyon sok mindent lehet variálni: a megjelenített változókat, a grafikák típusait, a grafikák méreteit és képarányait, a használt színeket és szimbólumokat, a skálákat és határértékeket, a kategorikus változók sorrendjét, a változók sorrendjét a többváltozós megjelenítésekben. A grafikák széles skálájából bölcsen választani, és megérteni, hogyan lehet betekintést nyerni, nem triviális feladat. Az adatvizualizáció elméletének hiánya, amelyre irányítani és építeni lehetne, kulcsfontosságú probléma.
Az adatvizualizáció egyre fontosabbá vált
A jobb hardver pontosabb reprodukciót, jobb színeket (beleértve az alfa-blendinget is) és gyorsabb rajzolást jelentett. A jobb szoftverek könnyebb és rugalmasabb rajzolást, konzisztens témákat és magasabb színvonalat jelentettek. Az informatikusok sokkal nagyobb szerepet vállaltak, mind a technikai oldalon, mind az új megközelítések bevezetésében. Előrelépés történt a grafika elméletének kidolgozásában, különösen Wilkinson Grammar of Graphics (2005) című művének és Hadley Wickham R-csomagban való implementációjának, a ggplot2-nek köszönhetően (Wickham, 2016). Folytatódik a munka és a szín és az észlelés problémáinak jobb megértése. Ritkán használt és nehezen rajzolható grafikákat, például a párhuzamos koordinátaplotokat (pl. Theus, 2015) és a mozaikplotokat (pl. Unwin, 2015) finomították és fejlesztették tovább. Sokkal nagyobb adathalmazok elemezhetők és vizualizálhatók, és a grafikák értékes szerepet játszhatnak az összetett modellek erősségeinek és gyengeségeinek diagnosztizálásában. Adatvizualizációkkal mindenütt találkozhatunk, a tudományos publikációkban, az újságokban és a televízióban, valamint a világhálón. Számos olyan weboldal létezik, ahol a grafikákat megvitatják és vitatják. Ez óriási előrelépés a még 20 évvel ezelőtti helyzethez képest.
Kutatás az adatvizualizációban
Az adatvizualizációban nagy lehetőségek vannak a jövőbeni kutatásokra. Alapelvekre van szükség ahhoz, hogyan döntsük el, hogy a sok lehetséges grafika közül melyiket rajzoljuk meg. Nem egyetlen, “optimális” grafika megrajzolásáról van szó, ha egyáltalán létezik ilyen, hanem a grafikák olyan csoportjának kiválasztásáról, amely több információt nyújt. Olyan ez, mintha egy bonyolult tárgyról fényképeket készítenénk, egyetlen egy nem lenne elég, és ha minden lehetséges szögből és távolságból fényképeznénk, az túl sok lenne. A grafikoncsoportok hasznosak a kontextus biztosításához, amint azt Klimek, Yegorov, Hanel és Thurner (2012) szórásdiagramjai mutatják.
A grafikák kombinálásához és összekapcsolásához több megértésre van szükség, akár statikus együttesekben, akár interaktív megjelenítésekben, mint ahogy ezekhez jobb szoftverekre is szükség van. Az összehangolás és a közös skálázás értéke a hatékony összehasonlítások elvégzéséhez, például a kis többszörösökkel és a facetinggel (sok azonos formájú, más változókat kondicionáló grafika megjelenítése) ennek egyik része. Történelmi érdekesség, hogy az interaktív grafikákkal kapcsolatos jelenlegi izgalmas munka a weben még mindig elmarad a több mint 30 évvel ezelőtt már elérhető önálló rendszerek mögött a több ablak összekapcsolásában. A Data Desk és a JMP akkoriban kereskedelmi példák voltak (az aktuális verziókról lásd Velleman, 2019 és Sall, 2019).
A közzétett grafikák néha vonzóak és szépen elkészítettek. A tartalom nem mindig felel meg. Ennek oka lehet, hogy a szerzők és a kiadók nem várják el, hogy a grafikákat részletesen megvizsgálják. Lehet, hogy illusztrációként adják hozzá őket, hogy kiegyensúlyozzák és kellemesebbé tegyék az elrendezést. Ha nincs megfelelő fénykép, karikatúra vagy térkép, használhat színes statisztikai grafikát. Sokszor hallottam már emberektől, hogy nem értik a számokat, és rosszul ment nekik a matematika az iskolában. Nekem még soha senki nem mondta, hogy nem érti a grafikákat, talán azért, mert illusztrációként tekintenek rájuk, nem pedig egy érvelés központi részeként. Van még tennivaló a kutatók és az olvasók oktatásában a grafika értékét illetően.
Az új és innovatív grafikák kutatása izgalmas és eredményes. Ezzel párhuzamosan alapvető fontosságú, hogy az ismert és jól ismert grafikákat a lehető legjobban kihasználjuk. Fennáll a veszélye annak, hogy az újdonságok hangsúlyozása az ismertség rovására megy. Az új, innovatív grafikák értelmezéséhez oktatásra és tapasztalatra van szükség. Tervezőik sok időt töltöttek a fejlesztésükkel, és joggal gondolják, hogy ami számukra nyilvánvaló, annak mindenki számára nyilvánvalónak kell lennie. Gondoljunk csak a szerény szórásdiagramra. A szórásdiagramok csak az utóbbi években jelentek meg a médiában, pedig az egyik legfontosabb statisztikai grafika. Ha még soha nem láttál ilyet, akkor ijesztő lehet, még inkább, ha azt mondják: “Nyilvánvaló, hogy…” vagy “Könnyen láthatod, hogy…”. Az ismerősre kell építenünk, hogy magunkkal vihessük olvasóinkat.”
Példák és források
Az általam kedvelt vizualizációk nem biztos, hogy az Ön által kedvelt vizualizációk. Arra kérem önöket, hogy keressenek alaposan, és ítéljék meg maguk. Sok érdekes és elgondolkodtató anyag található Tufte klasszikus könyveiben (pl. Tufte, 2001), valamint a New York Times által az évek során készített megjelenítésekben (pl. New York Times, 2018). Más újságok és médiumok is kiváló munkákat készítettek. Ezek természetesen prezentációs grafikák, de sokat kínálnak ahhoz, hogy foglalkozzunk velük. Nehéz választani a számos példát és vitát nyújtó egyedi weboldalak közül, de a Visualising Data egy olyan oldal, amely az egész weben ajánlja a kiemeléseket. A grafikák iránti jelenlegi érdeklődés és aktivitás nagyon örvendetes.
Mi történik most?
A grafikák kiválasztására, rajzolására és értelmezésére nevelni sokkal nehezebb, mint gondolnánk. Az adatvizualizációt nem tanítják rosszul, csak egyáltalán nem nagyon tanítják. Ideális esetben jobb elméletre, és ennek következtében jobb grafikákra lenne szükség. Ehhez időre van szükség. Addig is:
-több grafikáról kellene többet beszélni;
-több grafikát értelmezni;
-több grafikát tanítani.
Daniels, M. (2018). “Emberi terep”. https://pudding.cool/2018/10/city_3d/
Hand, D. (2019). Mi a célja a statisztikai modellezésnek? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz
Kormányzati Intézet. (2019). Miniszteri lemondások az átszervezéseken kívül, miniszterelnökönként. Retrieved August 14, 2019, from https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister
Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). A szisztematikus választási szabálytalanságok statisztikai kimutatása. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469
marastats. (2019). Általános maratoni statisztikák. Retrieved August 14, 2019, from https://marastats.com/marathon/
New York Times. (2018, december 31.). 2018: Az év vizuális történetekben és grafikákban. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html
Sall, J. (2019). JMP. Retrieved August 8, 2019, from http://www.jmp.com
Student. (1931). A lanarkshire-i tejkísérlet. Biometrika, 23, 398-406.
Theus, M. (2015). Tour de France 2015. Retrieved August 14, 2019, from http://www.theusrus.de/blog/tour-de-france-2015/
Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.
Unwin, A. (2015). Többváltozós kategorikus adatok tanulmányozása. Retrieved August 14, 2019, from http://www.gradaanwr.net/content/ch07/
Velleman, P. (2019). Data Desk. Retrieved August 8, 2019, from http://www.datadesk.com
Wickham, H. (2016). ggplot2: Elegáns grafikák adatelemzéshez (2. kiadás). New York, NY: Springer-Verlag. Retrieved from https://ggplot2.tidyverse.org
Wilkinson, L. (2005). A grafika nyelvtana (2. kiadás). New York, NY: Springer.