Articles

Proč je důležitá vizualizace dat? Co je důležité ve vizualizaci dat?“

Poznámka redakce: Vizualizace dat, usnadněná výkonem počítače, představuje jeden ze základních nástrojů moderní datové vědy. Profesor Antony Unwin z univerzity v Augsburgu popisuje různé způsoby využití vizualizace dat, zkoumá možnosti budoucího výzkumu v této oblasti a zabývá se tím, jak se vizualizace dat vyučuje.

Vizualizace dat znamená kreslení grafických zobrazení pro zobrazení dat. Někdy se vykresluje každý datový bod, jako je tomu v grafu rozptylu, jindy mohou být zobrazeny statistické souhrny, jako je tomu v histogramu. Zobrazení jsou převážně popisná, soustředí se na „surová“ data a jednoduché souhrny. Mohou zahrnovat zobrazení transformovaných dat, někdy založená na složitých transformacích. Statistické údaje jedné osoby mohou být pro jinou osobu surovými daty. Stejně jako u jiných aspektů práce s grafikou by bylo užitečné mít dohodnutou základnu pojmů a terminologie, na které lze stavět. Hlavním cílem je vizualizace dat a statistik, interpretace zobrazení za účelem získání informací.

Vizualizace dat je užitečná pro čištění dat, zkoumání struktury dat, odhalování odlehlých hodnot a neobvyklých skupin, identifikaci trendů a shluků, odhalování lokálních vzorů, vyhodnocování výstupů modelování a prezentaci výsledků. Je nezbytná pro průzkumnou analýzu dat a dolování dat, aby bylo možné ověřit kvalitu dat a pomoci analytikům seznámit se se strukturou a vlastnostmi dat, která mají před sebou. Jedná se o část analýzy dat, která je v učebnicích podceňována, ale ve skutečných šetřeních je stále přítomna. Podívejte se například na jednostranné vrcholy v rozložení cílových časů maratonu (marastats, 2019).

Grafika odhaluje vlastnosti dat, které statistice a modelům mohou uniknout: neobvyklé rozložení dat, lokální vzory, shluky, mezery, chybějící hodnoty, důkazy zaokrouhlování nebo hromadění, implicitní hranice, odlehlé hodnoty atd. Grafika vyvolává otázky, které podněcují výzkum a navrhují nápady. Zní to jednoduše. Ve skutečnosti je k interpretaci grafiky zapotřebí zkušenost, aby bylo možné identifikovat potenciálně zajímavé rysy, a statistický um, aby bylo možné se chránit před nebezpečím přílišné interpretace. Stejně jako je grafika užitečná pro kontrolu výsledků modelů, jsou modely užitečné pro kontrolu myšlenek odvozených z grafiky (více o modelech viz Hand, 2019).

Tento přehled se zaměřuje na statickou grafiku. Dynamická grafika a zejména interaktivní grafika jsou ve vzrušující fázi vývoje a mají co nabídnout. Vyžadují si samostatný článek. Mezi vynikající příklady patří Human Terrain, dynamická grafika zobrazující světovou populaci ve 3D, a interaktivní NameVoyager.

„Obrázek je hoden tisíce slov“

Známá rčení mají schopnost žít vlastním životem. Obrázek nenahradí tisíc slov, potřebuje tisíc slov (nebo více). Pro vizualizaci dat je třeba znát kontext, zdroj dat, jak a proč byla shromážděna, zda jich lze shromáždit více, důvody pro nakreslení zobrazení a jak je lidé s potřebnými základními znalostmi radí interpretovat. Traduje se, že M. G. Kendall recenzoval knihu R. A. Fishera slovy: „Tuto knihu by neměl číst nikdo, kdo ji ještě nečetl“. Podobně je to i s grafikou. Pokud jste si přečetli celý doprovodný text, je zobrazení často zapamatovatelné a snadno pochopitelné. Pokud jste tak neučinili, není tomu tak. Grafika sama o sobě nestačí, je součástí celku. Doplňují text a jsou textem doplňovány. Studentova reanalýza Lanarkshire Milk Experiment (Student, 1931) je vynikajícím příkladem (a je také zajímavá jako raná analýza velkého souboru dat).

Potenciální synergii textu a grafiky lze ocenit tak, že budete mluvit prostřednictvím vlastní grafiky a vysvětlovat ji ostatním. Proč jste tuto grafiku nakreslili? Jak jste je nakreslili? Co je na ní vidět? Jsou v ní zajímavé vzory? Co by se dalo změnit a vylepšit? Jaké další grafiky by bylo možné nakreslit? Jak lze závěry ověřit? Mělo by se více mluvit o grafice a méně spoléhat na to, že grafika bude mluvit sama za sebe.

Pokud jde o grafiku, kterou jste sami nekreslili, jsou stále relevantní stejné druhy otázek, i když může být obtížnější na ně odpovědět. Edward Tufte označil zobrazení Napoleonova ruského tažení od Charlese Minarda za nejlepší statistickou grafiku, jaká kdy byla nakreslena (Tufte, 2001). Je to velkolepá grafika, která si plně zaslouží chválu, ale jak upozornil Lee Wilkinson ve své knize The Grammar of Graphics (Wilkinson, 2005), v zobrazení jsou nepřesnosti a nepřesnosti. Proč na ně nikdo neupozornil dříve? Jsme příliš zvyklí přijímat grafiku nekriticky a neklademe si o ní dostatečné otázky.

Prezentace a explorativní grafika

Prezentace a explorativní grafika jsou zcela odlišná zvířata. Při prezentaci výsledků můžete mít prostor pouze pro jednu grafiku a netušíte, kolik lidí ji může vidět. Pokud se objeví v novinách, v televizi nebo na webu, mohou být vaším publikem miliony lidí. Grafika by měla být dobře navržená a dobře nakreslená s účinným doprovodným vysvětlujícím textem. Na druhou stranu, pokud zkoumáte data, pak potřebujete mnoho a mnoho grafik a jsou určeny pro jedno publikum: pro vás samotné. Jednotlivé grafiky nemusí být dokonalé, ale měly by poskytovat alternativní pohledy a doplňující informace. Prezentační grafika slouží ke zprostředkování známých informací a často je určena k upoutání pozornosti. Průzkumná grafika se používá k nalezení nových informací a měla by na informace upozornit.

Publikační grafika bývá zpravidla grafikou prezentační, částečně proto, že je určena k publikaci, a částečně proto, že nikdo nechce vidět stovky rychlých grafik, které mohly, ale nemusely být užitečné. Je to spíše jako s matematickými důkazy: články obsahují elegantní a stručné konečné verze, nikoli načmárané poznámky a náhodné nápady, které jim předcházely. Kolik grafik mohlo být nakresleno, než bylo vybráno nápadné zobrazení, které ukazuje rezignace ministrů britského kabinetu v posledních letech (Institute for Government, 2019)?

Výpravná grafika využívá toho, jak snadno lze nyní grafiku kreslit a překreslovat. To, co dříve představovalo pomalý a únavný proces, dokonce včetně nutnosti tisknout displeje, se stalo rychlým a flexibilním. Zároveň jsou však zapotřebí nové, další dovednosti. Identifikovat zajímavé prvky a umět je podrobněji zkontrolovat mezi nepřeberným množstvím možných grafických prvků není jen otázkou nakreslení mnoha grafických prvků, ale je třeba mít interpretační schopnosti a umět posoudit, který grafický prvek poskytne jaké informace. Je toho tolik, co lze měnit: zobrazované proměnné, typy grafik, velikosti grafik a jejich poměry stran, použité barvy a symboly, měřítka a meze, pořadí kategoriálních proměnných, pořadí proměnných ve vícerozměrných zobrazeních. Rozumný výběr z široké škály grafů a pochopení toho, jak získat vhled, nejsou triviální úkoly. Klíčovým problémem je absence teorie vizualizace dat, kterou by bylo možné se řídit a na které by bylo možné stavět.

Vizualizace dat se stala důležitější

Zlepšení hardwaru znamenalo přesnější reprodukci, lepší barvy (včetně alfa-blendingu) a rychlejší kreslení. Lepší software znamenal snadnější a flexibilnější kreslení, konzistentní motivy a vyšší standardy. Výpočetní technici se mnohem více zapojili jak po technické stránce, tak při zavádění nových přístupů. Došlo k pokroku ve vývoji teorie grafiky, zejména díky Wilkinsonově Gramatice grafiky (2005) a její implementaci Hadley Wickhamovou v balíčku ggplot2 pro R (Wickham, 2016). Pokračuje práce a lepší pochopení problematiky barev a vnímání. Grafiky, které se používaly jen zřídka a jejichž kreslení bylo obtížné, jako jsou paralelní souřadnicové grafy (např. Theus, 2015) a mozaikové grafy (např. Unwin, 2015), byly zdokonaleny a rozvinuty. Lze analyzovat a vizualizovat mnohem větší soubory dat a grafika může hrát cennou roli při diagnostice silných a slabých stránek složitých modelů. Vizualizace dat lze nalézt všude, ve vědeckých publikacích, v novinách a televizi i na webu. Existuje mnoho webových stránek, kde se o grafice diskutuje a diskutuje. To je obrovský pokrok oproti situaci ještě před 20 lety.

Výzkum v oblasti vizualizace dat

Existují velké možnosti pro budoucí výzkum v oblasti vizualizace dat. Jsou zapotřebí zásady, jak se rozhodnout, kterou z mnoha možných grafik vykreslit. Nejde o to nakreslit jedinou, „optimální“ grafiku, pokud něco takového vůbec existuje; jde o to vybrat skupinu grafik, která poskytne více informací. Je to jako pořizovat fotografie složitého objektu, jedna jediná by nestačila a pořizovat snímky ze všech možných úhlů a vzdáleností by jich bylo příliš mnoho. Soubory grafik jsou užitečné pro poskytnutí kontextu, jak ukazují rozptylové grafy v Klimek, Yegorov, Hanel a Thurner (2012).

Je třeba více porozumět kombinování a propojování grafik, ať už ve statických souborech, nebo v interaktivních zobrazeních, stejně jako je pro ně potřeba lepší software. Hodnota zarovnávání a společného měřítka pro efektivní porovnávání, například s malými násobky a fasetováním (zobrazování mnoha grafik stejného tvaru podmiňujících jiné proměnné) je jednou z částí. Je historickou kuriozitou, že současná vzrušující práce na interaktivní grafice na webu stále zaostává za samostatnými systémy, které byly k dispozici již před více než 30 lety při propojování více oken. Data Desk a JMP byly tehdy komerčními příklady (aktuální verze viz Velleman, 2019, a Sall, 2019).

Publikovaná grafika je někdy atraktivní a krásně zpracovaná. Ne vždy tomu však odpovídá obsah. To může být způsobeno tím, že autoři a vydavatelé nepředpokládají, že by grafika byla podrobně zkoumána. Mohou být přidány jako ilustrace, aby vyvážily uspořádání a vypadaly příjemněji. Pokud nemáte k dispozici vhodnou fotografii, kreslený vtip nebo mapu, můžete použít barevnou statistickou grafiku. Mnohokrát jsem slyšel lidi říkat, že nerozumějí číslům a ve škole jim nešla matematika. Nikdo mi nikdy neřekl, že nerozumí grafice, možná proto, že ji považují za ilustraci, a ne za ústřední část argumentu. Je třeba pracovat na vzdělávání výzkumníků a čtenářů v oblasti hodnoty grafiky.

Výzkum nové a inovativní grafiky je vzrušující a produktivní. Současně je nezbytné co nejlépe využívat známou a dobře pochopenou grafiku. Existuje riziko důrazu na novinky na úkor známosti. Nová, inovativní grafika potřebuje k interpretaci poučení a zkušenosti. Jejich tvůrci strávili jejich vývojem mnoho času a dostatečně rozumně se domnívají, že to, co je zřejmé jim, by mělo být zřejmé všem. Jen si vzpomeňte na skromný rozptylový graf. Teprve v posledních letech se rozptylové grafy objevují v médiích, ačkoli jsou jednou z nejdůležitějších statistických grafik. Pokud jste je nikdy předtím neviděli, mohou vás zastrašit, tím spíše, když vám někdo řekne: „Je jasné, že…“ nebo „Snadno vidíte, že…“. Měli bychom stavět na známých věcech, abychom naše čtenáře unesli s sebou.

Příklady a zdroje

Vizualizace, které se líbí mně, nemusí být vizualizacemi, které se líbí vám. Vyzývám vás, abyste si je sami důkladně prohlédli a posoudili. Mnoho zajímavého a podnětného materiálu najdete v klasických Tufteho knihách (např. Tufte, 2001) a v zobrazeních, která v průběhu let zveřejnil deník New York Times (např. New York Times, 2018). Vynikající práce vytvořily i další noviny a média. Jedná se samozřejmě o prezentační grafiku, která však nabízí mnoho možností, jak zaujmout. Je obtížné vybrat si mezi mnoha jednotlivými webovými stránkami, které poskytují příklady a diskuse, ale Visualising Data je jedním z webů, které doporučujeme vyzdvihnout napříč webem. Současný zájem a aktivita v oblasti grafiky jsou velmi vítané.

Co se děje teď?“

Vzdělávat lidi ve výběru, kreslení a interpretaci grafiky je obtížnější, než by se mohlo zdát. Vizualizace dat se neučí špatně, jen se neučí vůbec. V ideálním případě by měla být lepší teorie a následně i lepší grafika. To bude vyžadovat čas. Do té doby bychom měli:

-více diskutovat o grafice;

-více interpretovat grafiku;

-více učit grafiku.

Daniels, M. (2018). „Lidský terén.“ https://pudding.cool/2018/10/city_3d/

Hand, D. (2019). K čemu slouží statistické modelování? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz

Institut pro státní správu. (2019). Rezignace ministrů mimo reorganizace, podle premiérů. Získáno 14. srpna 2019 z https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister

Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Statistická detekce systematických volebních nesrovnalostí. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469

marastats. (2019). Obecné statistiky maratonu. Získáno 14. srpna 2019 z https://marastats.com/marathon/

New York Times. (2018, 31. prosince). 2018: Rok ve vizuálních příbězích a grafice. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html

Sall, J. (2019). JMP. Získáno 8. srpna 2019 z http://www.jmp.com

Student. (1931). Experiment s mlékem v Lanarkshire. Biometrika, 23, 398-406.

Theus, M. (2015). Tour de France 2015. Získáno 14. srpna 2019 z http://www.theusrus.de/blog/tour-de-france-2015/

Tufte, E. (2001). The visual display of quantitative information (2. vydání) Cheshire, CT: Graphics Press.

Unwin, A. (2015). Studium vícerozměrných kategoriálních dat. Převzato 14. srpna 2019 z http://www.gradaanwr.net/content/ch07/

Velleman, P. (2019). Data Desk. Získáno 8. srpna 2019 z http://www.datadesk.com

Wickham, H. (2016). ggplot2: Elegantní grafika pro analýzu dat (2. vydání). New York, NY: Springer-Verlag. Získáno z https://ggplot2.tidyverse.org

Wilkinson, L. (2005). Gramatika grafiky (2. vyd.). New York, NY: Springer.