Waarom is datavisualisatie belangrijk? Wat is belangrijk bij datavisualisatie?
Column Editor’s note: Datavisualisatie, vergemakkelijkt door de kracht van de computer, vertegenwoordigt een van de fundamentele instrumenten van de moderne datawetenschap. Professor Antony Unwin van de Universiteit van Augsburg beschrijft verschillende manieren waarop datavisualisatie wordt gebruikt, verkent de mogelijkheden voor toekomstig onderzoek op dit gebied, en bekijkt hoe datavisualisatie wordt onderwezen.
Datavisualisatie betekent het tekenen van grafische weergaven om gegevens weer te geven. Soms wordt elk gegevenspunt getekend, zoals in een scatterplot, soms kunnen statistische samenvattingen worden getoond, zoals in een histogram. De weergaven zijn hoofdzakelijk beschrijvend en concentreren zich op “ruwe” gegevens en eenvoudige samenvattingen. Zij kunnen ook weergaven van getransformeerde gegevens omvatten, soms op basis van ingewikkelde transformaties. De statistiek van de een kan de ruwe data van de ander zijn. Net als bij andere aspecten van het werken met grafieken zou het nuttig zijn een overeengekomen basis van concepten en terminologie te hebben waarop kan worden voortgebouwd. Het belangrijkste doel is het visualiseren van gegevens en statistieken, waarbij de vertoningen worden geïnterpreteerd om informatie te verkrijgen.
Datavisualisatie is nuttig voor het opschonen van gegevens, het verkennen van de gegevensstructuur, het opsporen van uitschieters en ongebruikelijke groepen, het identificeren van trends en clusters, het spotten van lokale patronen, het evalueren van modeluitvoer, en het presenteren van resultaten. Het is essentieel voor verkennende gegevensanalyse en datamining om de kwaliteit van de gegevens te controleren en analisten te helpen vertrouwd te raken met de structuur en de kenmerken van de gegevens die voor hen liggen. Dit is een onderdeel van gegevensanalyse dat in leerboeken wordt onderbelicht, maar dat in de praktijk altijd aanwezig is. Kijk bijvoorbeeld naar de eenzijdige pieken in de verdelingen van de finishtijden van marathons (marastats, 2019).
Grafieken onthullen gegevenskenmerken die statistiek en modellen kunnen missen: ongebruikelijke verdelingen van gegevens, lokale patronen, clusteringen, hiaten, ontbrekende waarden, bewijs van afronding of stapeling, impliciete grenzen, uitbijters, enzovoort. Grafieken roepen vragen op die onderzoek stimuleren en ideeën suggereren. Het klinkt gemakkelijk. In feite vereist het interpreteren van grafieken ervaring om potentieel interessante kenmerken te identificeren en statistische kennis om te waken voor de gevaren van overinterpretatie. Net zoals grafieken nuttig zijn voor het controleren van modelresultaten, zijn modellen nuttig voor het controleren van ideeën die uit grafieken zijn afgeleid (voor meer over modellen, zie Hand, 2019).
Dit overzicht concentreert zich op statische grafieken. Dynamische graphics en, meer in het bijzonder, interactieve graphics zijn in een spannende fase van ontwikkeling en hebben veel toe te voegen. Zij vereisen een eigen artikel. Prachtige voorbeelden zijn Human Terrain, een dynamische grafiek die de wereldbevolking in 3-D toont, en de interactieve NameVoyager.
‘A Picture Is Worth a Thousand Words’
Bekende spreuken hebben de neiging een eigen leven te gaan leiden. Een foto is geen vervanging voor duizend woorden; er zijn duizend woorden (of meer) voor nodig. Voor datavisualisatie moet je de context kennen, de bron van de gegevens, hoe en waarom ze verzameld zijn, of er meer verzameld kunnen worden, de redenen om de afbeeldingen te tekenen, en hoe mensen met de nodige achtergrondkennis adviseren dat ze geïnterpreteerd kunnen worden. Er is een verhaal dat M.G. Kendall een boek van R.A. Fisher recenseerde met de woorden: “Niemand zou dit boek moeten lezen die het nog niet gelezen heeft.” Zo is het ook met afbeeldingen. Als je alle ondersteunende tekst hebt gelezen, is de weergave vaak gedenkwaardig en gemakkelijk te begrijpen. Heb je dat niet, dan is het dat niet. Grafieken op zich zijn onvoldoende, ze maken deel uit van een geheel. Ze vullen tekst aan en worden door tekst aangevuld. Student’s heranalyse van het Lanarkshire Milk Experiment (Student, 1931) is een uitstekend voorbeeld (en is ook interessant als een vroege analyse van een grote dataset).
De potentiële synergie van tekst en grafieken kan worden gewaardeerd door je eigen grafieken door te spreken en ze aan anderen uit te leggen. Waarom heb je die grafieken getekend? Hoe heb je ze getekend? Wat is er te zien? Zijn er interessante patronen? Wat kan er veranderd en verbeterd worden? Welke andere grafieken zouden kunnen worden getekend? Hoe kunnen conclusies worden gecontroleerd? Er zou meer over grafieken gepraat moeten worden en minder over grafieken die voor zichzelf spreken.
Als het gaat om grafieken die je niet zelf hebt getekend, zijn dezelfde soort vragen nog steeds relevant, hoewel ze misschien moeilijker te beantwoorden zijn. Edward Tufte beschreef Charles Minard’s weergave van Napoleons Russische veldtocht als de beste statistische grafiek ooit getekend (Tufte, 2001). Het is een prachtige grafiek, die alle lof verdient, maar zoals Lee Wilkinson heeft opgemerkt in zijn boek The Grammar of Graphics (Wilkinson, 2005), bevat de weergave onnauwkeurigheden en onnauwkeurigheden. Waarom heeft niemand daar eerder op gewezen? We zijn te gewoon om grafische voorstellingen kritiekloos te aanvaarden, en stellen er niet genoeg vragen bij.
Presentatie en verkennende grafische voorstellingen
Presentatie en verkennende grafische voorstellingen zijn heel verschillende dieren. Bij de presentatie van uw resultaten hebt u misschien maar ruimte voor één grafiek en geen idee hoeveel mensen die zullen zien. Als het in een krant of op televisie of het Web verschijnt, kan uw publiek miljoenen mensen zijn. De afbeelding moet goed ontworpen en getekend zijn, met een doeltreffende verklarende tekst erbij. Aan de andere kant, als je gegevens onderzoekt, dan heb je veel, heel veel grafieken nodig en ze zijn voor een publiek van één: jezelf. De afzonderlijke grafieken hoeven niet perfect te zijn, maar ze moeten alternatieve weergaven en aanvullende informatie bieden. Presentatiegrafieken worden gebruikt om bekende informatie over te brengen en zijn vaak bedoeld om de aandacht te trekken. Verkennende grafieken worden gebruikt om nieuwe informatie te vinden en moeten de aandacht op informatie vestigen.
Gepubliceerde grafieken hebben de neiging om grafieken voor presentatie te zijn, deels omdat ze voor publicatie zijn en deels omdat niemand honderden snelle grafieken wil zien die al dan niet nuttig zijn geweest. Het is een beetje als met wiskundige bewijzen: artikelen bevatten de elegante en beknopte eindversies, niet de gekrabbelde notities en willekeurige ideeën die ervoor kwamen. Hoeveel grafieken kunnen er zijn getekend voordat de opvallende weergave werd gekozen om het aftreden van ministers van het Britse kabinet in de afgelopen jaren te laten zien (Institute for Government, 2019)?
Exploratory graphics maken gebruik van hoe gemakkelijk het nu is om grafieken te tekenen en opnieuw te tekenen. Wat vroeger een traag en vermoeiend proces was, inclusief het moeten uitprinten van displays, is snel en flexibel geworden. Tegelijkertijd zijn nieuwe, aanvullende vaardigheden vereist. Het identificeren van interessante kenmerken en weten hoe deze in meer detail te controleren tussen een groot aantal mogelijke afbeeldingen is niet alleen een kwestie van veel afbeeldingen tekenen, je hebt ook interpretatieve vaardigheden nodig en een appreciatie van welke afbeeldingen welk soort informatie zullen verschaffen. Er is zoveel dat gevarieerd kan worden: de weergegeven variabelen, de soorten grafieken, de afmetingen van de grafieken en hun beeldverhoudingen, de gebruikte kleuren en symbolen, de schalen en grenzen, de volgorde van categorische variabelen, de volgorde van variabelen in multivariate weergaven. Een verstandige keuze maken uit het ruime aanbod van grafieken, en begrijpen hoe inzichten te verwerven, zijn geen triviale taken. Het ontbreken van een theorie over datavisualisatie die als leidraad kan dienen en waarop kan worden voortgebouwd, is een belangrijk probleem.
Datavisualisatie is belangrijker geworden
Betere hardware heeft gezorgd voor preciezere weergave, betere kleuren (inclusief alfa-blending), en sneller tekenen. Betere software heeft geleid tot eenvoudiger en flexibeler tekenen, consistente thema’s en hogere normen. Computerwetenschappers zijn veel meer betrokken geraakt, zowel aan de technische kant als bij het introduceren van nieuwe benaderingen. Er is vooruitgang geboekt in het ontwikkelen van een theorie van graphics, vooral dankzij Wilkinson’s Grammar of Graphics (2005) en Hadley Wickham’s implementatie ervan in het R-pakket ggplot2 (Wickham, 2016). Er wordt verder gewerkt aan en beter inzicht verkregen in de problemen van kleur en perceptie. Grafieken die zelden werden gebruikt en moeilijk te tekenen waren, zoals parallelle coördinatenplots (bv. Theus, 2015) en mozaïekplots (bv. Unwin, 2015), zijn verfijnd en ontwikkeld. Veel grotere datasets kunnen worden geanalyseerd en gevisualiseerd en grafieken kunnen een waardevolle rol spelen bij het diagnosticeren van de sterke en zwakke punten van complexe modellen. Datavisualisaties zijn overal te vinden, in wetenschappelijke publicaties, in kranten en op tv, en op het web. Er zijn veel webpagina’s waar grafieken worden besproken en bediscussieerd. Dit is een enorme verbetering ten opzichte van de situatie van zelfs 20 jaar geleden.
Onderzoek in Datavisualisatie
Er zijn grote mogelijkheden voor toekomstig onderzoek in datavisualisatie. Er zijn principes nodig over hoe te beslissen welke van de vele mogelijke afbeeldingen moet worden getekend. Het is geen kwestie van het tekenen van een enkele, ‘optimale’ afbeelding, als zoiets al zou bestaan; het is een kwestie van het kiezen van een groep afbeeldingen die meer informatie oplevert. Het is als het nemen van foto’s van een ingewikkeld object, een enkele zou niet genoeg zijn, en foto’s nemen vanuit elke mogelijke hoek en afstand zou veel te veel zijn. Sets van afbeeldingen zijn nuttig om context te bieden, zoals de scatterplots in Klimek, Yegorov, Hanel, en Thurner (2012) laten zien.
Meer begrip van het combineren en koppelen van afbeeldingen is nodig, of het nu in statische ensembles of in interactieve displays is, net zoals betere software hiervoor nodig is. De waarde van uitlijning en gemeenschappelijke schaling voor het maken van effectieve vergelijkingen, bijvoorbeeld met kleine veelvouden en faceting (het weergeven van veel grafieken van dezelfde vorm afhankelijk van andere variabelen) is hier een onderdeel van. Het is een historische curiositeit dat het huidige opwindende werk op het gebied van interactieve grafieken op het Web nog steeds achterloopt op standalone systemen die meer dan 30 jaar geleden al beschikbaar waren voor het koppelen van meerdere vensters. Data Desk en JMP waren toen commerciële voorbeelden (zie Velleman, 2019, en Sall, 2019, voor huidige versies).
Gepubliceerde grafieken zijn soms aantrekkelijk en mooi geproduceerd. De inhoud komt niet altijd overeen. Dat kan komen doordat auteurs en uitgevers niet verwachten dat de graphics in detail worden bestudeerd. Ze kunnen als illustratie zijn toegevoegd om de lay-out in evenwicht te brengen en aangenamer te maken. Als u geen geschikte foto, cartoon of kaart hebt, zou u een kleurrijke statistische grafiek kunnen gebruiken. Ik heb mensen vaak horen zeggen dat zij getallen niet begrijpen en op school slecht waren in wiskunde. Niemand heeft ooit tegen mij gezegd dat hij grafieken niet begrijpt, misschien omdat hij ze als illustraties beschouwt en niet als centrale onderdelen van een betoog. Er is werk aan de winkel om onderzoekers en lezers voor te lichten over de waarde van grafische voorstellingen.
Onderzoek naar nieuwe en innovatieve grafische voorstellingen is opwindend en productief. Tegelijkertijd is het van essentieel belang om zo goed mogelijk gebruik te maken van bekende en goed begrepen grafische voorstellingen. Het gevaar bestaat dat de nadruk op nieuwigheid ten koste gaat van vertrouwdheid. Nieuwe, vernieuwende grafische voorstellingen vereisen instructie en ervaring om ze te interpreteren. Hun ontwerpers hebben veel tijd besteed aan de ontwikkeling ervan en zijn er redelijkerwijs van overtuigd dat wat voor hen vanzelfsprekend is, voor iedereen vanzelfsprekend moet zijn. Denk maar aan de nederige scatterplot. Het is pas de laatste jaren dat scatterplots in de media zijn verschenen, hoewel zij een van de belangrijkste statistische grafieken zijn. Als je er nog nooit een hebt gezien, kunnen ze intimiderend zijn, zeker als je te horen krijgt “Het is duidelijk dat…” of “Je kunt gemakkelijk zien dat… We moeten voortbouwen op het bekende om onze lezers mee te nemen.
Voorbeelden en bronnen
De visualisaties die ik mooi vind, zijn misschien niet de visualisaties die u mooi vindt. Ik dring er bij u op aan uitgebreid te zoeken en zelf te oordelen. Veel interessant en tot nadenken stemmend materiaal is te vinden in Tufte’s klassieke boeken (bijv. Tufte, 2001), en in de weergaven door de New York Times door de jaren heen (bijv. New York Times, 2018). Ook andere kranten en media hebben uitstekend werk geleverd. Dit zijn natuurlijk presentatiegrafieken, maar ze bieden veel om mee bezig te zijn. Het is moeilijk om een keuze te maken uit de vele afzonderlijke webpagina’s met voorbeelden en discussies, maar Visualising Data is een site die over het hele web hoogtepunten aanbeveelt. De huidige belangstelling en activiteit op het gebied van graphics zijn zeer welkom.
What Happens Now?
Het onderwijzen van mensen in het kiezen, tekenen en interpreteren van graphics is moeilijker dan je zou denken. Datavisualisatie wordt niet slecht onderwezen, het wordt gewoon niet veel onderwezen. Idealiter zou er een betere theorie moeten komen, en bijgevolg betere graphics. Dat zal tijd kosten. In de tussentijd moeten we:
-meer over graphics discussiëren;
-meer graphics interpreteren;
-meer graphics onderwijzen.
Daniels, M. (2018). “Human Terrain.” https://pudding.cool/2018/10/city_3d/
Hand, D. (2019). Wat is het doel van statistische modellering? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz
Instituut voor de Overheid. (2019). Ministeriële ontslagnemingen buiten herschikkingen, per minister-president. Op 14 augustus 2019 ontleend aan https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister
Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Statistische opsporing van systematische verkiezingsonregelmatigheden. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469
marastats. (2019). Algemene marathon stats. Op 14 augustus 2019 ontleend aan https://marastats.com/marathon/
New York Times. (2018, 31 december). 2018: Het jaar in visuele verhalen en grafieken. https://www. nytimes.com/interactive/2018/us/2018-jaar-in-graphics.html
Sall, J. (2019). JMP. Op 8 augustus 2019 ontleend aan http://www.jmp.com
Student. (1931). Het Lanarkshire Melk Experiment. Biometrika, 23, 398-406.
Theus, M. (2015). Tour de France 2015. Retrieved August 14, 2019, from http://www.theusrus.de/blog/tour-de-france-2015/
Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.
Unwin, A. (2015). Het bestuderen van multivariate categorische gegevens. Retrieved August 14, 2019, from http://www.gradaanwr.net/content/ch07/
Velleman, P. (2019). Data Desk. Retrieved August 8, 2019, from http://www.datadesk.com
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis (2nd ed.). New York, NY: Springer-Verlag. Retrieved from https://ggplot2.tidyverse.org
Wilkinson, L. (2005). De grammatica van grafieken (2e ed.). New York, NY: Springer.