Varför är datavisualisering viktigt? Vad är viktigt med datavisualisering?
Redaktörens anmärkning: Datavisualisering, som underlättas av datorns kraft, är ett av de grundläggande verktygen inom modern datavetenskap. Professor Antony Unwin från universitetet i Augsburg beskriver olika sätt på vilka datavisualisering används, utforskar möjligheterna till framtida forskning inom området och tittar på hur datavisualisering lärs ut.
Datavisualisering innebär att man ritar grafiska bilder för att visa data. Ibland ritas varje datapunkt, som i en scatterplot, ibland kan statistiska sammanfattningar visas, som i ett histogram. Visningarna är huvudsakligen beskrivande och koncentrerar sig på ”råa” data och enkla sammanfattningar. De kan innehålla visningar av transformerade data, ibland baserade på komplicerade transformationer. En persons statistik kan vara en annan persons rådata. Liksom när det gäller andra aspekter av arbetet med grafik är det bra att ha en överenskommen bas av begrepp och terminologi att bygga vidare på. Huvudmålet är att visualisera data och statistik och tolka visningarna för att få information.
Datavisualisering är användbar för datarengöring, utforskning av datastruktur, upptäckt av outliers och ovanliga grupper, identifiering av trender och kluster, upptäckt av lokala mönster, utvärdering av modelleringsutfall och presentation av resultat. Det är viktigt för utforskande dataanalys och datautvinning för att kontrollera datakvaliteten och för att hjälpa analytiker att bekanta sig med strukturen och egenskaperna hos de data som ligger framför dem. Detta är en del av dataanalysen som är underskattad i läroböcker, men som är ständigt närvarande i faktiska undersökningar. Titta till exempel på de ensidiga topparna i fördelningen av sluttider för maratonlopp (marastats, 2019).
Grafik avslöjar dataegenskaper som statistik och modeller kan missa: ovanliga datafördelningar, lokala mönster, kluster, luckor, saknade värden, tecken på avrundning eller hopslagning, implicita gränser, outliers och så vidare. Grafiken väcker frågor som stimulerar till forskning och föreslår idéer. Det låter enkelt. I själva verket krävs det erfarenhet för att tolka grafik för att identifiera potentiellt intressanta egenskaper och statistisk kunskap för att skydda sig mot farorna med övertolkning. Precis som grafik är användbar för att kontrollera modellresultat är modeller användbara för att kontrollera idéer som härrör från grafik (för mer om modeller, se Hand, 2019).
Denna översikt koncentrerar sig på statisk grafik. Dynamisk grafik och framför allt interaktiv grafik befinner sig i ett spännande utvecklingsskede och har mycket att tillföra. De kräver en egen artikel. Superba exempel är Human Terrain, en dynamisk grafik som visar världens befolkning i 3D, och den interaktiva NameVoyager.
’A Picture Is Worth a Thousand Words’
Kända ordspråk har ett sätt att utveckla ett eget liv. En bild är inte en ersättning för tusen ord; den behöver tusen ord (eller mer). För datavisualisering måste man känna till sammanhanget, källan till data, hur och varför de samlades in, om fler kunde samlas in, skälen för att rita upp visningarna och hur människor med nödvändig bakgrundskunskap råder att de skulle kunna tolkas. Det finns en historia om att M. G. Kendall recenserade en bok av R. A. Fisher med orden: ”Ingen bör läsa den här boken som inte redan har läst den”. Det är likadant med grafik. Om man har läst all stödtext är grafiken ofta minnesvärd och lättförståelig. Om man inte har gjort det är den det inte. Grafik i sig själv är otillräcklig, den är en del av en helhet. De kompletterar texten och kompletteras av texten. Students reanalys av Lanarkshire Milk Experiment (Student, 1931) är ett utmärkt exempel (och är också intressant som en tidig analys av en stor datamängd).
Den potentiella synergieffekten av text och grafik kan uppskattas genom att man talar igenom sin egen grafik och förklarar den för andra. Varför har du ritat den här grafiken? Hur har du ritat dem? Vad kan man se? Finns det intressanta mönster? Vad skulle kunna ändras och förbättras? Vilka andra grafiska bilder skulle kunna ritas? Hur kan slutsatserna kontrolleras? Man bör prata mer om grafik och mindre förlita sig på att grafiken ska tala för sig själv.
När det gäller grafik som du inte har ritat själv är samma slags frågor fortfarande relevanta, även om de kan vara svårare att besvara. Edward Tufte beskrev Charles Minards visning av Napoleons ryska fälttåg som den bästa statistiska grafik som någonsin ritats (Tufte, 2001). Det är en magnifik grafik som förtjänar all beröm, men som Lee Wilkinson har påpekat i sin bok The Grammar of Graphics (Wilkinson, 2005) finns det felaktigheter och oklarheter i bilden. Varför har ingen påpekat dem tidigare? Vi är alltför vana vid att acceptera grafik okritiskt och ställer inte tillräckligt många frågor om den.
Presentation och utforskande grafik
Presentation och utforskande grafik är helt olika djur. När du presenterar dina resultat har du kanske bara plats för en grafik och ingen aning om hur många som kan se den. Om den publiceras i en tidning, på TV eller på webben kan din publik vara miljontals människor. Grafiken bör vara väl utformad och vältecknad med en effektiv förklarande text. Om du däremot utforskar data behöver du många, många bilder och de är avsedda för en enda publik: dig själv. Den enskilda grafiken behöver inte vara perfekt, men den bör ge alternativa vyer och ytterligare information. Presentationsgrafik används för att förmedla känd information och är ofta utformad för att väcka uppmärksamhet. Utforskande grafik används för att hitta ny information och bör rikta uppmärksamheten mot informationen.
Publicerad grafik tenderar att vara presentationsgrafik, dels för att den är avsedd för publicering och dels för att ingen vill se hundratals snabba grafik som kanske eller kanske inte har varit till hjälp. Det är ungefär som med matematiska bevis: artiklar innehåller de eleganta och koncisa slutversionerna, inte de klottrade anteckningar och slumpmässiga idéer som kom före. Hur många grafiker kan ha ritats innan den slående displayen valdes för att visa de brittiska kabinettministrarnas avgångar under de senaste åren (Institute for Government, 2019)?
Explorativ grafik drar nytta av hur lätt det nu är att rita och rita om grafik. Det som tidigare var en långsam och slitsam process, där det till och med ingick att behöva skriva ut skärmar, har blivit snabbt och flexibelt. Samtidigt krävs nya, ytterligare färdigheter. Att identifiera intressanta egenskaper och veta hur man kontrollerar dem mer i detalj bland en myriad av möjliga grafiska element är inte bara en fråga om att rita många grafiska element, utan man behöver också tolkningsförmåga och en förståelse för vilka grafiska element som ger vilken typ av information. Det finns så mycket som kan varieras: de variabler som visas, typerna av grafik, grafikens storlek och bildförhållande, de färger och symboler som används, skalor och gränser, ordningsföljden för kategoriska variabler, ordningsföljden för variabler i multivariata visningar. Att på ett klokt sätt välja bland det breda utbudet av grafik och att förstå hur man ska få insikter är inga triviala uppgifter. Avsaknaden av en teori om datavisualisering att vägleda och bygga vidare på är ett nyckelproblem.
Datavisualisering har blivit viktigare
Bättre hårdvara har inneburit exaktare återgivning, bättre färger (inklusive alfabetisering) och snabbare ritning. Bättre programvara har inneburit enklare och mer flexibel ritning, konsekventa teman och högre standarder. Datavetare har blivit mycket mer involverade, både på den tekniska sidan och när det gäller att introducera nya tillvägagångssätt. Det har gjorts framsteg när det gäller att utveckla en teori om grafik, särskilt tack vare Wilkinsons Grammar of Graphics (2005) och Hadley Wickhams genomförande av den i R-paketet ggplot2 (Wickham, 2016). Det pågår fortsatt arbete och bättre förståelse för problemen med färg och perception. Grafiker som sällan användes och var svåra att rita, t.ex. parallella koordinatplottar (t.ex. Theus, 2015) och mosaikplottar (t.ex. Unwin, 2015), har förfinats och utvecklats. Mycket större datamängder kan analyseras och visualiseras och grafik kan spela en värdefull roll för att diagnostisera styrkor och svagheter hos komplexa modeller. Datavisualiseringar finns överallt, i vetenskapliga publikationer, i tidningar och TV och på webben. Det finns många webbsidor där grafik diskuteras och debatteras. Detta är en enorm förbättring jämfört med situationen för ens 20 år sedan.
Forskning inom datavisualisering
Det finns stora möjligheter för framtida forskning inom datavisualisering. Det behövs principer för hur man bestämmer vilken av de många möjliga grafikerna som ska ritas. Det handlar inte om att rita en enda ”optimal” grafik, om en sådan ens existerar; det handlar om att välja en grupp av grafik som ger mer information. Det är som att fotografera ett komplicerat objekt, ett enda skulle inte räcka, och att ta bilder från alla möjliga vinklar och avstånd skulle vara alldeles för många. Satser av grafik är användbara för att ge ett sammanhang, som spridningsdiagrammen i Klimek, Yegorov, Hanel och Thurner (2012) visar.
Det behövs mer förståelse för att kombinera och länka grafik, oavsett om det är i statiska ensembler eller i interaktiva skärmar, precis som det behövs bättre programvara för dessa. Värdet av anpassning och gemensam skalning för att göra effektiva jämförelser, t.ex. med små multiplar och facetter (visning av många grafiska bilder av samma form som betingas av andra variabler) är en del av detta. Det är en historisk kuriositet att det nuvarande spännande arbetet med interaktiv grafik på webben fortfarande släpar efter de fristående system som fanns tillgängliga redan för mer än 30 år sedan när det gäller att koppla ihop flera fönster. Data Desk och JMP var kommersiella exempel på den tiden (se Velleman, 2019, och Sall, 2019, för aktuella versioner).
Publicerad grafik är ibland attraktiv och vackert producerad. Innehållet stämmer inte alltid överens. Det kan bero på att författare och förläggare inte förväntar sig att grafiken ska granskas i detalj. De kan läggas till som illustrationer för att balansera layouten och få den att se mer behaglig ut. Om du inte har ett lämpligt fotografi, en tecknad film eller en karta kan du använda en färgstark statistikgrafik. Jag har många gånger hört människor säga att de inte förstår siffror och var dåliga på matematik i skolan. Ingen har någonsin sagt till mig att de inte förstår grafik, kanske för att de betraktar dem som illustrationer och inte som centrala delar av ett argument. Det finns ett arbete att göra för att utbilda forskare och läsare i värdet av grafik.
Forskning om ny och innovativ grafik är spännande och produktiv. Samtidigt är det viktigt att på bästa sätt använda känd och välkänd grafik. Det finns en risk för att man betonar nyheten på bekostnad av det välkända. Ny, innovativ grafik behöver undervisning och erfarenhet för att kunna tolkas. Deras formgivare har ägnat mycket tid åt att utveckla dem och tror rimligen att det som är uppenbart för dem bör vara uppenbart för alla. Tänk bara på det enkla spridningsdiagrammet. Det är först på senare år som spridningsdiagram har dykt upp i media, trots att de är en av de viktigaste statistiska diagrammen. Om man aldrig har sett en sådan tidigare kan de vara skrämmande, särskilt när man får höra ”Det är uppenbart att…” eller ”Det är lätt att se att…”. Vi bör bygga på det bekanta för att ta med oss våra läsare.
Exempel och källor
De visualiseringar jag gillar kanske inte är de visualiseringar du gillar. Jag uppmanar er att söka flitigt och bedöma själva. Mycket intressant och tankeväckande material finns i Tuftes klassiska böcker (t.ex. Tufte, 2001) och i de visningar som New York Times har gjort genom åren (t.ex. New York Times, 2018). Andra tidningar och medier har också producerat utmärkta arbeten. Dessa är naturligtvis presentationsgrafik, men de erbjuder mycket att engagera sig i. Det är svårt att göra ett val bland de många enskilda webbsidor som ger exempel och diskussioner, men Visualising Data är en webbplats som rekommenderar höjdpunkter på hela webben. Det nuvarande intresset och aktiviteten för grafik är mycket välkomna.
Vad händer nu?
Att utbilda människor i att välja, rita och tolka grafik är svårare än man kan tro. Datavisualisering lärs inte ut dåligt, det lärs bara inte ut särskilt mycket alls. Helst borde det finnas bättre teori och följaktligen bättre grafik. Det kommer att ta tid. Under tiden bör vi:
-diskutera mer grafik mer;
-tolka mer grafik mer;
-undervisa mer grafik mer.
Daniels, M. (2018). ”Human Terrain”. https://pudding.cool/2018/10/city_3d/
Hand, D. (2019). Vad är syftet med statistisk modellering? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz
Institutet för statsförvaltning. (2019). Ministeravgångar utanför ombildningar, efter premiärminister. Hämtad 14 augusti 2019 från https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister
Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Statistisk upptäckt av systematiska oegentligheter vid val. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469
marastats. (2019). Allmän maratonstatistik. Hämtad 14 augusti 2019 från https://marastats.com/marathon/
New York Times. (2018, 31 december). 2018: Året i visuella berättelser och grafik. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html
Sall, J. (2019). JMP. Hämtad 8 augusti 2019 från http://www.jmp.com
Student. (1931). The Lanarkshire Milk Experiment. Biometrika, 23, 398-406.
Theus, M. (2015). Tour de France 2015. Hämtad 14 augusti 2019 från http://www.theusrus.de/blog/tour-de-france-2015/
Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.
Unwin, A. (2015). Att studera multivariata kategoriska data. Hämtad 14 augusti 2019 från http://www.gradaanwr.net/content/ch07/
Velleman, P. (2019). Data Desk. Hämtad 8 augusti 2019 från http://www.datadesk.com
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis (2nd ed.). New York, NY: Springer-Verlag. Hämtad från https://ggplot2.tidyverse.org
Wilkinson, L. (2005). The grammar of graphics (2nd ed.). New York, NY: Springer.