Articles

Warum ist Datenvisualisierung wichtig? Was ist wichtig bei der Datenvisualisierung?

Rubrik Anmerkung der Redaktion: Die Visualisierung von Daten, ermöglicht durch die Leistungsfähigkeit des Computers, stellt eines der grundlegenden Werkzeuge der modernen Datenwissenschaft dar. Professor Antony Unwin von der Universität Augsburg beschreibt die verschiedenen Arten, wie Datenvisualisierung verwendet wird, untersucht die Möglichkeiten für zukünftige Forschung in diesem Bereich und untersucht, wie Datenvisualisierung gelehrt wird.

Datenvisualisierung bedeutet, dass grafische Darstellungen gezeichnet werden, um Daten zu zeigen. Manchmal wird jeder Datenpunkt gezeichnet, wie bei einem Scatterplot, manchmal werden statistische Zusammenfassungen gezeigt, wie bei einem Histogramm. Die Darstellungen sind hauptsächlich deskriptiv und konzentrieren sich auf „Rohdaten“ und einfache Zusammenfassungen. Sie können auch transformierte Daten darstellen, die manchmal auf komplizierten Transformationen beruhen. Was für den einen Statistik ist, kann für den anderen Rohdaten sein. Wie bei anderen Aspekten der Arbeit mit Grafiken wäre es nützlich, eine gemeinsame Basis von Konzepten und Terminologie zu haben, auf der man aufbauen kann. Das Hauptziel besteht darin, Daten und Statistiken zu visualisieren und die Anzeigen zu interpretieren, um Informationen zu gewinnen.

Datenvisualisierung ist nützlich für die Datenbereinigung, die Untersuchung der Datenstruktur, die Erkennung von Ausreißern und ungewöhnlichen Gruppen, die Identifizierung von Trends und Clustern, das Erkennen lokaler Muster, die Bewertung von Modellierungsergebnissen und die Präsentation von Ergebnissen. Sie ist für die explorative Datenanalyse und das Data Mining unerlässlich, um die Datenqualität zu überprüfen und den Analytikern zu helfen, sich mit der Struktur und den Merkmalen der Daten vertraut zu machen. Dies ist ein Teil der Datenanalyse, der in Lehrbüchern unterschätzt wird, in der Praxis jedoch ständig präsent ist. Schauen Sie sich beispielsweise die einseitigen Spitzen in den Verteilungen der Marathonendzeiten an (marastats, 2019).

Grafiken zeigen Datenmerkmale auf, die Statistiken und Modellen möglicherweise entgehen: ungewöhnliche Verteilungen von Daten, lokale Muster, Cluster, Lücken, fehlende Werte, Anzeichen für Rundungen oder Häufungen, implizite Grenzen, Ausreißer usw. Grafiken werfen Fragen auf, die die Forschung anregen und Ideen vorschlagen. Das klingt einfach. Tatsächlich erfordert die Interpretation von Grafiken Erfahrung, um potenziell interessante Merkmale zu erkennen, und statistischen Scharfsinn, um sich vor den Gefahren einer Überinterpretation zu schützen. So wie Grafiken nützlich sind, um Modellergebnisse zu überprüfen, sind Modelle nützlich, um aus Grafiken abgeleitete Ideen zu überprüfen (mehr zu Modellen siehe Hand, 2019).

Dieser Überblick konzentriert sich auf statische Grafiken. Dynamische Grafiken und vor allem interaktive Grafiken befinden sich in einem spannenden Entwicklungsstadium und haben noch viel zu bieten. Sie erfordern einen eigenen Artikel. Hervorragende Beispiele sind Human Terrain, eine dynamische Grafik, die die Weltbevölkerung in 3-D zeigt, und der interaktive NameVoyager.

‚Ein Bild sagt mehr als tausend Worte‘

Berühmte Sprichwörter haben die Eigenschaft, ein Eigenleben zu entwickeln. Ein Bild ist kein Ersatz für tausend Worte; es braucht tausend Worte (oder mehr). Für eine Datenvisualisierung muss man den Kontext kennen, die Quelle der Daten, wie und warum sie gesammelt wurden, ob noch mehr gesammelt werden könnten, die Gründe für die Darstellung und wie Menschen mit dem nötigen Hintergrundwissen raten, sie zu interpretieren. Es gibt eine Geschichte, dass M. G. Kendall ein Buch von R. A. Fisher mit den Worten rezensierte: „Niemand sollte dieses Buch lesen, der es nicht schon gelesen hat.“ So verhält es sich auch mit Grafiken. Wenn man den gesamten Begleittext gelesen hat, ist die Darstellung oft einprägsam und leicht verständlich. Wenn man sie nicht gelesen hat, ist sie es nicht. Grafiken allein sind unzureichend, sie sind Teil eines Ganzen. Sie ergänzen den Text und werden durch den Text ergänzt. Student’s Reanalyse des Lanarkshire Milk Experiments (Student, 1931) ist ein hervorragendes Beispiel (und ist auch als frühe Analyse eines großen Datensatzes interessant).

Die potentielle Synergie von Text und Grafik kann geschätzt werden, indem man über seine eigenen Grafiken spricht und sie anderen erklärt. Warum haben Sie diese Grafiken gezeichnet? Wie haben Sie sie gezeichnet? Was ist zu sehen? Gibt es interessante Muster? Was könnte verändert und verbessert werden? Welche anderen Grafiken könnten gezeichnet werden? Wie können die Schlussfolgerungen überprüft werden? Man sollte mehr über Grafiken sprechen und sich weniger darauf verlassen, dass die Grafiken für sich selbst sprechen.

Wenn es um Grafiken geht, die man nicht selbst gezeichnet hat, sind die gleichen Fragen immer noch relevant, auch wenn sie vielleicht schwieriger zu beantworten sind. Edward Tufte bezeichnete Charles Minards Darstellung von Napoleons Russlandfeldzug als die beste statistische Grafik, die je gezeichnet wurde (Tufte, 2001). Es ist eine großartige Grafik, die das Lob voll und ganz verdient, doch wie Lee Wilkinson in seinem Buch The Grammar of Graphics (Wilkinson, 2005) dargelegt hat, enthält die Darstellung Ungenauigkeiten und Unschärfen. Warum hat niemand vorher darauf hingewiesen? Wir sind zu sehr daran gewöhnt, Grafiken unkritisch zu akzeptieren und sie nicht ausreichend zu hinterfragen.

Präsentations- und Sondierungsgrafiken

Präsentations- und Sondierungsgrafiken sind ganz unterschiedliche Dinge. Wenn Sie Ihre Ergebnisse präsentieren, haben Sie vielleicht nur Platz für eine Grafik und wissen nicht, wie viele Leute sie sehen werden. Wenn sie in einer Zeitung, im Fernsehen oder im Internet erscheint, könnte Ihr Publikum aus Millionen von Menschen bestehen. Die Grafik sollte gut gestaltet und gezeichnet sein und einen aussagekräftigen Begleittext enthalten. Wenn Sie hingegen Daten erforschen, brauchen Sie viele, viele Grafiken, die sich an ein einziges Publikum richten: an Sie selbst. Die einzelnen Grafiken müssen nicht perfekt sein, aber sie sollten alternative Ansichten und zusätzliche Informationen bieten. Präsentationsgrafiken werden verwendet, um bekannte Informationen zu vermitteln, und sollen oft die Aufmerksamkeit auf sich ziehen. Sondierungsgrafiken werden verwendet, um neue Informationen zu finden, und sollen die Aufmerksamkeit auf die Informationen lenken.

Veröffentlichte Grafiken sind in der Regel Präsentationsgrafiken, zum einen, weil sie zur Veröffentlichung bestimmt sind, und zum anderen, weil niemand Hunderte von schnellen Grafiken sehen will, die vielleicht hilfreich waren oder auch nicht. Es ist ein bisschen wie bei mathematischen Beweisen: Artikel enthalten die eleganten und präzisen Endfassungen, nicht die gekritzelten Notizen und zufälligen Ideen, die vorher da waren. Wie viele Grafiken wurden wohl gezeichnet, bevor die auffällige Darstellung gewählt wurde, um die Rücktritte der britischen Kabinettsminister in den letzten Jahren zu zeigen (Institute for Government, 2019)?

Erkundungsgrafiken machen sich zunutze, wie einfach es heute ist, Grafiken zu zeichnen und neu zu zeichnen. Was früher ein langsamer und mühsamer Prozess war, der sogar das Ausdrucken von Anzeigen beinhaltete, ist heute schnell und flexibel geworden. Gleichzeitig sind aber auch neue, zusätzliche Fähigkeiten erforderlich. Das Erkennen interessanter Merkmale und das Wissen, wie man sie unter einer Vielzahl möglicher Grafiken genauer prüft, ist nicht nur eine Frage des Zeichnens vieler Grafiken, sondern man braucht auch Interpretationsfähigkeiten und ein Gespür dafür, welche Grafiken welche Art von Informationen liefern. Es gibt so vieles, was variiert werden kann: die dargestellten Variablen, die Art der Grafiken, die Größe der Grafiken und ihr Seitenverhältnis, die verwendeten Farben und Symbole, die Skalen und Grenzwerte, die Anordnung der kategorialen Variablen, die Anordnung der Variablen in multivariaten Darstellungen. Die Auswahl aus dem breiten Spektrum an Grafiken und das Verständnis für die Gewinnung von Erkenntnissen sind keine trivialen Aufgaben. Das Fehlen einer Theorie der Datenvisualisierung, an der man sich orientieren und auf der man aufbauen kann, ist ein zentrales Problem.

Datenvisualisierung ist wichtiger geworden

Bessere Hardware hat eine präzisere Wiedergabe, bessere Farben (einschließlich Alpha-Blending) und schnelleres Zeichnen ermöglicht. Bessere Software bedeutet einfacheres und flexibleres Zeichnen, einheitliche Themen und höhere Standards. Informatiker haben sich viel stärker engagiert, sowohl auf technischer Seite als auch bei der Einführung neuer Ansätze. Es gab Fortschritte bei der Entwicklung einer Theorie der Grafik, insbesondere dank Wilkinsons Grammatik der Grafik (2005) und Hadley Wickhams Umsetzung im R-Paket ggplot2 (Wickham, 2016). Die Arbeit wird fortgesetzt und das Verständnis für die Probleme von Farbe und Wahrnehmung verbessert. Grafiken, die selten verwendet wurden und schwer zu zeichnen waren, wie parallele Koordinatenplots (z. B. Theus, 2015) und Mosaikplots (z. B. Unwin, 2015), wurden verfeinert und weiterentwickelt. Es können viel größere Datensätze analysiert und visualisiert werden, und Grafiken können eine wertvolle Rolle bei der Diagnose der Stärken und Schwächen komplexer Modelle spielen. Datenvisualisierungen sind überall zu finden, in wissenschaftlichen Veröffentlichungen, in Zeitungen und im Fernsehen sowie im Internet. Es gibt viele Webseiten, auf denen Grafiken diskutiert und erörtert werden. Das ist eine enorme Verbesserung gegenüber der Situation von vor 20 Jahren.

Forschung im Bereich Datenvisualisierung

Es gibt große Möglichkeiten für zukünftige Forschung im Bereich Datenvisualisierung. Es werden Prinzipien benötigt, wie man entscheiden kann, welche der vielen möglichen Grafiken man zeichnen soll. Es geht nicht darum, eine einzige „optimale“ Grafik zu zeichnen, falls es so etwas überhaupt gibt; es geht darum, eine Gruppe von Grafiken auszuwählen, die mehr Informationen liefern. Es ist so, als würde man ein kompliziertes Objekt fotografieren. Ein einziges Foto würde nicht ausreichen, und Bilder aus allen möglichen Winkeln und Entfernungen zu machen, wäre viel zu viel. Gruppen von Grafiken sind nützlich, um Kontext zu liefern, wie die Streudiagramme in Klimek, Yegorov, Hanel und Thurner (2012) zeigen.

Es bedarf eines besseren Verständnisses für die Kombination und Verknüpfung von Grafiken, sei es in statischen Ensembles oder in interaktiven Darstellungen, und es bedarf einer besseren Software für diese. Der Wert der Ausrichtung und der gemeinsamen Skalierung für wirksame Vergleiche, z.B. mit kleinen Vielfachen und Facettierung (Anzeige vieler Grafiken derselben Form, die von anderen Variablen abhängen), ist ein Teil davon. Es ist ein historisches Kuriosum, dass die derzeitige spannende Arbeit an interaktiven Grafiken im Web immer noch hinter eigenständigen Systemen zurückbleibt, die bereits vor mehr als 30 Jahren für die Verknüpfung mehrerer Fenster zur Verfügung standen. Data Desk und JMP waren damals kommerzielle Beispiele (siehe Velleman, 2019, und Sall, 2019, für aktuelle Versionen).

Publizierte Grafiken sind manchmal attraktiv und schön produziert. Der Inhalt passt nicht immer dazu. Das mag daran liegen, dass Autoren und Verlage nicht erwarten, dass die Grafiken im Detail untersucht werden. Sie können als Illustrationen hinzugefügt werden, um das Layout auszugleichen und es ansprechender zu machen. Wenn Sie kein passendes Foto, keine Karikatur oder Karte haben, können Sie eine bunte statistische Grafik verwenden. Ich habe schon oft gehört, dass Menschen sagen, sie verstünden nichts von Zahlen und seien in der Schule schlecht in Mathematik gewesen. Mir hat noch nie jemand gesagt, dass er Grafiken nicht versteht, vielleicht weil er sie als Illustrationen und nicht als zentrale Bestandteile eines Arguments betrachtet. Es gibt noch viel zu tun, um Forschern und Lesern den Wert von Grafiken zu vermitteln.

Die Erforschung neuer und innovativer Grafiken ist spannend und produktiv. Gleichzeitig ist es wichtig, bekannte und gut verstandene Grafiken bestmöglich zu nutzen. Es besteht die Gefahr, dass die Betonung der Neuartigkeit auf Kosten der Vertrautheit geht. Neue, innovative Grafiken brauchen Anleitung und Erfahrung, um sie zu interpretieren. Ihre Designer haben viel Zeit mit ihrer Entwicklung verbracht und glauben vernünftigerweise, dass das, was für sie offensichtlich ist, für jeden offensichtlich sein sollte. Man denke nur an die einfache Punktwolke. Erst in den letzten Jahren sind Streudiagramme in den Medien aufgetaucht, obwohl sie eine der wichtigsten statistischen Grafiken sind. Wenn Sie noch nie eine gesehen haben, können sie einschüchternd wirken, erst recht, wenn man Ihnen sagt: „Es ist klar, dass…“ oder „Sie können leicht sehen, dass…“. Wir sollten auf dem Vertrauten aufbauen, um unsere Leser mitzunehmen.

Beispiele und Quellen

Die Visualisierungen, die ich mag, sind vielleicht nicht die Visualisierungen, die Sie mögen. Ich fordere Sie auf, ausgiebig zu suchen und selbst zu urteilen. Viel interessantes und zum Nachdenken anregendes Material findet sich in den klassischen Büchern von Tufte (z. B. Tufte, 2001) und in den Darstellungen der New York Times über die Jahre (z. B. New York Times, 2018). Auch andere Zeitungen und Medien haben hervorragende Arbeit geleistet. Natürlich handelt es sich dabei um Präsentationsgrafiken, aber sie bieten viel, mit dem man sich beschäftigen kann. Es ist schwierig, unter den vielen einzelnen Webseiten, die Beispiele und Diskussionen bieten, eine Auswahl zu treffen, aber Visualising Data ist eine Seite, die Highlights im gesamten Web empfiehlt. Das derzeitige Interesse und die Aktivität im Bereich der Grafiken sind sehr zu begrüßen.

Was passiert jetzt?

Das Auswählen, Zeichnen und Interpretieren von Grafiken zu lehren ist schwieriger als man denkt. Datenvisualisierung wird nicht schlecht gelehrt, sie wird nur nicht sehr viel gelehrt. Idealerweise sollte es eine bessere Theorie und folglich auch bessere Grafiken geben. Das wird Zeit brauchen. In der Zwischenzeit sollten wir:

-mehr über Grafiken diskutieren;

-mehr Grafiken interpretieren;

-mehr Grafiken lehren.

Daniels, M. (2018). „Human Terrain.“ https://pudding.cool/2018/10/city_3d/

Hand, D. (2019). Was ist der Zweck der statistischen Modellierung? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz

Institute for Government. (2019). Rücktritte von Ministern außerhalb von Umbesetzungen, nach Premierminister. Abgerufen am 14. August 2019, von https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister

Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Statistische Erkennung von systematischen Wahlunregelmäßigkeiten. PNAS, 109, 16469-16473. https://www.pnas.org/content/109/41/16469

Marastats. (2019). General marathon stats. Retrieved August 14, 2019, from https://marastats.com/marathon/

New York Times. (2018, December 31). 2018: Das Jahr in visuellen Geschichten und Grafiken. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html

Sall, J. (2019). JMP. Abgerufen am 8. August 2019, von http://www.jmp.com

Student. (1931). The Lanarkshire Milk Experiment. Biometrika, 23, 398-406.

Theus, M. (2015). Tour de France 2015. Retrieved August 14, 2019, from http://www.theusrus.de/blog/tour-de-france-2015/

Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.

Unwin, A. (2015). Studying multivariate kategoriale Daten. Retrieved August 14, 2019, from http://www.gradaanwr.net/content/ch07/

Velleman, P. (2019). Data Desk. Retrieved August 8, 2019, from http://www.datadesk.com

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis (2nd ed.). New York, NY: Springer-Verlag. Abgerufen von https://ggplot2.tidyverse.org

Wilkinson, L. (2005). The grammar of graphics (2nd ed.). New York, NY: Springer.