Perché è importante la visualizzazione dei dati? Cosa è importante nella visualizzazione dei dati?
Nota dell’editore: La visualizzazione dei dati, facilitata dalla potenza del computer, rappresenta uno degli strumenti fondamentali della moderna scienza dei dati. Il professor Antony Unwin dell’Università di Augsburg descrive i diversi modi in cui viene utilizzata la visualizzazione dei dati, esplora le opportunità per la ricerca futura nel settore ed esamina come viene insegnata la visualizzazione dei dati.
Visualizzazione dei dati significa disegnare display grafici per mostrare i dati. A volte viene disegnato ogni punto dei dati, come in un grafico a dispersione, a volte possono essere mostrate sintesi statistiche, come in un istogramma. Le visualizzazioni sono principalmente descrittive, concentrandosi su dati ‘grezzi’ e semplici riassunti. Possono includere visualizzazioni di dati trasformati, a volte basati su trasformazioni complicate. Le statistiche di una persona possono essere i dati grezzi di un’altra. Come per altri aspetti del lavoro con la grafica, sarebbe utile avere una base concordata di concetti e terminologia da cui partire. L’obiettivo principale è quello di visualizzare i dati e le statistiche, interpretando le visualizzazioni per ottenere informazioni.
La visualizzazione dei dati è utile per la pulizia dei dati, l’esplorazione della struttura dei dati, l’individuazione di outlier e gruppi insoliti, l’identificazione di tendenze e cluster, l’individuazione di modelli locali, la valutazione dei risultati della modellazione e la presentazione dei risultati. È essenziale per l’analisi esplorativa dei dati e il data mining per controllare la qualità dei dati e per aiutare gli analisti a familiarizzare con la struttura e le caratteristiche dei dati davanti a loro. Questa è una parte dell’analisi dei dati che è sottovalutata nei libri di testo, ma sempre presente nelle indagini reali. Guardate, per esempio, i picchi unilaterali nelle distribuzioni dei tempi di arrivo delle maratone (marastats, 2019).
I grafici rivelano caratteristiche dei dati che la statistica e i modelli possono non notare: distribuzioni insolite di dati, modelli locali, raggruppamenti, lacune, valori mancanti, prove di arrotondamento o accumulo, confini impliciti, outlier, e così via. I grafici sollevano domande che stimolano la ricerca e suggeriscono idee. Sembra facile. In realtà, l’interpretazione dei grafici ha bisogno di esperienza per identificare le caratteristiche potenzialmente interessanti e l’intuito statistico per guardarsi dai pericoli di un’interpretazione eccessiva. Proprio come i grafici sono utili per verificare i risultati dei modelli, i modelli sono utili per verificare le idee derivate dai grafici (per saperne di più sui modelli, vedi Hand, 2019).
Questa panoramica si concentra sulla grafica statica. La grafica dinamica e, più in particolare, la grafica interattiva sono in una fase di sviluppo entusiasmante e hanno molto da aggiungere. Richiedono un articolo a parte. Superbi esempi includono Human Terrain, una grafica dinamica che mostra la popolazione mondiale in 3-D, e l’interattivo NameVoyager.
‘A Picture Is Worth a Thousand Words’
I detti famosi hanno un modo di sviluppare una vita propria. Un’immagine non sostituisce mille parole; ha bisogno di mille parole (o più). Per la visualizzazione dei dati è necessario conoscere il contesto, la fonte dei dati, come e perché sono stati raccolti, se è possibile raccoglierne altri, le ragioni per disegnare le visualizzazioni, e come le persone con la necessaria conoscenza di base consigliano che possano essere interpretati. Si racconta che M. G. Kendall recensì un libro di R. A. Fisher con le parole: “Nessuno dovrebbe leggere questo libro che non l’abbia già letto”. È così con la grafica. Se avete letto tutto il testo di supporto, la visualizzazione è spesso memorabile e facilmente comprensibile. Se non lo avete fatto, non lo è. La grafica da sola non è sufficiente, fa parte di un tutto. Completano il testo e sono completati dal testo. La rianalisi di Student del Lanarkshire Milk Experiment (Student, 1931) è un esempio eccellente (ed è anche interessante come prima analisi di un grande insieme di dati).
La potenziale sinergia di testo e grafica può essere apprezzata parlando attraverso i propri grafici, spiegandoli agli altri. Perché hai disegnato quei grafici? Come li avete disegnati? Cosa si può vedere? Ci sono modelli interessanti? Cosa potrebbe essere cambiato e migliorato? Quali altri grafici si potrebbero disegnare? Come si possono verificare le conclusioni? Si dovrebbe parlare di più di grafica e fare meno affidamento sul fatto che la grafica parli da sola.
Quando si tratta di grafica che non avete disegnato voi stessi, lo stesso tipo di domande è ancora rilevante, anche se può essere più difficile rispondere. Edward Tufte ha descritto la rappresentazione di Charles Minard della campagna di Russia di Napoleone come il miglior grafico statistico mai disegnato (Tufte, 2001). È un grafico magnifico, pienamente meritevole delle lodi che gli sono state rivolte, ma come Lee Wilkinson ha sottolineato nel suo libro The Grammar of Graphics (Wilkinson, 2005), ci sono imprecisioni e imprecisioni nella visualizzazione. Perché nessuno le ha fatte notare prima? Siamo troppo abituati ad accettare i grafici in modo acritico, senza porci abbastanza domande su di essi.
Presentazione e grafica esplorativa
La presentazione e la grafica esplorativa sono animali abbastanza diversi. Nella presentazione dei vostri risultati, potreste avere spazio per un solo grafico e nessuna idea di quante persone potrebbero vederlo. Se appare in un giornale o in televisione o sul Web, il vostro pubblico potrebbe essere di milioni di persone. Il grafico dovrebbe essere ben progettato e ben disegnato con un efficace testo esplicativo di accompagnamento. D’altra parte, se stai esplorando dei dati, allora hai bisogno di molti, molti grafici e sono per un pubblico di uno: te stesso. I singoli grafici non devono essere perfetti, ma devono fornire punti di vista alternativi e informazioni aggiuntive. I grafici di presentazione sono usati per trasmettere informazioni note e sono spesso progettati per attirare l’attenzione. I grafici esplorativi sono usati per trovare nuove informazioni e dovrebbero dirigere l’attenzione sulle informazioni.
I grafici pubblicati tendono ad essere grafici di presentazione, in parte perché sono per la pubblicazione e in parte perché nessuno vuole vedere centinaia di grafici veloci che possono o non possono essere utili. È un po’ come le prove matematiche: gli articoli contengono le versioni finali eleganti e concise, non le note scarabocchiate e le idee casuali che sono venute prima. Quanti grafici possono essere stati disegnati prima che l’impressionante display sia stato scelto per mostrare le dimissioni dei ministri di gabinetto del Regno Unito negli ultimi anni (Institute for Government, 2019)?
I grafici esplorativi approfittano di quanto sia facile ora disegnare e ridisegnare grafici. Quello che prima era un processo lento e logorante, che includeva anche il dover stampare i display, è diventato veloce e flessibile. Allo stesso tempo, sono richieste nuove competenze aggiuntive. Identificare le caratteristiche interessanti e sapere come controllarle in modo più dettagliato tra una miriade di possibili grafici non è solo una questione di disegnare molti grafici, sono necessarie capacità interpretative e un apprezzamento di quali grafici forniranno quali tipi di informazioni. C’è così tanto che può essere variato: le variabili visualizzate, i tipi di grafici, le dimensioni dei grafici e le loro proporzioni, i colori e i simboli usati, le scale e i limiti, l’ordine delle variabili categoriche, l’ordine delle variabili nelle visualizzazioni multivariate. Selezionare dalla vasta gamma di grafici con saggezza, e capire come ottenere intuizioni, non sono compiti banali. La mancanza di una teoria della visualizzazione dei dati da guidare e su cui costruire è un problema chiave.
La visualizzazione dei dati è diventata più importante
Un hardware migliore ha significato una riproduzione più precisa, un colore migliore (incluso l’alpha-blending) e un disegno più veloce. Un software migliore ha significato un disegno più facile e flessibile, temi coerenti e standard più elevati. Gli informatici sono diventati molto più coinvolti, sia dal punto di vista tecnico che nell’introduzione di nuovi approcci. Ci sono stati progressi nello sviluppo di una teoria della grafica, soprattutto grazie alla Grammatica della grafica di Wilkinson (2005) e all’implementazione di Hadley Wickham nel pacchetto R ggplot2 (Wickham, 2016). C’è un lavoro continuo e una migliore comprensione dei problemi del colore e della percezione. Grafici che erano raramente usati e difficili da disegnare, come i plot di coordinate parallele (ad esempio, Theus, 2015) e i mosaicplot (ad esempio, Unwin, 2015), sono stati raffinati e sviluppati. Insiemi di dati molto più grandi possono essere analizzati e visualizzati e i grafici possono svolgere un ruolo prezioso nella diagnosi dei punti di forza e di debolezza di modelli complessi. Le visualizzazioni dei dati possono essere trovate ovunque, nelle pubblicazioni scientifiche, nei giornali e nella TV, e sul Web. Ci sono molte pagine web in cui i grafici vengono discussi e dibattuti. Questo è un enorme miglioramento rispetto alla situazione di anche 20 anni fa.
Ricerca nella visualizzazione dei dati
Ci sono grandi opportunità per la ricerca futura nella visualizzazione dei dati. Sono necessari principi su come decidere quale grafica disegnare tra le tante possibili. Non si tratta di disegnare un singolo grafico “ottimale”, se mai esistesse una cosa del genere; si tratta di scegliere un gruppo di grafici che forniranno più informazioni. È come fare fotografie di un oggetto complicato, una sola non sarebbe sufficiente, e fare foto da ogni possibile angolo e distanza sarebbe troppo. Gli insiemi di grafici sono utili per fornire un contesto, come dimostrano gli scatterplot di Klimek, Yegorov, Hanel e Thurner (2012).
È necessaria una maggiore comprensione della combinazione e del collegamento dei grafici, sia in insiemi statici che in visualizzazioni interattive, così come è necessario un software migliore per questi. Il valore dell’allineamento e della scalatura comune per fare confronti efficaci, per esempio, con piccoli multipli e sfaccettature (visualizzazione di molti grafici della stessa forma condizionata da altre variabili) è una parte di questo. È una curiosità storica che l’attuale eccitante lavoro sulla grafica interattiva sul Web sia ancora in ritardo rispetto ai sistemi standalone che erano già disponibili più di 30 anni fa nel collegare più finestre. Data Desk e JMP erano esempi commerciali all’epoca (vedi Velleman, 2019, e Sall, 2019, per le versioni attuali).
La grafica pubblicata è talvolta attraente e ben prodotta. Il contenuto non sempre corrisponde. Ciò può essere dovuto al fatto che gli autori e gli editori non si aspettano che la grafica venga esaminata in dettaglio. Possono essere aggiunti come illustrazioni per bilanciare il layout e renderlo più gradevole. Se non avete una fotografia, una vignetta o una mappa adatta, potreste usare un grafico statistico colorato. Ho sentito molte volte persone dire che non capiscono i numeri e che non erano bravi in matematica a scuola. Nessuno mi ha mai detto di non capire i grafici, forse perché li considerano come illustrazioni e non come parti centrali di un argomento. C’è del lavoro da fare per educare i ricercatori e i lettori al valore della grafica.
La ricerca sulla grafica nuova e innovativa è eccitante e produttiva. Allo stesso tempo, è essenziale fare il miglior uso della grafica conosciuta e ben compresa. C’è il rischio di enfatizzare la novità a spese della familiarità. La grafica nuova e innovativa ha bisogno di istruzione ed esperienza per essere interpretata. I loro progettisti hanno passato molto tempo a svilupparli e ragionevolmente credono che ciò che è ovvio per loro dovrebbe essere ovvio per tutti. Basta pensare all’umile grafico di dispersione. È solo negli ultimi anni che gli scatterplot sono apparsi nei media, sebbene siano uno dei più importanti grafici statistici. Se non ne avete mai visto uno prima, possono intimidire, ancora di più quando vi viene detto ‘È chiaro che…’ o ‘Si vede facilmente che…’. Dovremmo costruire sul familiare per portare i nostri lettori con noi.
Esempi e fonti
Le visualizzazioni che piacciono a me potrebbero non essere le visualizzazioni che piacciono a voi. Vi invito a cercare ampiamente e a giudicare da soli. Molto materiale interessante e stimolante può essere trovato nei libri classici di Tufte (ad esempio, Tufte, 2001), e nelle visualizzazioni del New York Times nel corso degli anni (ad esempio, New York Times, 2018). Anche altri giornali e media hanno prodotto un lavoro eccellente. Si tratta, ovviamente, di grafica di presentazione, ma offrono molto con cui impegnarsi. È difficile fare una scelta tra le molte pagine web individuali che forniscono esempi e discussioni, ma Visualising Data è un sito che consiglia di mettere in evidenza in tutto il web. L’interesse attuale e l’attività nella grafica sono molto graditi.
Che cosa succede ora?
Educare le persone a scegliere, disegnare e interpretare la grafica è più difficile di quanto si possa pensare. La visualizzazione dei dati non è insegnata male, è solo insegnata poco. Idealmente, ci dovrebbe essere una migliore teoria, e di conseguenza una migliore grafica. Questo richiederà tempo. Nel frattempo, dovremmo:
-discutere di più di grafica;
-interpretare più grafica;
-insegnare più grafica.
Daniels, M. (2018). “Terreno umano”. https://pudding.cool/2018/10/city_3d/
Hand, D. (2019). Qual è lo scopo della modellazione statistica? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz
Institute for Government. (2019). Dimissioni ministeriali al di fuori dei rimpasti, per primo ministro. Retrieved August 14, 2019, from https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister
Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Rilevamento statistico delle irregolarità elettorali sistematiche. PNAS, 109, 16469-16473. https://www.pnas.org/content/109/41/16469
marastats. (2019). Statistiche generali della maratona. Recuperato il 14 agosto 2019, da https://marastats.com/marathon/
New York Times. (2018, December 31). 2018: L’anno in storie visive e grafica. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html
Sall, J. (2019). JMP. Retrieved August 8, 2019, from http://www.jmp.com
Studente. (1931). L’esperimento del latte di Lanarkshire. Biometrika, 23, 398-406.
Theus, M. (2015). Tour de France 2015. Retrieved August 14, 2019, from http://www.theusrus.de/blog/tour-de-france-2015/
Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.
Unwin, A. (2015). Studiare i dati categorici multivariati. Retrieved August 14, 2019, from http://www.gradaanwr.net/content/ch07/
Velleman, P. (2019). Scrivania dei dati. Retrieved August 8, 2019, from http://www.datadesk.com
Wickham, H. (2016). ggplot2: Grafici eleganti per l’analisi dei dati (2a ed.). New York, NY: Springer-Verlag. Retrieved from https://ggplot2.tidyverse.org
Wilkinson, L. (2005). La grammatica della grafica (2a ed.). New York, NY: Springer.