Articles

De ce este importantă vizualizarea datelor? Ce este important în vizualizarea datelor?

Nota editorului rubricii: Vizualizarea datelor, facilitată de puterea calculatorului, reprezintă unul dintre instrumentele fundamentale ale științei moderne a datelor. Profesorul Antony Unwin de la Universitatea din Augsburg descrie diferite moduri în care este utilizată vizualizarea datelor, explorează oportunitățile de cercetare viitoare în acest domeniu și analizează modul în care este predată vizualizarea datelor.

Vizualizarea datelor înseamnă desenarea de reprezentări grafice pentru a arăta datele. Uneori se desenează fiecare punct de date, ca într-o diagramă de dispersie, alteori pot fi prezentate rezumate statistice, ca într-o histogramă. Reprezentările sunt în principal descriptive, concentrându-se pe datele „brute” și pe rezumate simple. Ele pot include afișări de date transformate, uneori pe baza unor transformări complicate. Statisticile unei persoane pot fi datele brute ale altei persoane. Ca și în cazul altor aspecte ale lucrului cu grafice, ar fi util să existe o bază convenită de concepte și terminologie pe care să se bazeze. Scopul principal este de a vizualiza datele și statisticile, interpretând afișajele pentru a obține informații.

Vizualizarea datelor este utilă pentru curățarea datelor, explorarea structurii datelor, detectarea valorilor aberante și a grupurilor neobișnuite, identificarea tendințelor și a clusterelor, reperarea modelelor locale, evaluarea producției de modelare și prezentarea rezultatelor. Este esențială pentru analiza exploratorie a datelor și pentru mineritul de date pentru a verifica calitatea datelor și pentru a ajuta analiștii să se familiarizeze cu structura și caracteristicile datelor pe care le au în față. Aceasta este o parte a analizei datelor care este subestimată în manuale, dar care este mereu prezentă în investigațiile reale. Priviți, de exemplu, vârfurile unilaterale din distribuțiile timpilor de sosire la maratoane (marastats, 2019).

Graficele dezvăluie caracteristici ale datelor pe care statisticile și modelele le pot rata: distribuții neobișnuite ale datelor, modele locale, grupări, goluri, valori lipsă, dovezi de rotunjire sau îngrămădire, limite implicite, valori aberante și așa mai departe. Graficele ridică întrebări care stimulează cercetarea și sugerează idei. Pare ușor. De fapt, interpretarea graficelor necesită experiență pentru a identifica caracteristicile potențial interesante și pricepere statistică pentru a se feri de pericolele unei interpretări excesive. La fel cum graficele sunt utile pentru a verifica rezultatele modelelor, modelele sunt utile pentru a verifica ideile derivate din grafice (pentru mai multe despre modele, a se vedea Hand, 2019).

Această prezentare generală se concentrează asupra graficelor statice. Grafica dinamică și, mai ales, grafica interactivă se află într-un stadiu interesant de dezvoltare și au multe de adăugat. Ele necesită un articol de sine stătător. Printre exemplele superbe se numără Human Terrain, o grafică dinamică care prezintă populația lumii în 3-D, și interactivul NameVoyager.

‘A Picture Is Worth a Thousand Words’

Declarațiile celebre au un mod de a dezvolta o viață proprie. O imagine nu este un substitut pentru o mie de cuvinte; ea are nevoie de o mie de cuvinte (sau mai multe). Pentru vizualizarea datelor trebuie să cunoașteți contextul, sursa datelor, cum și de ce au fost colectate, dacă ar putea fi colectate mai multe, motivele pentru care au fost desenate reprezentările și modul în care persoanele cu cunoștințele de bază necesare recomandă că acestea ar putea fi interpretate. Există o poveste conform căreia M. G. Kendall a recenzat o carte a lui R.A. Fisher cu aceste cuvinte: „Nu ar trebui să citească această carte nimeni care nu a citit-o deja”. La fel se întâmplă și cu grafica. Dacă ați citit tot textul suport, afișajul este adesea memorabil și ușor de înțeles. Dacă nu ați făcut-o, nu este. Grafica de una singură este insuficientă, ea face parte dintr-un întreg. Ele completează textul și sunt completate de text. Reanaliza lui Student din Lanarkshire Milk Experiment (Student, 1931) este un exemplu excelent (și este, de asemenea, interesantă ca o analiză timpurie a unui set mare de date).

Sinergia potențială a textului și a graficii poate fi apreciată vorbind prin propriile grafice, explicându-le altora. De ce ați desenat acele grafice? Cum le-ați desenat? Ce se poate vedea? Există modele interesante? Ce ar putea fi schimbat și îmbunătățit? Ce alte grafice ar putea fi desenate? Cum pot fi verificate concluziile? Ar trebui să se vorbească mai mult despre grafice și să se bazeze mai puțin pe faptul că graficele vorbesc de la sine.

Când vine vorba de grafice pe care nu le-ați desenat dumneavoastră, aceleași tipuri de întrebări sunt încă relevante, deși ar putea fi mai dificil de răspuns. Edward Tufte a descris afișarea de către Charles Minard a campaniei rusești a lui Napoleon ca fiind cea mai bună grafică statistică desenată vreodată (Tufte, 2001). Este un grafic magnific, meritând pe deplin laudele care i s-au adus, însă, așa cum a subliniat Lee Wilkinson în cartea sa The Grammar of Graphics (Wilkinson, 2005), există inexactități și imprecizii în afișare. De ce nu le-a semnalat nimeni până acum? Suntem prea obișnuiți să acceptăm graficele în mod necritic, fără să le punem suficiente întrebări.

Prezentare și grafică exploratorie

Prezentarea și grafica exploratorie sunt animale destul de diferite. Atunci când vă prezentați rezultatele, este posibil să aveți spațiu pentru un singur grafic și să nu aveți idee câți oameni îl pot vedea. Dacă apare într-un ziar, la televizor sau pe Web, audiența dumneavoastră ar putea fi de milioane de persoane. Graficul ar trebui să fie bine conceput și bine desenat și să fie însoțit de un text explicativ eficient. Pe de altă parte, dacă explorați date, atunci aveți nevoie de multe, multe grafice și acestea sunt destinate unui singur public: dumneavoastră. Graficele individuale nu trebuie să fie perfecte, dar ar trebui să ofere puncte de vedere alternative și informații suplimentare. Grafica de prezentare este utilizată pentru a transmite informații cunoscute și este adesea concepută pentru a atrage atenția. Graficele de explorare sunt folosite pentru a găsi informații noi și ar trebui să direcționeze atenția către informații.

Graficele publicate tind să fie grafice de prezentare, în parte pentru că sunt pentru publicare și în parte pentru că nimeni nu vrea să vadă sute de grafice rapide care pot sau nu să fi fost utile. Este mai degrabă ca demonstrațiile matematice: articolele conțin versiunile finale elegante și concise, nu notele mâzgălite și ideile aleatorii care au venit înainte. Câte grafice ar fi putut fi desenate înainte de a fi ales afișajul izbitor pentru a arăta demisiile miniștrilor cabinetului britanic din ultimii ani (Institute for Government, 2019)?

Graficele exploratorii profită de cât de ușor este acum să desenezi și să redesenezi grafice. Ceea ce obișnuia să fie un proces lent și obositor, care includea chiar și necesitatea de a imprima afișaje, a devenit rapid și flexibil. În același timp, sunt necesare competențe noi, suplimentare. Identificarea caracteristicilor interesante și știința de a le verifica mai în detaliu printre o multitudine de grafice posibile nu se rezumă doar la a desena multe grafice, ci este nevoie de abilități de interpretare și de o apreciere a graficii care va furniza ce fel de informații. Există atât de multe lucruri care pot fi variate: variabilele afișate, tipurile de grafice, dimensiunile graficelor și raporturile lor de aspect, culorile și simbolurile utilizate, scările și limitele, ordonarea variabilelor categoriale, ordonarea variabilelor în afișările multivariate. Selectarea cu înțelepciune din gama largă de grafice și înțelegerea modului în care se pot obține informații nu sunt sarcini triviale. Lipsa unei teorii a vizualizării datelor pe care să se ghideze și pe care să se bazeze este o problemă cheie.

Vizualizarea datelor a devenit mai importantă

Un hardware mai bun a însemnat o reproducere mai precisă, culori mai bune (inclusiv alpha-blending) și un desen mai rapid. Un software mai bun a însemnat un desen mai ușor și mai flexibil, teme consistente și standarde mai înalte. Informaticienii au devenit mult mai implicați, atât pe partea tehnică, cât și în introducerea de noi abordări. S-au înregistrat progrese în dezvoltarea unei teorii a graficii, în special datorită Gramaticii grafice a lui Wilkinson (2005) și a implementării acesteia de către Hadley Wickham în pachetul R ggplot2 (Wickham, 2016). Există o activitate continuă și o mai bună înțelegere a problemelor legate de culoare și percepție. Au fost perfecționate și dezvoltate grafice care erau rar utilizate și dificil de desenat, cum ar fi diagramele de coordonate paralele (de exemplu, Theus, 2015) și diagramele mozaic (de exemplu, Unwin, 2015). Pot fi analizate și vizualizate seturi de date mult mai mari, iar graficele pot juca un rol valoros în diagnosticarea punctelor tari și a punctelor slabe ale modelelor complexe. Vizualizările de date pot fi găsite peste tot, în publicații științifice, în ziare și la televizor, precum și pe web. Există multe pagini web în care se discută și se dezbat grafice. Aceasta este o îmbunătățire uriașă față de situația de acum chiar și 20 de ani.

Research in Data Visualization

Există mari oportunități pentru cercetări viitoare în domeniul vizualizării datelor. Sunt necesare principii privind modul de a decide care dintre numeroasele grafice posibile să fie desenate. Nu este vorba de a desena o singură grafică „optimă”, dacă ar exista așa ceva; este vorba de a alege un grup de grafice care vor oferi mai multe informații. Este ca și cum ați face fotografii ale unui obiect complicat, o singură fotografie nu ar fi suficientă, iar dacă ați face fotografii din toate unghiurile și de la toate distanțele posibile, ar fi mult prea multe. Seturile de grafice sunt utile pentru a oferi un context, așa cum demonstrează graficele de dispersie din Klimek, Yegorov, Hanel și Thurner (2012).

Este nevoie de o mai bună înțelegere a combinării și legării graficelor, fie în ansambluri statice, fie în afișaje interactive, la fel cum este nevoie de un software mai bun pentru acestea. Valoarea alinierii și a scalării comune pentru a face comparații eficiente, de exemplu, cu multiplii mici și fațetarea (afișarea mai multor grafice de aceeași formă care condiționează de alte variabile) este o parte a acestui lucru. Este o curiozitate istorică faptul că activitatea actuală incitantă privind grafica interactivă pe Web este încă în urma sistemelor autonome care erau deja disponibile acum mai bine de 30 de ani în ceea ce privește conectarea mai multor ferestre. Data Desk și JMP au fost exemple comerciale la acea vreme (a se vedea Velleman, 2019, și Sall, 2019, pentru versiunile actuale).

Grafica publicată este uneori atractivă și frumos realizată. Conținutul nu se potrivește întotdeauna. Acest lucru se poate datora faptului că autorii și editorii nu se așteaptă ca grafica să fie examinată în detaliu. Ele pot fi adăugate ca ilustrații pentru a echilibra macheta și a o face să pară mai agreabilă. Dacă nu aveți o fotografie, un desen animat sau o hartă potrivită, puteți folosi un grafic statistic colorat. Am auzit de multe ori oameni spunând că nu înțeleg numerele și că nu au fost buni la matematică în școală. Nimeni nu mi-a spus vreodată că nu înțelege graficele, poate pentru că le consideră ilustrații și nu părți centrale ale unui argument. Mai este mult de lucru în educarea cercetătorilor și a cititorilor în ceea ce privește valoarea graficii.

Cercetările în domeniul graficii noi și inovatoare sunt interesante și productive. În același timp, este esențial să se facă cea mai bună utilizare a graficii cunoscute și bine înțelese. Există riscul de a pune accentul pe noutate în detrimentul familiarității. Grafica nouă și inovatoare are nevoie de instruire și experiență pentru a o interpreta. Proiectanții acestora au petrecut mult timp dezvoltându-le și cred, în mod rezonabil, că ceea ce este evident pentru ei ar trebui să fie evident pentru toată lumea. Gândiți-vă doar la umila diagramă de dispersie. Abia în ultimii ani au apărut în mass-media diagramele de dispersie, deși acestea reprezintă una dintre cele mai importante grafice statistice. Dacă nu ați mai văzut niciodată unul, acestea pot fi intimidante, cu atât mai mult atunci când vi se spune „Este clar că…” sau „Se poate vedea cu ușurință că…”. Ar trebui să ne bazăm pe ceea ce este familiar pentru a-i purta pe cititorii noștri cu noi.

Exemple și surse

Vizualizările care îmi plac mie pot să nu fie vizualizările care vă plac și dumneavoastră. Vă îndemn să căutați pe larg și să judecați singuri. Multe materiale interesante și care îndeamnă la reflecție pot fi găsite în cărțile clasice ale lui Tufte (de exemplu, Tufte, 2001), precum și în prezentările realizate de New York Times de-a lungul anilor (de exemplu, New York Times, 2018). Alte ziare și mass-media au produs, de asemenea, lucrări excelente. Acestea sunt, bineînțeles, grafice de prezentare, dar oferă multe lucruri cu care să te implici. Este dificil să se facă o alegere între numeroasele pagini web individuale care oferă exemple și discuții, dar Visualising Data este un site care recomandă evidențe de pe web. Interesul și activitatea actuală în domeniul graficii sunt foarte binevenite.

Ce se întâmplă acum?

Educarea oamenilor în alegerea, desenarea și interpretarea graficii este mai dificilă decât s-ar putea crede. Vizualizarea datelor nu se predă prost, ci pur și simplu nu se predă deloc foarte mult. În mod ideal, ar trebui să existe o teorie mai bună și, în consecință, o grafică mai bună. Acest lucru va necesita timp. Între timp, ar trebui:

-să discutăm mai multă grafică mai mult;

-interpretăm mai multă grafică mai mult;

-învățăm mai multă grafică mai mult.

Daniels, M. (2018). „Human Terrain” (în engleză). https://pudding.cool/2018/10/city_3d/

Hand, D. (2019). Care este scopul modelării statistice? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz

Institutul pentru Guvernare. (2019). Demisii ministeriale în afara remanierilor, în funcție de prim-ministru. Retrieved August 14, 2019, from https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister

Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Detectarea statistică a neregulilor electorale sistematice. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469

marastats. (2019). Statistici generale de maraton. Retrieved August 14, 2019, from https://marastats.com/marathon/

New York Times. (2018, 31 decembrie). 2018: The year in visual stories and graphics (Anul în povești și grafice vizuale). https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html

Sall, J. (2019). JMP. Retrieved August 8, 2019, from http://www.jmp.com

Student. (1931). The Lanarkshire Milk Experiment. Biometrika, 23, 398-406.

Theus, M. (2015). Tour de France 2015. Retrieved August 14, 2019, from http://www.theusrus.de/blog/tour-de-france-2015/

Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.

Unwin, A. (2015). Studierea datelor categorice multivariate. Retrieved August 14, 2019, from http://www.gradaanwr.net/content/ch07/

Velleman, P. (2019). Data Desk. Retrieved August 8, 2019, from http://www.datadesk.com

Wickham, H. (2016). ggplot2: Grafică elegantă pentru analiza datelor (2nd ed.). New York, NY: Springer-Verlag. Retrieved from https://ggplot2.tidyverse.org

Wilkinson, L. (2005). The grammar of graphics (2nd ed.). New York, NY: Springer.