Dlaczego wizualizacja danych jest ważna? Co jest ważne w wizualizacji danych?
Nota redaktora kolumny: Wizualizacja danych, ułatwiona przez moc komputera, stanowi jedno z podstawowych narzędzi współczesnej nauki o danych. Profesor Antony Unwin z Uniwersytetu w Augsburgu opisuje różne sposoby wykorzystania wizualizacji danych, bada możliwości przyszłych badań w tej dziedzinie i przygląda się, jak wizualizacja danych jest nauczana.
Wizualizacja danych oznacza rysowanie graficznych wyświetlaczy w celu pokazania danych. Czasami rysowany jest każdy punkt danych, jak w scatterplot, czasami mogą być pokazane podsumowania statystyczne, jak w histogramie. Wyświetlacze są głównie opisowe, koncentrują się na „surowych” danych i prostych podsumowaniach. Mogą one obejmować wyświetlanie przekształconych danych, czasami opartych na skomplikowanych przekształceniach. Statystyka dla jednej osoby może być surowymi danymi dla innej osoby. Podobnie jak w przypadku innych aspektów pracy z grafiką, przydatne byłoby posiadanie uzgodnionej bazy pojęć i terminologii, na której można by się oprzeć. Głównym celem jest wizualizacja danych i statystyk, interpretacja wyświetlaczy w celu uzyskania informacji.
Wizualizacja danych jest przydatna do czyszczenia danych, badania struktury danych, wykrywania wartości odstających i nietypowych grup, identyfikacji trendów i klastrów, dostrzegania lokalnych wzorców, oceny wyników modelowania i prezentacji wyników. Jest to niezbędne w eksploracyjnej analizie danych i eksploracji danych, aby sprawdzić jakość danych i pomóc analitykom zapoznać się ze strukturą i cechami danych, które mają przed sobą. Jest to część analizy danych, która jest niedoceniana w podręcznikach, ale stale obecna w rzeczywistych badaniach. Spójrz, na przykład, na jednostronne szczyty w rozkładach czasów ukończenia maratonu (marastats, 2019).
Grafika ujawnia cechy danych, które statystyka i modele mogą przegapić: nietypowe rozkłady danych, lokalne wzorce, skupiska, luki, brakujące wartości, dowody zaokrąglenia lub zwałowania, ukryte granice, wartości odstające i tak dalej. Grafika rodzi pytania, które stymulują badania i sugerują pomysły. Brzmi to łatwo. W rzeczywistości, interpretacja grafiki wymaga doświadczenia, aby zidentyfikować potencjalnie interesujące cechy oraz wiedzy statystycznej, aby uchronić się przed niebezpieczeństwem nadinterpretacji. Tak jak grafiki są przydatne do sprawdzania wyników modeli, modele są przydatne do sprawdzania pomysłów pochodzących z grafik (więcej o modelach, patrz Hand, 2019).
Ten przegląd koncentruje się na grafikach statycznych. Grafika dynamiczna i, bardziej szczególnie, grafika interaktywna są w ekscytującym stadium rozwoju i mają wiele do dodania. Wymagają one osobnego artykułu. Doskonałe przykłady obejmują Human Terrain, dynamiczną grafikę pokazującą populację świata w 3-D, oraz interaktywny NameVoyager.
„Obraz jest wart tysiąca słów”
Sławne powiedzenia mają sposób na rozwijanie własnego życia. Obraz nie zastąpi tysiąca słów; on potrzebuje tysiąca słów (lub więcej). W przypadku wizualizacji danych trzeba znać kontekst, źródło danych, jak i dlaczego zostały zebrane, czy można zebrać ich więcej, powody, dla których narysowano wyświetlacze i jak ludzie z niezbędną wiedzą podstawową radzą, jak mogą być one interpretowane. Jest taka historia, że M. G. Kendall zrecenzował książkę R. A. Fishera ze słowami: „Nikt nie powinien czytać tej książki, kto już jej nie czytał”. Podobnie jest z grafiką. Jeśli przeczytaliście cały tekst uzupełniający, to ilustracja często zapada w pamięć i jest łatwo zrozumiała. Jeśli nie, to nie jest. Grafika sama w sobie jest niewystarczająca, jest częścią całości. Uzupełniają tekst i są uzupełniane przez tekst. Student’s reanalysis of the Lanarkshire Milk Experiment (Student, 1931) is an excellent example (and is also interesting as an early analysis of a large data set).
The potential synergy of text and graphics can be appreciated by talking through your own graphics, explaining them to others. Dlaczego narysowałeś te grafiki? Jak je narysowałeś? Co można zobaczyć? Czy są ciekawe wzory? Co można by zmienić i poprawić? Jakie inne grafiki można by narysować? Jak można sprawdzić wnioski? Powinno być więcej mówienia o grafice, a mniej polegania na tym, że grafika mówi sama za siebie.
Gdy chodzi o grafikę, której sam nie narysowałeś, te same rodzaje pytań są nadal istotne, chociaż mogą być trudniejsze do odpowiedzi. Edward Tufte opisał pokaz kampanii rosyjskiej Napoleona autorstwa Charlesa Minarda jako najlepszą grafikę statystyczną, jaką kiedykolwiek narysowano (Tufte, 2001). Jest to wspaniała grafika, w pełni zasługująca na pochwały, ale jak zauważył Lee Wilkinson w swojej książce The Grammar of Graphics (Wilkinson, 2005), są w niej nieścisłości i niedokładności. Dlaczego nikt wcześniej nie zwrócił na nie uwagi? Jesteśmy zbyt przyzwyczajeni do bezkrytycznego przyjmowania grafiki, nie zadając jej wystarczających pytań.
Prezentacja i grafika eksploracyjna
Prezentacja i grafika eksploracyjna to zupełnie inne zwierzęta. Prezentując swoje wyniki, możesz mieć miejsce tylko na jedną grafikę i nie masz pojęcia, ile osób może ją zobaczyć. Jeśli pojawi się ona w gazecie, w telewizji lub w sieci, jej odbiorcami mogą być miliony ludzi. Grafika powinna być dobrze zaprojektowana i dobrze narysowana z efektywnym towarzyszącym jej tekstem objaśniającym. Z drugiej strony, jeśli badasz dane, potrzebujesz wielu, wielu grafik i są one przeznaczone dla jednego odbiorcy: Ciebie. Poszczególne grafiki nie muszą być doskonałe, ale powinny dostarczać alternatywnych widoków i dodatkowych informacji. Grafiki prezentacyjne są używane do przekazywania znanych informacji i często są zaprojektowane tak, aby przyciągać uwagę. Grafika eksploracyjna jest używana do wyszukiwania nowych informacji i powinna kierować uwagę na informacje.
Publikowane grafiki mają tendencję do bycia grafikami prezentacyjnymi, częściowo dlatego, że są przeznaczone do publikacji, a częściowo dlatego, że nikt nie chce oglądać setek szybkich grafik, które mogą lub nie mogą być pomocne. To jest raczej jak z dowodami matematycznymi: artykuły zawierają eleganckie i zwięzłe wersje końcowe, a nie bazgroły i przypadkowe pomysły, które pojawiły się wcześniej. Ile grafik mogło zostać narysowanych przed wyborem uderzającego wyświetlacza, aby pokazać rezygnacje ministrów gabinetów w Wielkiej Brytanii w ostatnich latach (Institute for Government, 2019)?
Grafiki eksploracyjne wykorzystują to, jak łatwo jest teraz rysować i przerysowywać grafiki. To, co kiedyś było powolnym i nużącym procesem, obejmującym nawet konieczność drukowania wyświetlaczy, stało się szybkie i elastyczne. Równocześnie wymagane są nowe, dodatkowe umiejętności. Zidentyfikowanie interesujących cech i umiejętność sprawdzenia ich bardziej szczegółowo wśród niezliczonej ilości możliwych grafik nie jest tylko kwestią narysowania wielu grafik, potrzebne są umiejętności interpretacyjne i docenienie tego, które grafiki dostarczą jakich informacji. Jest tak wiele rzeczy, które można zmieniać: wyświetlane zmienne, rodzaje grafik, rozmiary grafik i ich proporcje, używane kolory i symbole, skale i granice, uporządkowanie zmiennych kategorycznych, uporządkowanie zmiennych w pokazach wielozmiennowych. Mądre wybranie z szerokiej gamy grafik i zrozumienie, jak uzyskać wgląd w dane, nie są zadaniami trywialnymi. Brak teorii wizualizacji danych, na której można by się oprzeć, jest kluczowym problemem.
Wizualizacja danych stała się ważniejsza
Najlepszy sprzęt oznaczał bardziej precyzyjną reprodukcję, lepsze kolory (w tym alfa-blending) i szybsze rysowanie. Lepsze oprogramowanie oznaczało łatwiejsze i bardziej elastyczne rysowanie, spójne motywy i wyższe standardy. Informatycy stali się znacznie bardziej zaangażowani, zarówno od strony technicznej, jak i we wprowadzaniu nowych podejść. Nastąpił postęp w rozwoju teorii grafiki, zwłaszcza dzięki Grammar of Graphics Wilkinsona (2005) i zaimplementowaniu jej przez Hadleya Wickhama w pakiecie R ggplot2 (Wickham, 2016). Trwają prace i coraz lepiej rozumie się problemy związane z kolorem i percepcją. Grafiki, które były rzadko używane i trudne do narysowania, takie jak równoległe wykresy współrzędnych (np. Theus, 2015) i wykresy mozaikowe (np. Unwin, 2015), zostały udoskonalone i rozwinięte. Znacznie większe zbiory danych mogą być analizowane i wizualizowane, a grafika może odgrywać cenną rolę w diagnozowaniu mocnych i słabych stron złożonych modeli. Wizualizacje danych można znaleźć wszędzie, w publikacjach naukowych, w gazetach i telewizji, a także w sieci. Istnieje wiele stron internetowych, na których grafiki są omawiane i dyskutowane. Jest to ogromny postęp w stosunku do sytuacji nawet sprzed 20 lat.
Badania w wizualizacji danych
Są wielkie możliwości przyszłych badań w wizualizacji danych. Potrzebne są zasady, jak zdecydować, którą z wielu możliwych grafik narysować. Nie jest to kwestia narysowania jednej, „optymalnej” grafiki, jeśli coś takiego w ogóle istnieje; jest to kwestia wyboru grupy grafik, które dostarczą więcej informacji. To tak jak z robieniem zdjęć skomplikowanego obiektu, jedno nie wystarczy, a robienie zdjęć pod każdym możliwym kątem i z każdej odległości byłoby o wiele za dużo. Zestawy grafik są przydatne do zapewnienia kontekstu, jak pokazują wykresy rozproszenia w Klimek, Yegorov, Hanel i Thurner (2012).
Więcej zrozumienia łączenia i łączenia grafiki jest potrzebne, czy to w statycznych zespołach, czy w interaktywnych wyświetlaczach, tak jak potrzebne jest do tego lepsze oprogramowanie. Wartość wyrównania i wspólnego skalowania dla dokonywania efektywnych porównań, na przykład z małymi wielokrotnościami i facetingiem (wyświetlanie wielu grafik o tej samej formie warunkujących inne zmienne) jest jedną z części tego. Historyczną ciekawostką jest to, że obecne ekscytujące prace nad interaktywną grafiką na stronach WWW wciąż pozostają w tyle za samodzielnymi systemami, które były dostępne już ponad 30 lat temu w łączeniu wielu okien. Data Desk i JMP były komercyjnymi przykładami w tym czasie (patrz Velleman, 2019, i Sall, 2019, dla aktualnych wersji).
Publikowane grafiki są czasami atrakcyjne i pięknie wykonane. Treść nie zawsze się zgadza. Może to wynikać z faktu, że autorzy i wydawcy nie oczekują, że grafika zostanie zbadana w sposób szczegółowy. Mogą one być dodane jako ilustracje, aby zrównoważyć układ i uczynić go bardziej przyjemnym. Jeśli nie masz odpowiedniej fotografii, komiksu lub mapy, możesz użyć kolorowej grafiki statystycznej. Wiele razy słyszałem, jak ludzie mówili, że nie rozumieją liczb i byli źli z matematyki w szkole. Nikt nigdy nie powiedział mi, że nie rozumie grafiki, być może dlatego, że traktuje ją jako ilustrację, a nie jako centralny element argumentacji. Istnieje praca do zrobienia w edukacji naukowców i czytelników w wartości grafiki.
Badania nad nowymi i innowacyjnymi grafikami są ekscytujące i produktywne. Jednocześnie istotne jest, aby jak najlepiej wykorzystać znane i dobrze rozumiane grafiki. Istnieje ryzyko nacisku na nowość kosztem znajomości. Nowe, innowacyjne grafiki wymagają instrukcji i doświadczenia, aby je zinterpretować. Ich projektanci poświęcili wiele czasu na ich opracowanie i rozsądnie sądzą, że to, co jest dla nich oczywiste, powinno być oczywiste dla wszystkich. Wystarczy pomyśleć o skromnym wykresie rozrzutu. Dopiero w ostatnich latach wykresy rozrzutu pojawiły się w mediach, choć są one jedną z najważniejszych grafik statystycznych. Jeśli nigdy wcześniej ich nie widzieliśmy, mogą onieśmielać, tym bardziej, gdy mówi się nam „To oczywiste, że…” lub „Łatwo zauważyć, że…”. Powinniśmy budować na tym, co znane, aby zabrać naszych czytelników ze sobą.
Przykłady i źródła
Wizualizacje, które ja lubię, mogą nie być wizualizacjami, które ty lubisz. Zachęcam was do intensywnych poszukiwań i samodzielnego osądu. Wiele interesujących i prowokujących do myślenia materiałów można znaleźć w klasycznych książkach Tufte’a (np. Tufte, 2001) oraz w publikacjach New York Timesa na przestrzeni lat (np. New York Times, 2018). Inne gazety i media również stworzyły doskonałe prace. Są to oczywiście grafiki prezentacyjne, ale oferują one wiele do zaangażowania. Trudno jest dokonać wyboru spośród wielu indywidualnych stron internetowych dostarczających przykłady i dyskusje, ale Visualising Data to jedna strona, która poleca highlights w całej sieci. Obecne zainteresowanie i aktywność w dziedzinie grafiki są bardzo mile widziane.
What Happens Now?
Educating people in choosing, drawing, and interpreting graphics is more difficult than you might think. Wizualizacja danych nie jest nauczana źle, jest po prostu nauczana w niewielkim stopniu. W idealnej sytuacji powinna być lepsza teoria, a co za tym idzie, lepsza grafika. Na to potrzeba czasu. W międzyczasie powinniśmy:
-dyskutować więcej grafiki więcej;
-interpretować więcej grafiki więcej;
-nauczyć więcej grafiki więcej.
Daniels, M. (2018). „Teren człowieka.” https://pudding.cool/2018/10/city_3d/
Hand, D. (2019). Jaki jest cel modelowania statystycznego? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz
Institute for Government. (2019). Rezygnacje ministerialne poza przetasowaniami, według premierów. Retrieved August 14, 2019, from https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister
Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Statystyczne wykrywanie systematycznych nieprawidłowości wyborczych. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469
marastats. (2019). Ogólne statystyki maratonów. Retrieved August 14, 2019, from https://marastats.com/marathon/
New York Times. (2018, December 31). 2018: Rok w wizualnych historiach i grafikach. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html
Sall, J. (2019). JMP. Retrieved August 8, 2019, from http://www.jmp.com
Student. (1931). The Lanarkshire Milk Experiment. Biometrika, 23, 398-406.
Theus, M. (2015). Tour de France 2015. Retrieved August 14, 2019, from http://www.theusrus.de/blog/tour-de-france-2015/
Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.
Unwin, A. (2015). Studiowanie wielowymiarowych danych kategorycznych. Retrieved August 14, 2019, from http://www.gradaanwr.net/content/ch07/
Velleman, P. (2019). Data Desk. Retrieved August 8, 2019, from http://www.datadesk.com
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis (2nd ed.). New York, NY: Springer-Verlag. Retrieved from https://ggplot2.tidyverse.org
Wilkinson, L. (2005). The grammar of graphics (2nd ed.). New York, NY: Springer.