Por que a Visualização de Dados é Importante? O que é importante na visualização de dados?
Nota do editor de colunas: A visualização de dados, facilitada pelo poder do computador, representa uma das ferramentas fundamentais da ciência de dados moderna. O Professor Antony Unwin da Universidade de Augsburg descreve diferentes formas de utilização da visualização de dados, explora as oportunidades para futuras pesquisas na área e observa como a visualização de dados é ensinada.
Visualização de dados significa desenhar displays gráficos para mostrar dados. Às vezes cada ponto de dados é desenhado, como em um diagrama de dispersão, às vezes resumos estatísticos podem ser mostrados, como em um histograma. As visualizações são principalmente descritivas, concentrando-se em dados ‘brutos’ e resumos simples. Elas podem incluir exibições de dados transformados, às vezes com base em transformações complicadas. As estatísticas de uma pessoa podem ser os dados brutos de outra pessoa. Tal como com outros aspectos do trabalho com gráficos, seria útil ter uma base acordada de conceitos e terminologia para construir. O objetivo principal é visualizar dados e estatísticas, interpretando as telas para obter informações.
Visualização de dados é útil para limpeza de dados, explorando a estrutura de dados, detectando outliers e grupos incomuns, identificando tendências e clusters, identificando padrões locais, avaliando os resultados da modelagem e apresentando resultados. É essencial para análise exploratória de dados e mineração de dados para verificar a qualidade dos dados e ajudar os analistas a se familiarizarem com a estrutura e características dos dados antes deles. Esta é uma parte da análise de dados que é subestimada em livros de texto, mas sempre presente em investigações reais. Veja, por exemplo, os picos unilaterais nas distribuições dos tempos de acabamento da maratona (marastats, 2019).
Gráficos revelam características de dados que as estatísticas e modelos podem falhar: distribuições incomuns de dados, padrões locais, agrupamentos, lacunas, valores ausentes, evidência de arredondamento ou amontoamento, limites implícitos, aberturas, e assim por diante. Os gráficos levantam questões que estimulam a pesquisa e sugerem ideias. Parece fácil. Na verdade, a interpretação dos gráficos precisa de experiência para identificar características potencialmente interessantes e de senso estatístico para se proteger contra os perigos da interpretação excessiva. Assim como os gráficos são úteis para verificar resultados de modelos, os modelos são úteis para verificar ideias derivadas de gráficos (para mais sobre modelos, ver Hand, 2019).
Esta visão geral concentra-se nos gráficos estáticos. Gráficos dinâmicos e, mais especialmente, gráficos interativos estão em um estágio empolgante de desenvolvimento e têm muito a acrescentar. Eles precisam de um artigo próprio. Exemplos excelentes incluem Human Terrain, um gráfico dinâmico mostrando a população mundial em 3-D, e o interativo NameVoyager.
‘A Picture Is Worth a Thousand Words’
Famous sayings têm uma maneira de desenvolver uma vida própria. Uma imagem não é um substituto para mil palavras; precisa de mil palavras (ou mais). Para a visualização dos dados você precisa conhecer o contexto, a fonte dos dados, como e porque eles foram coletados, se mais poderiam ser coletados, as razões para desenhar os displays, e como pessoas com o conhecimento de fundo necessário aconselham que eles possam ser interpretados. Há uma história em que M. G. Kendall reviu um livro de R.A. Fisher’s com as palavras: “Ninguém deve ler este livro que ainda não o tenha lido.” É assim com gráficos. Se você já leu todo o texto de apoio, a exibição é muitas vezes memorável e de fácil compreensão. Se você não leu, não é. Os gráficos por si só são insuficientes, eles fazem parte de um todo. Eles complementam o texto e são complementados por texto. A reanálise da Experiência do Leite de Lanarkshire (Student, 1931) é um excelente exemplo (e também é interessante como uma análise inicial de um grande conjunto de dados).
A sinergia potencial de texto e gráficos pode ser apreciada falando através dos seus próprios gráficos, explicando-os aos outros. Por que você desenhou esses gráficos? Como você os desenhou? O que pode ser visto? Existem padrões interessantes? O que pode ser mudado e melhorado? Que outros gráficos podem ser desenhados? Como podem ser verificadas as conclusões? Deve haver mais conversa sobre gráficos e menos confiar nos gráficos para falar por si mesmo.
Quando se trata de gráficos que você mesmo não desenhou, os mesmos tipos de perguntas ainda são relevantes, embora eles podem ser mais difíceis de responder. Edward Tufte descreveu a exibição de Charles Minard da campanha russa de Napoleão como o melhor gráfico estatístico já desenhado (Tufte, 2001). É um gráfico magnífico, plenamente merecedor de elogios, mas, como Lee Wilkinson apontou em seu livro A Gramática da Gráfica (Wilkinson, 2005), há imprecisões e imprecisões na mostra. Por que ninguém as apontou antes? Estamos muito acostumados a aceitar gráficos sem crítica, não fazendo perguntas suficientes sobre eles.
Gráficos exploratórios e de apresentação
Gráficos exploratórios e de apresentação são animais bastante diferentes. Ao apresentar seus resultados, você pode ter espaço para apenas um gráfico e não ter idéia de quantas pessoas podem vê-lo. Se aparecer em um jornal ou na televisão ou na Web, sua audiência pode ser de milhões de pessoas. O gráfico deve ser bem concebido e bem desenhado com um texto explicativo eficaz que o acompanhe. Por outro lado, se você está explorando dados, então você precisa de muitos, muitos gráficos e eles são para uma audiência de um: você mesmo. Os gráficos individuais não precisam ser perfeitos, mas eles devem fornecer visões alternativas e informações adicionais. Os gráficos de apresentação são usados para transmitir informações conhecidas e são muitas vezes concebidos para atrair a atenção. Gráficos exploratórios são usados para encontrar novas informações e devem dirigir a atenção para informações.
Gráficos publicados tendem a ser gráficos para apresentação, em parte porque eles são para publicação e em parte porque ninguém quer ver centenas de gráficos rápidos que podem ou não ter sido útil. É mais como provas matemáticas: os artigos contêm as elegantes e concisas versões finais, não as notas rabiscadas e idéias aleatórias que vieram antes. Quantos gráficos podem ter sido desenhados antes da exibição marcante foi escolhido para mostrar as demissões dos ministros do governo do Reino Unido nos últimos anos (Institute for Government, 2019)?
Gráficos explicativos tirar proveito de como é fácil agora desenhar e redesenhar gráficos. O que costumava ser um processo lento e desgastante, incluindo mesmo ter que imprimir displays, tornou-se rápido e flexível. Ao mesmo tempo, novas e adicionais habilidades são necessárias. Identificar recursos interessantes e saber como verificá-los com mais detalhes entre uma miríade de gráficos possíveis não é apenas uma questão de desenhar muitos gráficos, você precisa de habilidades interpretativas e uma apreciação de quais gráficos irão fornecer que tipos de informação. Há tanta coisa que pode ser variada: as variáveis apresentadas, os tipos de gráficos, os tamanhos dos gráficos e suas proporções, as cores e símbolos utilizados, as escalas e limites, a ordenação das variáveis categóricas, a ordenação das variáveis em monitores multivariados. Selecionar sabiamente a partir da ampla gama de gráficos e entender como obter insights não são tarefas triviais. A falta de uma teoria de visualização de dados para orientar e construir é uma questão chave.
A Visualização de Dados Tornou-se Mais Importante
Melhor hardware significou uma reprodução mais precisa, melhor cor (incluindo a mistura alfa), e desenho mais rápido. Melhor software tem significado desenho mais fácil e mais flexível, temas consistentes e padrões mais elevados. Os cientistas da computação se envolveram muito mais, tanto no lado técnico como na introdução de novas abordagens. Houve progresso no desenvolvimento de uma teoria de gráficos, especialmente graças à Gramática Gráfica de Wilkinson (2005) e à implementação de Hadley Wickham no pacote R ggplot2 (Wickham, 2016). Há um trabalho contínuo e uma melhor compreensão dos problemas de cor e percepção. Gráficos que foram raramente usados e difíceis de desenhar, tais como gráficos de coordenadas paralelas (por exemplo, Theus, 2015) e mosaicos (por exemplo, Unwin, 2015), foram refinados e desenvolvidos. Conjuntos de dados muito maiores podem ser analisados e visualizados e os gráficos podem desempenhar um papel valioso no diagnóstico dos pontos fortes e fracos de modelos complexos. As visualizações de dados podem ser encontradas em qualquer lugar, em publicações científicas, em jornais e TV, e na Web. Há muitas páginas da Web onde os gráficos são discutidos e debatidos. Esta é uma enorme melhoria em relação à situação de 20 anos atrás.
Pesquisa em Visualização de Dados
Há grandes oportunidades para pesquisas futuras em visualização de dados. São necessários princípios sobre como decidir qual dos muitos gráficos possíveis de se desenhar. Não é uma questão de desenhar um único gráfico ‘ótimo’, se tal coisa existir; é uma questão de escolher um grupo de gráficos que irá fornecer mais informações. É como tirar fotografias de um objeto complicado, um único não seria suficiente, e tirar fotografias de todos os ângulos e distâncias possíveis seria demais. Conjuntos de gráficos são úteis para fornecer contexto, como demonstram os scatterplots em Klimek, Yegorov, Hanel e Thurner (2012).
Mais entendimento da combinação e ligação de gráficos é necessário, seja em conjuntos estáticos ou em monitores interativos, assim como um software melhor é necessário para estes. O valor do alinhamento e escala comum para fazer comparações eficazes, por exemplo, com pequenos múltiplos e faceting (exibindo muitos gráficos do mesmo condicionamento de forma em outras variáveis) é uma parte disso. É uma curiosidade histórica que o trabalho atual sobre gráficos interativos na Web ainda fique atrás de sistemas autônomos que já estavam disponíveis há mais de 30 anos na ligação de múltiplas janelas. Data Desk e JMP eram exemplos comerciais na época (veja Velleman, 2019, e Sall, 2019, para versões atuais).
Gráficos publicados são às vezes atraentes e maravilhosamente produzidos. O conteúdo nem sempre coincide. Isso pode ser porque os autores e editores não esperam que os gráficos sejam examinados em nenhum detalhe. Eles podem ser adicionados como ilustrações para equilibrar o layout e torná-lo mais agradável. Se você não tiver uma fotografia, desenho animado ou mapa adequados, você poderia usar um gráfico estatístico colorido. Já ouvi muitas vezes as pessoas dizerem que não entendem números e que são más em matemática na escola. Nunca ninguém me disse que não entendem gráficos, talvez porque os consideram como ilustrações e não como partes centrais de uma discussão. Há trabalho a ser feito na educação de pesquisadores e leitores sobre o valor dos gráficos.
Pesquisa em gráficos novos e inovadores é emocionante e produtivo. Simultaneamente, é essencial fazer o melhor uso de gráficos conhecidos e bem compreendidos. Há um risco de ênfase na novidade, em detrimento da familiaridade. Gráficos novos e inovadores precisam de instrução e experiência para interpretá-los. Os seus designers têm passado muito tempo a desenvolvê-los e acreditam razoavelmente que o que é óbvio para eles deve ser óbvio para todos. Basta pensar no humilde “scatterplot”. Só nos últimos anos é que os scatterplot apareceram na mídia, embora sejam um dos mais importantes gráficos estatísticos. Se você nunca viu um antes, eles podem ser intimidadores, ainda mais quando lhe é dito ‘É claro que…’ ou ‘Você pode ver isso facilmente…’. Devemos construir sobre o familiar para levar nossos leitores junto conosco.
Exemplos e Fontes
As visualizações que eu gosto podem não ser as visualizações que você gosta. Exorto-vos a pesquisar extensivamente e a julgar por vós próprios. Muito material interessante e estimulante pode ser encontrado nos livros clássicos do Tufte (por exemplo, Tufte, 2001), e nas visualizações do New York Times ao longo dos anos (por exemplo, New York Times, 2018). Outros jornais e meios de comunicação também têm produzido excelentes trabalhos. Estes são, naturalmente, gráficos de apresentação, mas oferecem muito com que se envolver. É difícil fazer uma escolha entre as muitas páginas individuais da Web que fornecem exemplos e discussões, mas Visualizar Dados é um site que recomenda destaques em toda a Web. O interesse e atividade atual em gráficos são muito bem-vindos.
O que acontece agora?
Educar as pessoas na escolha, desenho e interpretação de gráficos é mais difícil do que você pode pensar. A visualização de dados não é ensinada mal, simplesmente não é ensinada muito. Idealmente, deveria haver uma teoria melhor, e consequentemente melhores gráficos. Isso vai levar tempo. Entretanto, devemos:
discutir mais gráficos mais;
-interpretar mais gráficos mais;
-ensinar mais gráficos mais.
Daniels, M. (2018). “Terreno humano”. https://pudding.cool/2018/10/city_3d/
Hand, D. (2019). Qual é a finalidade da modelação estatística? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz
Instituto para o Governo. (2019). Renúncias ministeriais fora das remodelações, pelo primeiro-ministro. Recuperado a 14 de Agosto de 2019, de https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister
Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Detecção estatística de irregularidades eleitorais sistemáticas. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469
marastats. (2019). Estatística geral da maratona. Recuperado em 14 de agosto de 2019, de https://marastats.com/marathon/
New York Times. (2018, 31 de dezembro). 2018: O ano em histórias visuais e gráficos. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html
Sall, J. (2019). JMP. Recuperado em 8 de agosto de 2019, de http://www.jmp.com
Student. (1931). A Experiência do Leite de Lanarkshire. Biometrika, 23, 398-406.
Theus, M. (2015). Tour de France 2015. Recuperado em 14 de agosto de 2019, de http://www.theusrus.de/blog/tour-de-france-2015/
Tufte, E. (2001). A exibição visual de informações quantitativas (2ª ed.) Cheshire, CT: Graphics Press.
Unwin, A. (2015). O estudo de dados categóricos multivariados. Recuperado em 14 de agosto de 2019, de http://www.gradaanwr.net/content/ch07/
Velleman, P. (2019). Balcão de dados. Recuperado em 8 de agosto de 2019, de http://www.datadesk.com
Wickham, H. (2016). ggplot2: Gráficos elegantes para análise de dados (2ª ed.). Nova York, NY: Springer-Verlag. Obtido de https://ggplot2.tidyverse.org
Wilkinson, L. (2005). A gramática dos gráficos (2ª ed.). Nova York, NY: Springer.