Articles

¿Por qué es importante la visualización de datos? ¿Por qué es importante la visualización de datos?

Nota del editor de la columna: La visualización de datos, facilitada por la potencia del ordenador, representa una de las herramientas fundamentales de la ciencia de datos moderna. El profesor Antony Unwin, de la Universidad de Augsburgo, describe las diferentes formas en que se utiliza la visualización de datos, explora las oportunidades para la investigación futura en el área y examina cómo se enseña la visualización de datos.

La visualización de datos significa dibujar pantallas gráficas para mostrar los datos. A veces se dibuja cada punto de los datos, como en un gráfico de dispersión, y a veces se pueden mostrar resúmenes estadísticos, como en un histograma. Las visualizaciones son principalmente descriptivas y se centran en los datos «en bruto» y en resúmenes sencillos. Pueden incluir visualizaciones de datos transformados, a veces basadas en transformaciones complicadas. Las estadísticas de una persona pueden ser los datos brutos de otra. Al igual que con otros aspectos del trabajo con gráficos, sería útil disponer de una base acordada de conceptos y terminología sobre la que construir. El objetivo principal es visualizar los datos y las estadísticas, interpretando las pantallas para obtener información.

La visualización de datos es útil para la limpieza de datos, la exploración de la estructura de los datos, la detección de valores atípicos y grupos inusuales, la identificación de tendencias y conglomerados, la detección de patrones locales, la evaluación de los resultados de los modelos y la presentación de los resultados. Es esencial para el análisis exploratorio de datos y la minería de datos para comprobar la calidad de los datos y ayudar a los analistas a familiarizarse con la estructura y las características de los datos que tienen delante. Esta es una parte del análisis de datos a la que no se le da importancia en los libros de texto, pero que está siempre presente en las investigaciones reales. Fíjese, por ejemplo, en los picos unilaterales de las distribuciones de los tiempos de finalización de las maratones (marastats, 2019).

Los gráficos revelan características de los datos que las estadísticas y los modelos pueden pasar por alto: distribuciones inusuales de los datos, patrones locales, agrupaciones, huecos, valores perdidos, evidencia de redondeo o amontonamiento, límites implícitos, valores atípicos, etc. Los gráficos plantean preguntas que estimulan la investigación y sugieren ideas. Parece fácil. De hecho, la interpretación de los gráficos requiere experiencia para identificar características potencialmente interesantes y conocimientos estadísticos para evitar los peligros de la sobreinterpretación. Al igual que los gráficos son útiles para comprobar los resultados de los modelos, los modelos son útiles para comprobar las ideas derivadas de los gráficos (para más información sobre los modelos, véase Hand, 2019).

Este resumen se concentra en los gráficos estáticos. Los gráficos dinámicos y, sobre todo, los gráficos interactivos están en una etapa de desarrollo apasionante y tienen mucho que añadir. Requieren un artículo propio. Algunos ejemplos magníficos son Human Terrain, un gráfico dinámico que muestra la población mundial en 3D, y el interactivo NameVoyager.

«Una imagen vale más que mil palabras»

Los refranes famosos tienen una forma de desarrollar una vida propia. Una imagen no sustituye a mil palabras; necesita mil palabras (o más). Para la visualización de datos es necesario conocer el contexto, la fuente de los datos, cómo y por qué se recogieron, si se podrían recoger más, las razones para dibujar las visualizaciones y cómo las personas con los conocimientos previos necesarios aconsejan que se interpreten. Se cuenta que M. G. Kendall reseñó un libro de R.A. Fisher con las siguientes palabras «Nadie debería leer este libro que no lo haya leído ya». Así ocurre con los gráficos. Si se ha leído todo el texto de apoyo, la visualización suele ser memorable y fácilmente comprensible. Si no lo ha hecho, no lo es. Los gráficos por sí solos son insuficientes, forman parte de un todo. Complementan el texto y se complementan con él. El reanálisis de Student del Experimento de la Leche de Lanarkshire (Student, 1931) es un excelente ejemplo (y también es interesante como un primer análisis de un gran conjunto de datos).

La sinergia potencial del texto y los gráficos puede apreciarse hablando a través de sus propios gráficos, explicándolos a los demás. ¿Por qué has dibujado esos gráficos? ¿Cómo los ha dibujado? ¿Qué se puede ver? ¿Hay patrones interesantes? ¿Qué se podría cambiar y mejorar? ¿Qué otros gráficos se podrían dibujar? ¿Cómo se pueden comprobar las conclusiones? Se debería hablar más de los gráficos y confiar menos en que los gráficos hablen por sí mismos.

Cuando se trata de gráficos que no has dibujado tú mismo, el mismo tipo de preguntas siguen siendo relevantes, aunque pueden ser más difíciles de responder. Edward Tufte describió la muestra de Charles Minard sobre la campaña de Napoleón en Rusia como el mejor gráfico estadístico jamás dibujado (Tufte, 2001). Es un gráfico magnífico, que merece todos los elogios, pero, como ha señalado Lee Wilkinson en su libro The Grammar of Graphics (Wilkinson, 2005), hay inexactitudes e imprecisiones en la presentación. ¿Por qué nadie las ha señalado antes? Estamos demasiado acostumbrados a aceptar los gráficos de forma acrítica, sin hacerles suficientes preguntas.

Presentación y gráficos exploratorios

La presentación y los gráficos exploratorios son animales bastante diferentes. Al presentar sus resultados, es posible que sólo tenga espacio para un gráfico y no sepa cuántas personas pueden verlo. Si aparece en un periódico, en la televisión o en la web, su audiencia podría ser de millones de personas. El gráfico debe estar bien diseñado y dibujado con un texto explicativo eficaz. En cambio, si se trata de una exploración de datos, se necesitan muchos, muchos gráficos y son para una sola audiencia: usted mismo. Los gráficos individuales no tienen por qué ser perfectos, pero deben ofrecer puntos de vista alternativos e información adicional. Los gráficos de presentación se utilizan para transmitir información conocida y suelen estar diseñados para atraer la atención. Los gráficos de exploración se utilizan para encontrar información nueva y deben dirigir la atención hacia la información.

Los gráficos publicados tienden a ser gráficos de presentación, en parte porque son para publicar y en parte porque nadie quiere ver cientos de gráficos rápidos que pueden o no haber sido útiles. Es más bien como las pruebas matemáticas: los artículos contienen las versiones finales elegantes y concisas, no las notas garabateadas y las ideas al azar que vinieron antes. Cuántos gráficos pueden haberse dibujado antes de que se eligiera la llamativa pantalla para mostrar las dimisiones de los ministros del gabinete del Reino Unido en los últimos años (Institute for Government, 2019)?

Los gráficos exploratorios aprovechan lo fácil que es ahora dibujar y redibujar gráficos. Lo que antes era un proceso lento y desgastante, que incluso incluía tener que imprimir las pantallas, se ha convertido en algo rápido y flexible. Al mismo tiempo, se requieren nuevas habilidades adicionales. Identificar características interesantes y saber comprobarlas con más detalle entre una miríada de gráficos posibles no es sólo cuestión de dibujar muchos gráficos, sino que se necesitan habilidades interpretativas y una apreciación de qué gráficos proporcionarán qué tipo de información. Hay muchas cosas que pueden variar: las variables mostradas, los tipos de gráficos, los tamaños de los gráficos y sus relaciones de aspecto, los colores y los símbolos utilizados, las escalas y los límites, la ordenación de las variables categóricas, la ordenación de las variables en visualizaciones multivariantes. Seleccionar sabiamente entre la amplia gama de gráficos y comprender cómo obtener información no son tareas triviales. La falta de una teoría de la visualización de datos que sirva de guía y base es una cuestión clave.

La visualización de datos se ha vuelto más importante

Un mejor hardware ha supuesto una reproducción más precisa, un mejor color (incluida la mezcla alfa) y un dibujo más rápido. Un mejor software ha significado un dibujo más fácil y flexible, temas consistentes y estándares más altos. Los informáticos se han implicado mucho más, tanto en el aspecto técnico como en la introducción de nuevos enfoques. Se ha avanzado en el desarrollo de una teoría de los gráficos, especialmente gracias a la Gramática de los Gráficos de Wilkinson (2005) y la implementación de Hadley Wickham en el paquete R ggplot2 (Wickham, 2016). Se sigue trabajando y comprendiendo mejor los problemas del color y la percepción. Se han perfeccionado y desarrollado gráficos que se utilizaban poco y eran difíciles de dibujar, como los gráficos de coordenadas paralelas (por ejemplo, Theus, 2015) y los mosaicplots (por ejemplo, Unwin, 2015). Se pueden analizar y visualizar conjuntos de datos mucho más grandes y los gráficos pueden desempeñar un valioso papel en el diagnóstico de los puntos fuertes y débiles de los modelos complejos. Las visualizaciones de datos pueden encontrarse en todas partes, en las publicaciones científicas, en los periódicos y la televisión, y en la web. Hay muchas páginas web en las que se discuten y debaten los gráficos. Esto supone una enorme mejora respecto a la situación de hace incluso 20 años.

Investigación en visualización de datos

Hay grandes oportunidades para la investigación futura en visualización de datos. Se necesitan principios sobre cómo decidir cuál de los muchos gráficos posibles dibujar. No se trata de dibujar un único gráfico «óptimo», si es que tal cosa existe; se trata de elegir un grupo de gráficos que proporcionen más información. Es como tomar fotografías de un objeto complicado, una sola no sería suficiente, y tomar fotos desde todos los ángulos y distancias posibles serían demasiadas. Los conjuntos de gráficos son útiles para proporcionar contexto, como demuestran los gráficos de dispersión de Klimek, Yegorov, Hanel y Thurner (2012).

Se necesita una mayor comprensión de la combinación y la vinculación de los gráficos, ya sea en conjuntos estáticos o en pantallas interactivas, al igual que se necesita un mejor software para estos. El valor de la alineación y el escalado común para hacer comparaciones efectivas, por ejemplo, con múltiplos pequeños y el faceting (mostrar muchos gráficos de la misma forma condicionando otras variables) es una parte de esto. Es una curiosidad histórica que el apasionante trabajo actual sobre gráficos interactivos en la web siga estando por detrás de los sistemas autónomos que ya estaban disponibles hace más de 30 años para enlazar múltiples ventanas. Data Desk y JMP fueron ejemplos comerciales en su momento (véase Velleman, 2019, y Sall, 2019, para las versiones actuales).

Los gráficos publicados son a veces atractivos y bellamente producidos. El contenido no siempre coincide. Esto puede deberse a que los autores y editores no esperan que los gráficos sean examinados en detalle. Puede que se añadan como ilustraciones para equilibrar la maquetación y hacerla más agradable. Si no dispone de una fotografía, un dibujo animado o un mapa adecuados, puede utilizar un colorido gráfico estadístico. Muchas veces he oído a personas decir que no entienden los números y que se les daban mal las matemáticas en la escuela. Nadie me ha dicho nunca que no entienda los gráficos, quizá porque los consideran ilustraciones y no partes centrales de un argumento. Hay que trabajar para educar a los investigadores y a los lectores en el valor de los gráficos.

La investigación sobre gráficos nuevos e innovadores es apasionante y productiva. Al mismo tiempo, es esencial hacer el mejor uso de los gráficos conocidos y bien entendidos. Se corre el riesgo de hacer hincapié en la novedad a expensas de la familiaridad. Los gráficos nuevos e innovadores necesitan instrucción y experiencia para interpretarlos. Sus diseñadores han dedicado mucho tiempo a desarrollarlos y razonablemente creen que lo que es obvio para ellos debería serlo para todos. Pensemos en el humilde gráfico de dispersión. Sólo en los últimos años han aparecido los gráficos de dispersión en los medios de comunicación, aunque son uno de los gráficos estadísticos más importantes. Si nunca has visto uno antes, pueden resultar intimidantes, más aún cuando te dicen «Está claro que…» o «Puedes ver fácilmente que…». Debemos basarnos en lo conocido para llevar a nuestros lectores con nosotros.

Ejemplos y fuentes

Las visualizaciones que me gustan a mí pueden no ser las que te gustan a ti. Os insto a que busquéis ampliamente y juzguéis por vosotros mismos. Se puede encontrar mucho material interesante y que invita a la reflexión en los libros clásicos de Tufte (por ejemplo, Tufte, 2001), y en las visualizaciones del New York Times a lo largo de los años (por ejemplo, New York Times, 2018). Otros periódicos y medios de comunicación también han producido excelentes trabajos. Se trata, por supuesto, de gráficos de presentación, pero ofrecen mucho que hacer. Es difícil hacer una elección entre las muchas páginas web individuales que ofrecen ejemplos y debates, pero Visualising Data es un sitio que recomienda destacar en toda la web. El interés y la actividad actuales en materia de gráficos son muy bienvenidos.

¿Qué pasa ahora?

Educar a la gente en la elección, el dibujo y la interpretación de gráficos es más difícil de lo que se cree. La visualización de datos no se enseña mal, simplemente no se enseña mucho. Lo ideal sería que hubiera una mejor teoría y, en consecuencia, mejores gráficos. Eso llevará tiempo. Mientras tanto, deberíamos:

discutir más sobre los gráficos;

interpretar más los gráficos;

enseñar más los gráficos.

Daniels, M. (2018). «El terreno humano». https://pudding.cool/2018/10/city_3d/

Hand, D. (2019). Para qué sirve la modelización estadística? Harvard Data Science Review, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz

Instituto de Gobierno. (2019). Dimisiones ministeriales fuera de las remodelaciones, por primer ministro. Recuperado el 14 de agosto de 2019, de https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister

Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Detección estadística de irregularidades electorales sistemáticas. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469

marastats. (2019). Estadísticas generales del maratón. Recuperado el 14 de agosto de 2019, de https://marastats.com/marathon/

New York Times. (2018, 31 de diciembre). 2018: El año en historias y gráficos visuales. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html

Sall, J. (2019). JMP. Recuperado el 8 de agosto de 2019, de http://www.jmp.com

Estudiante. (1931). El experimento de la leche de Lanarkshire. Biometrika, 23, 398-406.

Theus, M. (2015). Tour de Francia 2015. Recuperado el 14 de agosto de 2019, de http://www.theusrus.de/blog/tour-de-france-2015/

Tufte, E. (2001). The visual display of quantitative information (2nd ed.) Cheshire, CT: Graphics Press.

Unwin, A. (2015). Estudiando datos categóricos multivariantes. Recuperado el 14 de agosto de 2019, de http://www.gradaanwr.net/content/ch07/

Velleman, P. (2019). Escritorio de datos. Recuperado el 8 de agosto de 2019, de http://www.datadesk.com

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis (2ª ed.). Nueva York, NY: Springer-Verlag. Recuperado de https://ggplot2.tidyverse.org

Wilkinson, L. (2005). La gramática de los gráficos (2ª ed.). New York, NY: Springer.