Articles

Pourquoi la visualisation de données est-elle importante ? Qu’est-ce qui est important dans la visualisation de données ?

Note de l’éditeur de la colonne : La visualisation de données, facilitée par la puissance de l’ordinateur, représente l’un des outils fondamentaux de la science moderne des données. Le professeur Antony Unwin, de l’Université d’Augsbourg, décrit différentes façons d’utiliser la visualisation de données, explore les possibilités de recherches futures dans ce domaine et examine la façon dont la visualisation de données est enseignée.

La visualisation de données consiste à dessiner des affichages graphiques pour montrer des données. Parfois, chaque point de données est dessiné, comme dans un nuage de points, parfois des résumés statistiques peuvent être montrés, comme dans un histogramme. Les affichages sont principalement descriptifs, se concentrant sur les données « brutes » et les résumés simples. Ils peuvent inclure des affichages de données transformées, parfois basés sur des transformations compliquées. Les statistiques d’une personne peuvent être les données brutes d’une autre personne. Comme pour d’autres aspects du travail avec les graphiques, il serait utile de disposer d’une base commune de concepts et de terminologie sur laquelle s’appuyer. L’objectif principal est de visualiser les données et les statistiques, en interprétant les affichages pour obtenir des informations.

La visualisation des données est utile pour le nettoyage des données, l’exploration de la structure des données, la détection des valeurs aberrantes et des groupes inhabituels, l’identification des tendances et des clusters, le repérage des modèles locaux, l’évaluation des sorties de modélisation et la présentation des résultats. Elle est essentielle pour l’analyse exploratoire des données et l’exploration des données afin de vérifier la qualité des données et d’aider les analystes à se familiariser avec la structure et les caractéristiques des données qui leur sont présentées. Il s’agit d’une partie de l’analyse des données qui est sous-estimée dans les manuels, mais qui est omniprésente dans les enquêtes réelles. Regardez, par exemple, les pics unilatéraux dans les distributions des temps d’arrivée des marathons (marastats, 2019).

Les graphiques révèlent des caractéristiques de données que les statistiques et les modèles peuvent manquer : distributions inhabituelles de données, modèles locaux, regroupements, lacunes, valeurs manquantes, preuves d’arrondissement ou d’entassement, limites implicites, valeurs aberrantes, et ainsi de suite. Les graphiques soulèvent des questions qui stimulent la recherche et suggèrent des idées. Cela semble facile. En fait, l’interprétation des graphiques nécessite de l’expérience pour identifier les caractéristiques potentiellement intéressantes et un sens statistique pour se prémunir contre les dangers d’une surinterprétation. Tout comme les graphiques sont utiles pour vérifier les résultats des modèles, les modèles sont utiles pour vérifier les idées dérivées des graphiques (pour en savoir plus sur les modèles, voir Hand, 2019).

Cette vue d’ensemble se concentre sur les graphiques statiques. Les graphiques dynamiques et, plus particulièrement, les graphiques interactifs sont à un stade de développement passionnant et ont beaucoup à ajouter. Ils nécessitent un article à part entière. Parmi les superbes exemples, citons Human Terrain, un graphique dynamique montrant la population mondiale en 3-D, et le NameVoyager interactif.

« Une image vaut mille mots’

Les dictons célèbres ont une façon de développer une vie propre. Une image ne remplace pas mille mots, elle a besoin de mille mots (ou plus). Pour la visualisation des données, vous devez connaître le contexte, la source des données, comment et pourquoi elles ont été collectées, si plus pourrait être collecté, les raisons de dessiner les affichages, et comment les gens avec les connaissances de fond nécessaires conseillent qu’ils pourraient être interprétés. On raconte que M. G. Kendall a fait la critique d’un livre de R.A. Fisher en ces termes : « Personne ne devrait lire ce livre qui ne l’a pas déjà lu ». Il en va de même avec les graphiques. Si vous avez lu tout le texte d’accompagnement, l’affichage est souvent mémorable et facilement compréhensible. Si vous ne l’avez pas fait, il ne l’est pas. Les graphiques en eux-mêmes sont insuffisants, ils font partie d’un tout. Ils complètent le texte et sont complétés par le texte. La réanalyse par Student de l’expérience sur le lait de Lanarkshire (Student, 1931) est un excellent exemple (et est également intéressante en tant que première analyse d’un grand ensemble de données).

La synergie potentielle du texte et des graphiques peut être appréciée en parlant à travers vos propres graphiques, en les expliquant aux autres. Pourquoi avez-vous dessiné ces graphiques ? Comment les avez-vous dessinés ? Que peut-on voir ? Y a-t-il des motifs intéressants ? Qu’est-ce qui pourrait être modifié et amélioré ? Quels autres graphiques pourraient être dessinés ? Comment vérifier les conclusions ? Il faudrait parler davantage des graphiques et moins compter sur les graphiques pour parler d’eux-mêmes.

Lorsqu’il s’agit de graphiques que vous n’avez pas dessinés vous-même, les mêmes types de questions sont toujours pertinents, bien qu’il puisse être plus difficile d’y répondre. Edward Tufte a décrit l’affichage de Charles Minard sur la campagne russe de Napoléon comme le meilleur graphique statistique jamais dessiné (Tufte, 2001). Il s’agit d’un graphique magnifique, qui mérite pleinement les éloges dont il fait l’objet, mais, comme Lee Wilkinson l’a souligné dans son livre The Grammar of Graphics (Wilkinson, 2005), il comporte des inexactitudes et des imprécisions. Pourquoi personne ne les a-t-il signalées auparavant ? Nous sommes trop habitués à accepter les graphiques sans critique, sans nous poser suffisamment de questions à leur sujet.

Présentation et graphiques exploratoires

La présentation et les graphiques exploratoires sont des animaux bien différents. Dans la présentation de vos résultats, vous pouvez avoir de l’espace pour un seul graphique et aucune idée du nombre de personnes qui peuvent le voir. S’il apparaît dans un journal ou à la télévision ou sur le Web, votre public pourrait être des millions de personnes. Le graphique doit être bien conçu et bien dessiné, accompagné d’un texte explicatif efficace. En revanche, si vous explorez des données, vous avez besoin d’un très grand nombre de graphiques, destinés à un seul public : vous-même. Les graphiques individuels ne doivent pas nécessairement être parfaits, mais ils doivent fournir des vues alternatives et des informations supplémentaires. Les graphiques de présentation sont utilisés pour transmettre des informations connues et sont souvent conçus pour attirer l’attention. Les graphiques exploratoires sont utilisés pour trouver de nouvelles informations et doivent diriger l’attention sur les informations.

Les graphiques publiés ont tendance à être des graphiques de présentation, en partie parce qu’ils sont destinés à la publication et en partie parce que personne ne veut voir des centaines de graphiques rapides qui peuvent ou non avoir été utiles. C’est un peu comme les preuves mathématiques : les articles contiennent les versions finales élégantes et concises, pas les notes griffonnées et les idées aléatoires qui sont venues avant. Combien de graphiques ont pu être dessinés avant que l’affichage frappant soit choisi pour montrer les démissions des ministres du Royaume-Uni au cours des dernières années (Institute for Government, 2019) ?

Les graphiques exploratoires tirent parti de la facilité avec laquelle il est maintenant possible de dessiner et de redessiner des graphiques. Ce qui était auparavant un processus lent et usant, incluant même le fait de devoir imprimer les affichages, est devenu rapide et flexible. Dans le même temps, de nouvelles compétences supplémentaires sont nécessaires. Pour identifier les caractéristiques intéressantes et savoir comment les vérifier plus en détail parmi une myriade de graphiques possibles, il ne suffit pas de dessiner de nombreux graphiques, il faut des compétences d’interprétation et une appréciation de quels graphiques fourniront quels types d’informations. Il y a tellement de choses qui peuvent varier : les variables affichées, les types de graphiques, les tailles des graphiques et leurs rapports d’aspect, les couleurs et les symboles utilisés, les échelles et les limites, l’ordre des variables catégorielles, l’ordre des variables dans les affichages multivariés. Choisir judicieusement parmi le large éventail de graphiques et comprendre comment en tirer des enseignements ne sont pas des tâches triviales. L’absence d’une théorie de la visualisation des données pour guider et construire sur est un problème clé.

La visualisation des données est devenue plus importante

Un meilleur matériel a signifié une reproduction plus précise, une meilleure couleur (y compris le mélange alpha) et un dessin plus rapide. De meilleurs logiciels ont permis un dessin plus facile et plus souple, des thèmes cohérents et des normes plus élevées. Les informaticiens ont été beaucoup plus impliqués, tant sur le plan technique que dans l’introduction de nouvelles approches. Des progrès ont été réalisés dans le développement d’une théorie du graphisme, notamment grâce à la Grammar of Graphics de Wilkinson (2005) et à sa mise en œuvre par Hadley Wickham dans le package R ggplot2 (Wickham, 2016). Il y a un travail continu et une meilleure compréhension des problèmes de couleur et de perception. Des graphiques qui étaient rarement utilisés et difficiles à dessiner, comme les diagrammes à coordonnées parallèles (par exemple, Theus, 2015) et les mosaicplots (par exemple, Unwin, 2015), ont été affinés et développés. Des ensembles de données beaucoup plus importants peuvent être analysés et visualisés, et les graphiques peuvent jouer un rôle précieux dans le diagnostic des forces et des faiblesses de modèles complexes. On trouve des visualisations de données partout, dans les publications scientifiques, dans les journaux et à la télévision, et sur le Web. Il existe de nombreuses pages Web où les graphiques sont discutés et débattus. C’est une énorme amélioration par rapport à la situation d’il y a même 20 ans.

Recherche en visualisation de données

Il existe de grandes opportunités pour la recherche future en visualisation de données. Des principes sont nécessaires sur la façon de décider lequel des nombreux graphiques possibles il faut dessiner. Il ne s’agit pas de dessiner un graphique unique, « optimal », si tant est qu’une telle chose existe ; il s’agit de choisir un groupe de graphiques qui fourniront plus d’informations. C’est comme prendre des photos d’un objet compliqué, une seule ne suffirait pas, et prendre des photos sous tous les angles et à toutes les distances possibles serait beaucoup trop. Les ensembles de graphiques sont utiles pour fournir un contexte, comme le montrent les nuages de points de Klimek, Yegorov, Hanel et Thurner (2012).

Il faut mieux comprendre comment combiner et relier les graphiques, que ce soit dans des ensembles statiques ou dans des affichages interactifs, tout comme il faut de meilleurs logiciels pour cela. La valeur de l’alignement et de la mise à l’échelle commune pour effectuer des comparaisons efficaces, par exemple, avec de petits multiples et des facettes (affichage de nombreux graphiques de la même forme conditionnant d’autres variables) en fait partie. C’est une curiosité historique que les travaux actuels passionnants sur les graphiques interactifs sur le Web soient toujours à la traîne par rapport aux systèmes autonomes qui étaient déjà disponibles il y a plus de 30 ans pour relier plusieurs fenêtres. Data Desk et JMP étaient des exemples commerciaux à l’époque (voir Velleman, 2019, et Sall, 2019, pour les versions actuelles).

Les graphiques publiés sont parfois attrayants et magnifiquement produits. Le contenu ne correspond pas toujours. Cela peut être dû au fait que les auteurs et les éditeurs ne s’attendent pas à ce que les graphiques soient examinés en détail. Ils peuvent être ajoutés en tant qu’illustrations pour équilibrer la mise en page et lui donner un aspect plus agréable. Si vous ne disposez pas d’une photographie, d’une bande dessinée ou d’une carte appropriée, vous pouvez utiliser un graphique statistique coloré. J’ai souvent entendu des gens dire qu’ils ne comprenaient pas les chiffres et qu’ils étaient mauvais en mathématiques à l’école. Personne ne m’a jamais dit qu’il ne comprenait pas les graphiques, peut-être parce qu’il les considère comme des illustrations et non comme des éléments centraux d’un argument. Il y a du travail à faire pour éduquer les chercheurs et les lecteurs sur la valeur des graphiques.

La recherche sur des graphiques nouveaux et innovants est passionnante et productive. Simultanément, il est essentiel de faire le meilleur usage des graphiques connus et bien compris. Il y a un risque de mettre l’accent sur la nouveauté au détriment de la familiarité. Les graphiques nouveaux et innovants ont besoin d’une formation et d’une expérience pour être interprétés. Leurs concepteurs ont passé beaucoup de temps à les développer et pensent raisonnablement que ce qui est évident pour eux devrait l’être pour tout le monde. Il suffit de penser à l’humble nuage de points. Ce n’est que ces dernières années que les diagrammes de dispersion sont apparus dans les médias, bien qu’ils soient l’un des graphiques statistiques les plus importants. Si vous n’en avez jamais vu auparavant, ils peuvent être intimidants, d’autant plus lorsqu’on vous dit « Il est clair que… » ou « Vous pouvez facilement voir que… ». Nous devrions nous appuyer sur le familier pour entraîner nos lecteurs avec nous.

Exemples et sources

Les visualisations que j’aime ne sont pas forcément celles que vous aimez. Je vous invite à faire des recherches approfondies et à juger par vous-mêmes. Beaucoup de matériel intéressant et qui donne à réfléchir peut être trouvé dans les livres classiques de Tufte (par exemple, Tufte, 2001), et dans les visualisations du New York Times au fil des ans (par exemple, New York Times, 2018). D’autres journaux et médias ont également produit d’excellents travaux. Il s’agit, bien sûr, de graphiques de présentation, mais ils offrent beaucoup de possibilités d’engagement. Il est difficile de faire un choix parmi les nombreuses pages Web individuelles fournissant des exemples et des discussions, mais Visualising Data est un site qui recommande des points forts à travers le Web. L’intérêt et l’activité actuels en matière de graphiques sont les bienvenus.

Que se passe-t-il maintenant ?

Eduquer les gens à choisir, dessiner et interpréter des graphiques est plus difficile que vous ne le pensez. La visualisation de données n’est pas mal enseignée, elle n’est juste pas beaucoup enseignée du tout. Idéalement, il faudrait une meilleure théorie, et par conséquent de meilleurs graphiques. Cela prendra du temps. En attendant, nous devrions :

-discuter davantage de graphiques ;

-interpréter davantage de graphiques ;

-enseigner davantage de graphiques.

Daniels, M. (2018). « Terrain humain ». https://pudding.cool/2018/10/city_3d/

Hand, D. (2019). Quel est l’objectif de la modélisation statistique ? Revue des sciences des données de Harvard, 1(1). https://hdsr.mitpress.mit.edu/pub/9qsbf3hz

Institut du gouvernement. (2019). Démissions ministérielles hors remaniements, par Premier ministre. Extrait le 14 août 2019 de https://www.instituteforgovernment.org.uk/charts/ministerial-resignations-outside-reshuffles-prime-minister

Klimek, P., Yegorov, Y., Hanel, R., &Thurner, S. (2012). Détection statistique des irrégularités électorales systématiques. PNAS,109, 16469-16473. https://www.pnas.org/content/109/41/16469

marastats. (2019). Statistiques générales sur les marathons. Récupéré le 14 août 2019, de https://marastats.com/marathon/

New York Times. (2018, 31 décembre). 2018 : L’année des histoires visuelles et des graphiques. https://www. nytimes.com/interactive/2018/us/2018-year-in-graphics.html

Sall, J. (2019). JMP. Récupéré le 8 août 2019, de http://www.jmp.com

Étudiant. (1931). L’expérience sur le lait de Lanarkshire. Biometrika, 23, 398-406.

Theus, M. (2015). Tour de France 2015. Récupéré le 14 août 2019, de http://www.theusrus.de/blog/tour-de-france-2015/

Tufte, E. (2001). L’affichage visuel de l’information quantitative (2e éd.) Cheshire, CT : Graphics Press.

Unwin, A. (2015). L’étude des données catégorielles multivariées. Récupéré le 14 août 2019 de http://www.gradaanwr.net/content/ch07/

Velleman, P. (2019). Bureau des données. Récupéré le 8 août 2019, de http://www.datadesk.com

Wickham, H. (2016). ggplot2 : Des graphiques élégants pour l’analyse des données (2e édition). New York, NY : Springer-Verlag. Récupéré de https://ggplot2.tidyverse.org

Wilkinson, L. (2005). La grammaire des graphiques (2e éd.). New York, NY : Springer.