Qu’est-ce qu’une interface utilisateur vocale et pourquoi est-elle vraiment nécessaire ?
Les interfaces utilisateur vocales sont présentes dans de nombreux domaines de la vie. Parfois, elles sont particulièrement utiles, par exemple lorsque l’utilisation sans contact est primordiale : lors d’une épidémie, dans un lieu public, ou à tout moment dans un service d’isolement d’un hôpital.
Dans d’autres cas, elles peuvent être assez gênantes, surtout si nous devons faire face à une interface mal conçue et/ou mal pensée. Y a-t-il quelqu’un qui n’ait jamais été contrarié par un système de service clientèle par téléphone ?
Naturellement, ce n’est pas la VUI elle-même qui est défectueuse, mais plutôt la conception défectueuse et le flux de travail mal structuré. De plus, ces types de systèmes ne sont que des VUI-ish, puisque les utilisateurs n’émettent pas de commandes vocales, ni ne posent de questions. Le système propose des instructions et des choix.
Quand nous savons déjà (en vain, mais quand même) sur quel bouton appuyer pour arriver à la section du menu que nous voulions, mais que nous devons quand même écouter le texte monotone et robotique. Pas étonnant que la plupart des gens perdent patience tôt ou tard. Dans ce cas, l’utilisateur n’est jamais en faute ! Allez, qui aime voir son temps gaspillé par les autres ?
C’est pourquoi Ergomania considère toujours les besoins de l’utilisateur comme une priorité lors de la conception et de la création d’une UI (interface utilisateur). Dans cet article, nous explorons les bases de la conception des interfaces utilisateur vocales montrent également que vous pouvez développer une UI adorable et fonctionnant de manière optimale.
Définition de la VUI (Voice User Interface)
Une interface utilisateur vocale (VUI) est une interface qui vous permet de contrôler un système ou un logiciel en tout ou en partie à l’aide de commandes vocales.
Ces systèmes VUI sont parmi nous depuis un certain temps. Pensez aux systèmes de gestion du service client par téléphone, où vous devez choisir parmi les éléments du menu en appuyant sur un bouton, mais les utilisateurs se voient présenter des choix par une voix en appel.
Le principal problème de la VUI : la vision est notre organe sensoriel dominant
Du fait que l’homme est fondamentalement un être visuel, une interface utilisateur vocale pure présente plusieurs inconvénients. Le cerveau perçoit le monde principalement sur la base de stimuli visuels, c’est-à-dire d’informations reçues par la vision. Pensez-y : à quelle distance l’horizon est-il visible par temps clair si rien ne vient gêner la vue ? Plus de dix kilomètres.
Mais quelle est la distance auditive de l’homme ? Quelques kilomètres. L’odorat ? Quelques mètres. Et le goût et le toucher ne fonctionnent qu’à partir d’une entrée directe.
Dans le cas des VUI, cet inconvénient est atténué par des solutions hybrides fournissant un support visuel – comme une description textuelle des possibilités offertes par l’interface utilisateur vocale ou les différentes étapes des processus. Le meilleur exemple d’un tel système hybride est peut-être Erica, un assistant financier virtuel de Bank of America, qui (qui ?) – en plus – est également disponible sous forme d’application mobile, de sorte que les clients peuvent avoir l’impression de pouvoir emporter l’assistant virtuel partout avec eux.
Erica fournit un certain nombre de services pratiques aux clients de Bank of America.
Donc, examinons d’abord les bases de la conception des interfaces utilisateur vocales.
Bases de la conception des interfaces utilisateur vocales
Pour les interfaces utilisateur vocales, nous rencontrons généralement deux approches.
La première, plutôt ancienne, est que l’interface utilisateur vocale est une sorte de service auxiliaire, supplémentaire, une sorte de mal nécessaire, et est principalement créée comme une version vocale des interfaces utilisateur graphiques.
L’exemple le plus ancien de cette approche est celui des systèmes IVR : Interactive Voice Response (IVR), un système de réponse interactif connu de tous ceux qui ont déjà utilisé une VUI de service client. « Pour parler avec un représentant, veuillez appuyer sur zéro… Gardez la ligne jusqu’à ce que notre représentant se connecte à vous. » Des réponses bien connues qui peuvent apparaître dans n’importe quel SVI.
Dans la deuxième approche, plus récente, également adoptée par Ergomania, l’IVA est le service principal, conçu spécifiquement avec une approche vocale. Des exemples sont Siri d’Apple ou Amazon Echo.
Conçue pour les appareils mobiles ou les systèmes SVI ?
Donc, lorsqu’une entreprise a besoin d’une VUI, la question principale est de savoir quelle approche les professionnels de la conception doivent suivre : utilisée dans les appareils mobiles ou les systèmes SVI ?
Malgré le fait qu’il s’agisse d’une technologie plutôt datée SVI, elle peut même être très efficace. Dans le cas d’un service client, par exemple, il s’agit encore d’une méthode éprouvée, notamment parce que les utilisateurs la connaissent bien, savent la faire fonctionner et n’y sont pas réfractaires. Dans le même temps, il est extrêmement important pour les concepteurs d’un SVI d’éviter les défauts fondamentaux et les pièges habituels.
Exemple d’organigramme SVI
Ce n’est pas un hasard si de nombreux systèmes de réponse interactifs ont fait l’objet de la haine du public. Des articles de blog sont apparus sur la façon de contourner l’automatisation et d’obtenir immédiatement un service client en direct.
L’approche mobile doit être primordiale lors de la conception d’une VUI
Le but du SVI serait justement de soulager les services clients, puisque de nombreuses questions récurrentes ont déjà reçu une réponse. Dans ce cas, il y a toujours un défaut de conception ou plutôt une approche défectueuse qui se cabre en arrière-plan : les SVI sont créés pour représenter les intérêts de l’entreprise et l’utilisateur n’est qu’un mal nécessaire dans l’équation.
Dans le cas des VUI mobiles, la demande des clients est le principal moteur, mais nous pouvons tout de même rencontrer deux types d’approches :
- L’interface utilisateur vocale est une version sonore de l’interface graphique / texte,
- Selon l’approche purement mobile, la VUI est une interface autonome.
Lors de la conception des VUI modernes, l’un des défis sérieux est de savoir s’il faut avoir un support graphique, visuel ou non , l’autre est de savoir si elle serait interactive, c’est-à-dire, si le client peut communiquer avec l’interface utilisateur virtuelle. Le premier facilite grandement la conception et la mise en œuvre de l’interface utilisateur virtuelle, tandis que le second rend la mise en œuvre plus difficile avec des ordres de grandeur.
Avantages d’une interface multimodale
Lorsque l’utilisateur a le choix entre l’utilisation de l’interface graphique, du champ de texte ou des commandes vocales tout en interagissant avec un système, nous parlons d’une interface multimodale. Le meilleur exemple est peut-être le moteur de recherche de Google, où l’on peut taper du texte, mais où l’on peut même rechercher des choses en parlant.
Les interfaces multimodales pourraient toucher le groupe d’utilisateurs le plus large possible : elles pourraient être utilisées par tout le monde, y compris les utilisateurs handicapés et même par les malvoyants ou les malentendants. Si le système est équipé d’une VUI multimodale avec interface iconique, même les personnes analphabètes ou ne parlant pas la langue donnée pourraient quand même y naviguer.
Un exemple d’utilisation multimodale d’un appareil numérique
L’exploitation des avantages visuels des appareils mobiles est donc un élément évident de toute VUI moderne – dans ce cas, les aspects applicables à l’interface graphique sont également mis en avant de manière significative. Tout cela est bien connu d’Ergomania, qui vient du monde de la conception d’interfaces utilisateur. Mais qu’en est-il si nous voulons que l’utilisateur ait un véritable dialogue avec le système ? C’est alors que la planification basée sur le dialogue entre en scène.
Planification de la VUI basée sur le dialogue
Bien que le dialogue soit tout à fait naturel chez les gens, les développeurs de systèmes informatiques se débattent depuis des décennies avec la reconnaissance et l’interprétation de la parole. Si la première est dans un état assez avancé (pensez aux logiciels qui convertissent la parole en direct en texte, comme Dragon, l’un des vétérans de l’industrie, ou Amazon Transcribe), la seconde en est encore à ses balbutiements. Nous voulons dire littéralement.
Les systèmes civils les plus avancés du monde (comme Siri d’Apple ou Google Assistant) sont à peu près comme des petits enfants : ils sont capables du dialogue le plus basique, mais nous ne pouvons pas nous attendre à avoir une conversation complexe, à l’esprit élevé, avec l’un ou l’autre.
Présentation d’Amazon Transcribe
La plupart des dialogues par VUI sont en fait des réponses à une question singulière
Contrairement à la croyance populaire, la plupart des interactions actuelles basées sur le dialogue sont à un seul cercle. Un cercle signifie une unité de question et de réponse. Par exemple, si quelqu’un demande à Google quand commence sa prochaine réunion ou quel est le chemin le plus court vers sa destination, et obtient une réponse dont il est satisfait (c’est-à-dire : pas de questions complémentaires), nous parlons d’un seul cercle conversationnel.
En général, la plupart des systèmes avancés sont maintenant capables de gérer des cercles conversationnels uniques. Une multitude de problèmes commencent lorsque les utilisateurs ont un objectif autre que l’acquisition ponctuelle d’informations. Nous sommes encore à des décennies de l’intelligence artificielle telle qu’elle est montrée dans les films de science-fiction (comme le Jarvis de Tony Stark, ou la Samantha de Her).
Basez la conception de votre VUI sur l’utilisateur
Dans le cas d’une interface basée sur le dialogue, il vaut toujours la peine de partir de l’utilisateur. Si nous voulons que notre système soit capable de parcourir plus d’un cercle (ce qui donne un avantage commercial assez important à une entreprise donnée car c’est rare comme des dents de poule), il vaut la peine de commencer la phase de planification en se demandant ce que le client pourrait vouloir dans le deuxième cercle.
Il va sans dire que nous ne devons pas forcer l’utilisateur à parcourir un deuxième cercle. Il faut plutôt donner à l’utilisateur une chance de continuer. La plupart des dialogues se dérouleront en un seul cercle, comme prévu, mais si l’on fait savoir qu’il existe un système auquel on peut réellement parler, cela encouragera de nombreuses personnes à au moins tenter leur chance et à expérimenter librement les capacités de l’interface utilisateur virtuelle. Le système doit être capable de se souvenir de ce qui a été dit précédemment dans le dialogue, ou – si nous visons encore plus haut – non seulement de la conversation en cours mais aussi des dialogues précédents. Pour y parvenir, il faut un système contextuel sophistiqué capable d’interpréter et de comprendre le contexte.
Disons que nous demandons à l’IUV la date de naissance d’une personne célèbre, puis, dans le deuxième cercle, nous demandons uniquement où elle est née, sans la nommer (comme nous le ferions dans des convos de la vie réelle). Une VUI bien conçue se souvient que l’utilisateur est curieux de connaître le lieu de naissance de la personne célèbre mentionnée dans le cercle précédent.
Outils pour la conception de VUI
Enfin, parlons des outils actuellement disponibles qui ont déjà prouvé leur utilité dans la conception de VUI. L’outil le plus simple est le papier et le stylo. Tout ce que nous avons à faire est de noter un exemple de dialogue. Il s’agit essentiellement d’un petit extrait de l’interaction entre l’utilisateur et l’interface utilisateur virtuelle. C’est un peu comme l’extrait d’un script dans lequel deux acteurs se parlent.
Planification de l’interface utilisateur virtuelle via DialogFlow
Préparons un dialogue à plusieurs cercles !
La clé est de réfléchir à toutes les options que l’interface utilisateur virtuelle veut servir. Disons que nous prévoyons un site offrant un nouveau type de prévisions météorologiques. Si une VUI capable de dialogues complexes serait effectivement une solution leader sur le marché, il n’est guère nécessaire de pouvoir converser sur la philosophie hégélienne ou les derniers tubes pop.
Par contre, il est de la plus haute importance que cette VUI particulière puisse mener une conversation sur la météo. Par exemple, dans le premier cercle, l’utilisateur demande quel type de temps est attendu sur l’Adriatique à une date précise, le système lui donne les prévisions de température et lui indique si de la pluie est attendue. L’IVA reconnaît également qu’on lui a posé une question sur la plage, donc elle sait déjà que la prochaine question sur la température de la mer concerne la température de la mer mesurée à l’endroit auquel la première question faisait référence.
Utiliser un logiciel de conception (chatbot)
Quand notre ébauche sur papier est prête, et que nous savons quel type d’IVA nous voulons, il vaut la peine de mettre en œuvre des outils spécifiques pour la construction réelle. C’est à ce moment-là que nous nous rendons compte que notre meilleure chance est d’opter pour un logiciel conçu principalement pour le développement de chatbots. En effet, les chatbots ciblent exactement ce qui est essentiel pour les VUI modernes, orientées vers le dialogue : l’interaction multidimensionnelle entre l’homme et la machine. Les plus populaires d’entre eux sont Dialogflow de Google, Adobe XD et Voiceflow.
Dialogflow est l’un des concurrents les plus forts
Dialogflow est une plateforme de compréhension du langage naturel qui facilite la conception et l’intégration d’une interface utilisateur basée sur la conversation dans n’importe quelle application mobile, application Web, appareil intelligent, chatbot ou même système SVI.
Schéma de fonctionnement de Dialogflow
Adobe XD propose un outil complexe
Adobe Experience Design promet bien plus que Dialogflow : une boîte à outils complexe qui répond à tous les besoins des concepteurs UX/UI. D’un simple croquis à un design prêt à l’emploi, vous pouvez créer des prototypes interactifs aussi bien pour des applications mobiles que pour des sites web.
Voiceflow ne nécessite pas de connaissances en programmation
Voiceflow a été créé par un studio indépendant appelé Storyflow. Le logiciel aide à concevoir et à mettre en œuvre des applications basées sur le son, de l’esquisse au produit fini en passant par le prototype. Il permet de créer facilement un système basé sur la voix pour Amazon Alexa et Google Assistant sans aucune connaissance de codage existante.
Conclusions
Lors de la conception d’interfaces utilisateur vocales, il est toujours nécessaire de décider de l’approche que la VUI doit adopter. Les systèmes IVR ont toujours leur place sur le marché, mais dans le même temps, il est clair que les gens préfèrent les interfaces multi-modes et les systèmes basés sur le dialogue (par exemple, les assistants numériques et les chatbots).
Si vous préférez confier la charge de la planification et de la mise en œuvre à un professionnel, veuillez contacter Ergomania, le leader du marché hongrois de la conception d’interfaces utilisateur.
- Interface multimodale
- Chatbots
- UI design
- UX design
- Design
- UX
- Vui
Dr. Péter Rónay
Rédacteur principal du blog
.