Articles

¿Qué es una interfaz de usuario de voz y por qué es realmente necesaria?

Las interfaces de usuario de voz están presentes en muchos ámbitos de la vida. A veces son especialmente útiles, por ejemplo cuando el uso sin contacto es primordial: durante una epidemia, en una zona pública, o en cualquier momento en una sala de aislamiento de un hospital.
En otros casos, pueden ser bastante molestas, sobre todo si tenemos que enfrentarnos a una interfaz mal diseñada y/o mal concebida. ¿Hay alguien por ahí que nunca se haya sentido molesto por un sistema de atención telefónica al cliente?

Naturalmente, lo que falla no es la VUI en sí, sino el diseño defectuoso y el flujo de trabajo mal estructurado. Además, este tipo de sistemas sólo son VUI, ya que los usuarios no emiten comandos de voz, ni hacen preguntas. El sistema ofrece instrucciones y opciones.
Cuando ya sabemos (en vano, pero aún así) qué botón pulsar para llegar a la sección del menú que queríamos, pero aún tenemos que escuchar el texto monótono y que suena robótico. No es de extrañar que la mayoría de la gente pierda tarde o temprano la paciencia. En este caso, ¡el usuario nunca tiene la culpa! Vamos, ¿a quién le gusta que otros le hagan perder el tiempo?

Por eso Ergomania siempre tiene como prioridad las necesidades del usuario a la hora de diseñar y crear una UI (interfaz de usuario). En este artículo, estamos explorando los fundamentos del diseño de las interfaces de usuario de voz también muestran que se puede desarrollar una interfaz de usuario adorable y que funcione de manera óptima.

Definición de VUI (interfaz de usuario de voz)

Una interfaz de usuario de voz (VUI) es una interfaz que le permite controlar un sistema o software en su totalidad o en partes utilizando comandos de voz.
Estos sistemas VUI han estado con nosotros desde hace bastante tiempo. Piense en los sistemas de gestión del servicio telefónico de atención al cliente, en los que hay que elegir entre los elementos del menú pulsando un botón, pero a los usuarios se les presentan las opciones mediante una voz en la llamada.

El principal problema de la VUI: la visión es nuestro órgano sensorial dominante

Dado que el hombre es fundamentalmente un ser visual, una interfaz de usuario de voz pura tiene varias desventajas. El cerebro percibe el mundo principalmente sobre la base de los estímulos visuales, es decir, la información recibida a través de la visión. Piénselo: ¿a qué distancia se puede ver el horizonte con tiempo despejado si no hay nada que obstaculice la visión? Más de diez kilómetros.
¿Pero cuál es la distancia auditiva del hombre? Unos pocos kilómetros. ¿El olfato? Unos pocos metros. Y el gusto y el tacto sólo funcionan a partir de una entrada directa.
En el caso de las VUI, esta desventaja se mitiga con soluciones híbridas que proporcionan apoyo visual, como una descripción textual de las posibilidades que ofrece la interfaz de usuario de voz o los pasos individuales de los procesos. Quizá el mejor ejemplo de un sistema híbrido de este tipo sea Erica, un asistente financiero virtual del Bank of America, que (¿quién?) -además- también está disponible como aplicación móvil, para que los clientes sientan que pueden llevarse el asistente virtual a cualquier parte.

Erica proporciona una serie de servicios convenientes a los clientes del Bank of America.

Así pues, veamos primero los fundamentos del diseño de las Interfaces de Usuario de Voz.

Básicos del diseño de VUI

Para las interfaces de usuario de voz, solemos encontrarnos con dos enfoques.
El primero, más antiguo, es que la VUI es una especie de servicio auxiliar, complementario, una especie de mal necesario, y se crea principalmente como una versión basada en la voz de las UIs gráficas.
El primer ejemplo de esto son los sistemas IVR: Interactive Voice Response (IVR), un sistema de respuesta interactiva conocido por cualquiera que haya utilizado alguna vez una VUI de atención al cliente. «Para hablar con un representante, pulse cero… Mantenga la línea hasta que nuestro representante se conecte con usted». Respuestas bien conocidas que pueden aparecer en cualquier IVR.
En el segundo enfoque, más reciente y también abrazado por Ergomanía, la VUI es el servicio principal, diseñado específicamente con un enfoque basado en la voz. Ejemplos de ello son Siri de Apple o Amazon Echo.

¿Diseñada en dispositivos móviles o en sistemas IVR?

Así que, cuando una empresa necesita una VUI, la pregunta principal es qué enfoque deben seguir los profesionales del diseño basado en la voz: ¿usada en dispositivos móviles o en sistemas IVR?
A pesar de ser una tecnología bastante anticuada el IVR, puede ser incluso muy eficaz. En el caso de un servicio de atención al cliente, por ejemplo, sigue siendo un método probado, sobre todo porque los usuarios lo conocen bien, saben manejarlo y no le tienen aversión. Al mismo tiempo, es muy importante que los diseñadores de un IVR eviten los fallos fundamentales y las trampas habituales.

Ejemplo de diagrama de flujo de IVR

No es casualidad que muchos sistemas de respuesta interactiva hayan sido objeto de odio por parte del público. Han aparecido entradas de blog sobre cómo sortear la automatización y llegar al servicio de atención al cliente en directo inmediatamente.

El enfoque móvil tiene que ser primordial a la hora de diseñar una VUI

El objetivo de la IVR sería precisamente aliviar los servicios de atención al cliente, ya que muchas preguntas recurrentes ya han sido respondidas. En este caso, siempre hay un diseño defectuoso o, mejor dicho, un enfoque defectuoso que asoma su fea cabeza en el fondo: los IVR se crean para representar los intereses de la empresa y el usuario es sólo un mal necesario en la ecuación.
En el caso de las VUI móviles, la demanda de los clientes es la principal fuerza motriz, pero aún podemos encontrarnos con dos tipos de enfoques:

  1. La interfaz de usuario de voz es una versión sonora de la interfaz gráfica/de texto,
  2. Según el enfoque puramente móvil, la VUI es una interfaz independiente.

Cuando se diseñan las VUIs modernas, uno de los serios desafíos es si tener soporte gráfico, visual o no , el otro es si sería interactivo, es decir, si el cliente puede comunicarse con la VUI. Lo primero facilita enormemente el diseño y la implementación de la VUI, mientras que lo segundo dificulta la implementación con órdenes de magnitud.

Ventajas de una interfaz multimodal

Cuando al usuario se le presenta la posibilidad de elegir entre utilizar la interfaz gráfica, el campo de texto o los comandos de voz mientras interactúa con un sistema, estamos hablando de una interfaz multimodal. El mejor ejemplo de esto es quizás el motor de búsqueda de Google, en el que se puede teclear texto, pero incluso se pueden buscar cosas hablando.
Las interfaces multimodales podrían llegar al grupo de usuarios más amplio posible: podrían ser utilizadas por todo el mundo, incluidos los usuarios discapacitados e incluso los discapacitados visuales o auditivos. Si el sistema está dotado de una VUI multimodal con interfaz icónica, incluso quienes sean analfabetos o no hablen el idioma en cuestión podrían navegar por él.

Un ejemplo de uso multimodal de un dispositivo digital

El aprovechamiento de las ventajas visuales de los dispositivos móviles es, por tanto, un elemento evidente de cualquier VUI moderna; en este caso, también se hace hincapié en los aspectos aplicables a la interfaz gráfica. Todo esto es bien conocido por la Ergomanía que viene del mundo del diseño de UI. ¿Pero qué pasa si queremos que el usuario tenga un diálogo real con el sistema? Es entonces cuando la planificación basada en el diálogo entra en escena.

Planificación de la VUI basada en el diálogo

Aunque el diálogo es completamente natural entre las personas, los desarrolladores de sistemas informáticos llevan décadas luchando con el reconocimiento y la interpretación del habla. Mientras que el primero se encuentra en un estado bastante avanzado (pensemos en el software que convierte el habla en directo en texto, como Dragon, uno de los veteranos del sector, o Amazon Transcribe), el segundo aún está en pañales. Queremos decir literalmente.
Los sistemas civiles más avanzados del mundo (como Siri de Apple o Google Assistant) son bastante parecidos a los niños pequeños: son capaces del diálogo más básico, pero no podemos esperar tener una conversación compleja y elevada con ninguno de ellos.

Presentación de Amazon Transcribe

La mayoría de los diálogos a través de VUI son en realidad respuestas a una pregunta singular

Contrariamente a la creencia popular, la mayoría de las interacciones actuales basadas en el diálogo son de un solo círculo. Un círculo significa una unidad de pregunta y respuesta. Por ejemplo, si alguien pregunta a Google cuándo empieza su próxima reunión o cuál es la ruta más corta para llegar a su destino, y obtiene una respuesta con la que está satisfecho (es decir: sin preguntas de seguimiento), estamos hablando de un único círculo conversacional.
En general, la mayoría de los sistemas avanzados ahora son capaces de manejar círculos conversacionales singulares. Una multitud de problemas comienzan cuando los usuarios tienen un propósito distinto a la adquisición de información puntual. Todavía estamos a décadas de distancia de la inteligencia artificial tal y como se muestra en las películas de ciencia ficción (como el Jarvis de Tony Stark, o la Samantha de Her).

Basa tu diseño de VUI en el usuario

En el caso de una interfaz basada en el diálogo, siempre vale la pena partir del usuario. Si queremos que nuestro sistema pueda recorrer más de un círculo (lo que da una ventaja de mercado bastante grande a una empresa determinada, ya que es raro como los dientes de una gallina), vale la pena comenzar la fase de planificación preguntando qué podría querer el cliente en el segundo círculo.
Huelga decir que no debemos forzar al usuario a un segundo círculo. Más bien hay que dar al usuario la oportunidad de continuar. La mayoría de los diálogos serían de un solo círculo, como es de esperar, pero si se difunde, que hay un sistema con el que realmente se puede hablar, animaría a mucha gente a por lo menos darle una oportunidad, y experimentar las capacidades de la VUI libremente. El sistema debe ser capaz de recordar lo que se ha dicho antes en el diálogo, o -si apuntamos aún más alto- no sólo la conversación actual, sino también los diálogos anteriores. Lograr esto requiere un sofisticado sistema contextual capaz de interpretar y entender el contexto.
Digamos que preguntamos a la VUI cuándo nació un personaje famoso, y luego, en el segundo círculo, sólo preguntamos dónde nació, sin nombrarlo (como haríamos en las conversaciones de la vida real). Una VUI bien diseñada recuerda que el usuario tiene curiosidad por el lugar de nacimiento del famoso mencionado en el círculo anterior.

Herramientas para el diseño de VUI

Por último, hablemos de las herramientas actualmente disponibles que ya han demostrado su utilidad en el diseño de VUI. La herramienta más sencilla es el papel y el bolígrafo. Lo único que tenemos que hacer es anotar un diálogo de ejemplo. Esto es esencialmente un pequeño extracto de la interacción entre el usuario y la VUI. Es más o menos como un extracto de un guión en el que dos actores hablan entre sí.

Planificación de la VUI a través de DialogFlow

¡Preparemos un diálogo de varios círculos!

La clave es pensar en todas las opciones que la VUI quiere servir. Digamos que estamos planeando un sitio que ofrece un nuevo tipo de pronóstico del tiempo. Aunque una VUI capaz de entablar un diálogo complejo sería, en efecto, una solución líder en el mercado, no es necesario que pueda conversar sobre filosofía hegeliana o los últimos éxitos del pop.
Sin embargo, es de suma importancia que esta VUI en particular sea capaz de mantener una conversación sobre el tiempo. Por ejemplo, en el primer círculo el usuario pregunta qué tiempo se espera en el Adriático en una fecha concreta, el sistema le da la previsión de temperatura y si se espera lluvia. La VUI también reconoce que se ha preguntado por la playa, por lo que ya sabe que la siguiente pregunta sobre la temperatura del mar es sobre la temperatura del mar medida en el lugar al que se refería la primera pregunta.

Utilizar software de diseño (chatbot)

Cuando nuestro borrador en papel está listo, y sabemos qué tipo de VUI queremos, vale la pena implementar herramientas específicas para la construcción real. Este es el punto en el que nos daríamos cuenta, de que nuestra mejor apuesta es ir por un software inventado principalmente para el desarrollo de chatbots. Es debido al hecho de que los chatbots apuntan exactamente a lo que es esencial para las VUIs modernas, orientadas al diálogo: la interacción de varias rondas entre el hombre y la máquina. Los más populares son Dialogflow de Google, Adobe XD y Voiceflow.

Dialogflow es uno de los competidores más fuertes

Dialogflow es una plataforma de comprensión del lenguaje natural que facilita el diseño y la integración de una interfaz de usuario basada en la conversación en cualquier aplicación móvil, aplicación web, dispositivo inteligente, chatbot o incluso sistema IVR.

Diagrama esquemático del funcionamiento de Dialogflow

Adobe XD ofrece una herramienta compleja

Adobe Experience Design promete mucho más que Dialogflow: un complejo conjunto de herramientas que satisface todas las necesidades de los diseñadores de UX/UI. Desde un simple boceto hasta un diseño ya hecho, se pueden crear prototipos interactivos tanto para aplicaciones móviles como para sitios web.

Voiceflow no requiere conocimientos de programación

Voiceflow fue creado por un estudio independiente llamado Storyflow. El software ayuda a diseñar e implementar aplicaciones basadas en el sonido desde el boceto, pasando por el prototipo, hasta el producto final. Facilita la creación de un sistema basado en la voz para Amazon Alexa y Google Assistant sin ningún conocimiento de codificación existente.

Conclusiones

Cuando se diseñan interfaces de usuario de voz, siempre es necesario decidir qué enfoque debe adoptar la VUI. Los sistemas IVR siguen teniendo un lugar en el mercado, pero al mismo tiempo está claro que la gente prefiere las interfaces multimodales y los sistemas basados en el diálogo (por ejemplo, los asistentes digitales y los chatbots).
Si prefiere confiar la carga de la planificación y la implementación a un profesional, póngase en contacto con Ergomania, el líder del mercado húngaro en diseño de interfaces de usuario.

  • Interfaz multimodal
  • Chatbots
  • Diseño de UI
  • Diseño de UI
  • Diseño de UI
  • Vui

Dr. Péter Rónay

Escritor principal del blog