Articles

O que é uma interface de voz e porque é realmente necessária?

Interfaces de voz do usuário estão presentes em muitas áreas da vida. Às vezes são especialmente úteis, por exemplo, quando o uso sem contato é fundamental: durante uma epidemia, em uma área pública, ou a qualquer momento em uma ala de isolamento de um hospital.
Em outros casos, elas podem ser bastante irritantes, especialmente se tivermos que lidar com uma interface mal projetada e/ou mal concebida. Há alguém por aí que nunca tenha sido perturbado por um sistema de atendimento telefónico ao cliente?

Naturalmente, não é a VUI em si que tem falhas, mas sim o design defeituoso e o fluxo de trabalho mal estruturado. Além disso, estes tipos de sistemas são apenas VUI-ish, uma vez que os utilizadores não emitem comandos de voz, nem fazem quaisquer perguntas. O sistema oferece instruções e escolhas.
Quando já sabemos (em vão, mas ainda assim) qual botão carregar para chegar à secção do menu que queríamos, mas ainda temos de ouvir o texto de som monótono e robótico. Não admira que a maioria das pessoas, mais cedo ou mais tarde, perdessem a paciência. Neste caso, o usuário nunca está em falta! Vamos lá, quem gosta de ter seu tempo desperdiçado por outros?

É por isso que a Ergomania sempre mantém as necessidades do usuário como prioridade ao projetar e criar uma IU (interface de usuário). Neste artigo, estamos explorando os conceitos básicos de design das interfaces de voz do usuário também mostram que você pode desenvolver uma interface de usuário (UI) adorável e que funcione de forma ótima.

Definição da VUI (interface de voz do usuário)

Uma interface de voz do usuário (VUI) é uma interface que permite controlar um sistema ou software no todo ou em partes usando comandos de voz.
Estes sistemas de VUI estão conosco há bastante tempo. Pense nos sistemas de gestão de atendimento telefónico ao cliente, onde tem de escolher a partir dos itens do menu ao toque de um botão, mas os utilizadores são apresentados com escolhas por uma voz na chamada.

O principal problema da VUI: a visão é o nosso órgão sensorial dominante

Dado que o homem é fundamentalmente um ser visual, uma Interface de Utilizador de Voz pura tem várias desvantagens. O cérebro percebe o mundo principalmente com base em estímulos visuais, ou seja, a informação recebida através da visão. Basta pensar nisso: até que ponto é visível o horizonte num tempo limpo se não houver nada que impeça a visão? Mais de dez quilômetros.
Mas qual é a distância auditiva do homem? Alguns quilômetros. Cheiro? Uns poucos metros. E o gosto e o toque funcionam apenas a partir da entrada directa.
No caso das VUIs esta desvantagem é mitigada por soluções híbridas que fornecem suporte visual – como uma descrição textual das possibilidades oferecidas pela Interface do Utilizador de Voz ou as etapas individuais dos processos. Talvez o melhor exemplo desse sistema híbrido seja Erica, um assistente financeiro virtual do Bank of America, que (quem?) – além disso – também está disponível como uma aplicação móvel, para que os clientes possam sentir que podem levar o assistente virtual com eles para qualquer lugar.

Erica fornece uma série de serviços convenientes para os clientes do Bank of America.

Então, vamos primeiro olhar para o básico do design de Interfaces de Voz do Usuário.

Basics of VUI design

For Voice User Interfaces, nós normalmente nos deparamos com duas abordagens.
A primeira, um pouco mais antiga, é que VUI é uma espécie de serviço auxiliar, suplementar, um tipo de mal necessário, e é criado principalmente como uma versão baseada em voz de UIs gráficas.
O exemplo mais antigo disto é o sistema IVR: Resposta Interativa de Voz (IVR), um sistema de resposta interativa conhecido por qualquer pessoa que já tenha usado uma VUI de atendimento ao cliente. “Para falar com um representante, por favor pressione zero… Mantenha a linha até que nosso representante se conecte a você”. Respostas bem conhecidas que podem aparecer em qualquer IVR.
Na segunda, mais recente abordagem, também adotada pela Ergomania, a VUI é o serviço principal, projetado especificamente com uma abordagem baseada em voz. Exemplos são o Siri da Apple ou o Amazon Echo.

Desenhado para dispositivos móveis ou sistemas URA?

Então, quando uma empresa precisa de uma IUV, a questão principal é qual abordagem os profissionais de design devem seguir: usada em dispositivos móveis ou sistemas URA?
Embora seja uma IU de tecnologia bastante datada, ela pode até ser muito eficaz. No caso de um serviço ao cliente, por exemplo, este ainda é um método comprovado, especialmente porque os usuários o conhecem bem, podem operá-lo, e não são avessos a ele. Ao mesmo tempo, é extremamente importante para os designers de um URA evitar falhas fundamentais e armadilhas usuais.

exemplo de fluxograma de URA

Não é coincidência que muitos sistemas de resposta interativa tenham sido objeto de ódio do público. Postagens de blogs têm aparecido sobre como contornar a automação e chegar ao atendimento ao cliente ao vivo imediatamente.

A abordagem móvel tem que ser primária ao projetar uma VUI

O objetivo da URA seria precisamente aliviar o atendimento ao cliente, já que muitas perguntas recorrentes já foram respondidas. Neste caso, há sempre um design defeituoso ou melhor, uma abordagem defeituosa que levanta a sua cabeça feia em segundo plano: os IVRs são criados para representar os interesses da empresa e o usuário é apenas um mal necessário na equação.
No caso de VUIs móveis, a demanda do cliente é a principal força motriz, mas ainda podemos encontrar dois tipos de abordagens:

  1. A interface de voz do usuário é uma versão sólida da interface gráfica / de texto,
  2. De acordo com a abordagem puramente móvel, a VUI é uma interface autônoma.

Ao projetar VUIs modernas, um dos sérios desafios é ter ou não suporte gráfico, visual, o outro é se ela seria interativa, ou seja se o cliente pode se comunicar com a VUI. O primeiro facilita muito o projeto e implementação da VUI, enquanto o segundo torna a implementação mais difícil com ordens de magnitude.

Vantagens de uma interface multimodal

Quando o usuário é apresentado com uma escolha entre usar a interface gráfica, o campo de texto, ou comandos de voz enquanto interage com um sistema, estamos falando de uma interface multimodal. O melhor exemplo disso talvez seja o motor de busca do Google, onde você pode digitar texto, mas você pode até pesquisar coisas falando.
Interfaces multimodais poderiam alcançar o maior grupo de usuários possível: elas poderiam ser usadas por todos, incluindo usuários deficientes e até mesmo por deficientes visuais ou auditivos. Se o sistema estiver equipado com uma VUI multimodal com interface icônica, mesmo aqueles analfabetos ou que não falam a língua em questão ainda poderão navegá-la.

Um exemplo de uso de dispositivos digitais multimodais

Explorar os benefícios visuais dos dispositivos móveis é, portanto, um elemento evidente de qualquer VUI moderna – neste caso, os aspectos aplicáveis à interface gráfica também recebem ênfase significativa. Tudo isso é bem conhecido da Ergomania vindo do mundo do design de interface gráfica. Mas e se quisermos que o usuário tenha um diálogo real com o sistema? Isto é quando o planejamento baseado em diálogo toma o estágio.

Planejamento baseado em diálogo da VUI

Embora o diálogo seja completamente natural entre as pessoas, os desenvolvedores de sistemas de computador têm lutado com o reconhecimento e a interpretação da fala por décadas. Enquanto o primeiro está em um estado bastante avançado (pense em software que converte fala ao vivo em texto, como o Dragon, um dos medidores da indústria, ou o Amazon Transcribe), o segundo ainda está na sua infância. Queremos dizer literalmente.
Os sistemas civis mais avançados do mundo (como o Siri da Apple ou o Google Assistant) são praticamente como crianças pequenas: eles são capazes do diálogo mais básico, mas não podemos esperar ter uma conversa complexa e de mente elevada com qualquer um deles.

Apresentação da Amazon Transcribe

A maioria dos diálogos através da VUI são na verdade respostas a uma pergunta singular

Contrário à crença popular, a maioria das interações baseadas em diálogos atuais são um único círculo. Um círculo significa uma unidade de pergunta e resposta. Por exemplo, se alguém perguntar ao Google quando a sua próxima reunião começa ou qual é o caminho mais curto para o seu destino, e obtiver uma resposta com a qual está satisfeito (ou seja: sem perguntas de seguimento), estamos a falar de um único círculo de conversação.
Em geral, os sistemas mais avançados agora são capazes de lidar com círculos de conversação singe. Uma infinidade de problemas começa quando os usuários têm um propósito que não seja a aquisição de informações de uma única vez. Ainda estamos a décadas de distância da inteligência artificial como é mostrado em filmes de ficção científica (como o Jarvis do Tony Stark, ou a Samantha dela).

Basear o seu design VUI no utilizador

No caso de uma interface baseada em diálogo, vale sempre a pena começar pelo utilizador. Se queremos que o nosso sistema seja capaz de fazer mais do que um círculo (o que dá uma vantagem de mercado bastante grande a uma determinada empresa, pois é raro como os dentes de galinha), vale a pena começar a fase de planejamento perguntando o que o cliente poderia querer no segundo círculo.
Não devemos forçar o usuário a fazer um segundo círculo. Ao invés disso, dar ao usuário uma chance de continuar. A maioria dos diálogos seria um único círculo, como esperado, mas se ele se der a volta, que existe um sistema com o qual você pode realmente falar, ele encorajaria muitas pessoas a pelo menos dar uma chance, e experimentar as capacidades da VUI livremente. O sistema deve ser capaz de lembrar o que foi dito anteriormente no diálogo, ou – se o nosso objetivo for ainda maior – não apenas a conversa atual, mas também os diálogos anteriores. Conseguir isso requer um sistema contextual sofisticado capaz de interpretar e entender o contexto.
Por exemplo, perguntamos à VUI quando uma pessoa famosa nasceu, e então, no segundo círculo, perguntamos apenas onde ela nasceu, sem nomeá-la (como faríamos na vida real convos). Uma VUI bem desenhada lembra que o usuário está curioso sobre o local de nascimento da pessoa famosa mencionada no círculo anterior.

Ferramentas para desenho da VUI

Finalmente, vamos falar sobre as ferramentas atualmente disponíveis que já provaram a sua utilidade no desenho da VUI. A ferramenta mais fácil é o papel e a caneta. Tudo o que temos que fazer é anotar uma amostra de diálogo. Este é essencialmente um pequeno trecho da interação entre o usuário e a VUI. É praticamente como um trecho de um script no qual dois atores falam um com o outro.

Planejamento da VUI via DialogFlow

Vamos nos preparar para um diálogo de múltiplos círculos!

A chave é pensar em todas as opções que a VUI quer servir. Digamos que estamos a planear um sit oferecendo um novo tipo de previsão meteorológica. Enquanto uma VUI capaz de diálogos complexos seria de fato uma solução líder de mercado, dificilmente é necessário ser capaz de conversar sobre a filosofia Hegeliana ou sobre os últimos hits pop.
No entanto, é da maior importância que esta VUI em particular seja capaz de levar uma conversa sobre o tempo. Por exemplo, no primeiro círculo o usuário pergunta que tipo de tempo é esperado no Adriático em uma data específica, o sistema lhes dá a previsão de temperatura e se a chuva é esperada. A VUI também reconhece que foi perguntado sobre a praia, então já sabe que a próxima pergunta sobre a temperatura do mar é sobre a temperatura do mar medida no local a primeira pergunta referida.

Use (chatbot) design software

Quando o nosso rascunho em papel estiver pronto, e sabemos que tipo de VUI queremos, vale a pena implementar ferramentas específicas para a construção propriamente dita. Este é o ponto onde nós perceberíamos, a nossa melhor aposta é ir para o software inventado principalmente para o desenvolvimento de chatbots. Isso se deve ao fato de que os chatbots visam exatamente o que é essencial para VUIs modernas e orientadas ao diálogo: interação multi-terra entre homem e máquina. Os mais populares são Dialogflow do Google, Adobe XD e Voiceflow.

Dialogflow é um dos mais fortes concorrentes

Dialogflow é uma plataforma natural de compreensão da linguagem que facilita o design e a integração de uma interface de usuário baseada em conversação em qualquer aplicativo móvel, aplicativo web, dispositivo inteligente, chatbot, ou mesmo sistema IVR.

Diagrama esquemático de como funciona o Dialogflow

Adobe XD oferece uma ferramenta complexa

Adobe Experience Design promete muito mais do que o Dialogflow: um conjunto de ferramentas complexo que satisfaz todas as necessidades dos designers UX/UI. Desde um simples esboço até um design pronto, você pode criar protótipos interativos tanto para aplicações móveis quanto para websites.

Voiceflow não requer conhecimentos de programação

Voiceflow foi criado por um estúdio independente chamado Storyflow. O software ajuda a desenhar e implementar aplicações baseadas no som, desde o esboço, passando pelo protótipo, até ao produto final. Ele facilita a criação de um sistema baseado em voz para Amazon Alexa e Google Assistant sem nenhum conhecimento de codificação existente.

Conclusions

Ao projetar Interfaces de Usuário de Voz, é sempre necessário decidir qual abordagem a VUI deve tomar. Sistemas IVR ainda têm um lugar no mercado, mas ao mesmo tempo é claro que as pessoas preferem interfaces multimodo e sistemas baseados em diálogo (por exemplo, assistentes digitais e chatbots).
Se você preferir confiar o fardo do planejamento e implementação a um profissional, por favor entre em contato com Ergomania, o líder do mercado húngaro em design de interfaces de usuário.

  • Interface multimodal
  • Chatbots
  • Desenho UI
  • Desenho UI
  • Desenho UI
  • Desenho UI
  • Vui

Dr. Péter Rónay

Escritor de blogs seniores