Articles

Cos’è una Voice User Interface e perché è davvero necessaria?

Le Voice User Interface sono presenti in molti ambiti della vita. A volte sono particolarmente utili, per esempio quando l’uso senza contatto è fondamentale: durante un’epidemia, in un’area pubblica, o in qualsiasi momento in un reparto di isolamento di un ospedale.
In altri casi, possono essere piuttosto fastidiose, soprattutto se dobbiamo affrontare un’interfaccia mal progettata e/o concepita in modo errato. C’è qualcuno là fuori che non è mai stato turbato da un sistema di servizio clienti telefonico?

Naturalmente, non è la VUI in sé ad essere difettosa, piuttosto il design difettoso e il flusso di lavoro mal strutturato. Inoltre, questi tipi di sistemi sono solo VUI-ish, poiché gli utenti non impartiscono comandi vocali, né fanno domande. Il sistema offre istruzioni e scelte.
Quando sappiamo già (invano, ma comunque) quale pulsante premere per arrivare alla sezione del menu che volevamo, ma dobbiamo ancora ascoltare il testo monotono, dal suono robotico. Non c’è da stupirsi che la maggior parte delle persone prima o poi perda la pazienza. In questo caso, l’utente non è mai in difetto! Andiamo, a chi piace avere il proprio tempo sprecato da altri?

Ecco perché Ergomania ha sempre come priorità le esigenze dell’utente quando progetta e crea un’UI (interfaccia utente). In questo articolo, stiamo esplorando le basi del design delle interfacce utente vocali e mostriamo anche che è possibile sviluppare un’UI amabile e perfettamente funzionante.

Definizione di VUI (Voice User Interface)

Una Voice User Interface (VUI) è un’interfaccia che permette di controllare un sistema o un software in tutto o in parte usando comandi vocali.
Questi sistemi VUI sono stati con noi per un po’ di tempo. Pensate ai sistemi di gestione del servizio clienti telefonico, dove si deve scegliere tra le voci del menu con la semplice pressione di un pulsante, ma gli utenti sono presentati con le scelte da una voce in chiamata.

Il problema principale della VUI: la vista è il nostro organo sensoriale dominante

Dato che l’uomo è fondamentalmente un essere visivo, una pura Voice User Interface ha diversi svantaggi. Il cervello percepisce il mondo principalmente sulla base degli stimoli visivi, cioè le informazioni ricevute attraverso la vista. Pensateci: quanto è lontano l’orizzonte visibile in un tempo sereno se non c’è nulla che ostacoli la vista? Più di dieci chilometri.
Ma qual è la distanza uditiva dell’uomo? Pochi chilometri. L’olfatto? Pochi metri. E il gusto e il tatto funzionano solo su input diretto.
Nel caso delle VUI questo svantaggio è mitigato da soluzioni ibride che forniscono un supporto visivo – come una descrizione testuale delle possibilità offerte dalla Voice User Interface o i singoli passi dei processi. Forse il miglior esempio di un tale sistema ibrido è Erica, un assistente finanziario virtuale alla Bank of America, che (chi?) – in più – è anche disponibile come applicazione mobile, così i clienti possono sentire di poter portare l’assistente virtuale con loro ovunque.

Erica fornisce una serie di servizi convenienti ai clienti della Bank of America.

Quindi, diamo prima un’occhiata alle basi della progettazione di Interfacce Utente Vocali.

Fondamenti del design VUI

Per le interfacce utente vocali, ci imbattiamo tipicamente in due approcci.
Il primo, piuttosto vecchio, è che la VUI è una specie di servizio accessorio, supplementare, una specie di male necessario, e viene creata principalmente come una versione basata sulla voce delle UI grafiche.
Il primo esempio di ciò sono i sistemi IVR: Interactive Voice Response (IVR), un sistema di risposta interattiva noto a chiunque abbia mai usato una VUI per il servizio clienti. “Per parlare con un rappresentante, si prega di premere zero… Mantenere la linea fino a quando il nostro rappresentante si collega con voi”. Risposte ben note che possono apparire in qualsiasi IVR.
Nel secondo approccio, più recente, abbracciato anche da Ergomania, la VUI è il servizio primario, progettato specificamente con un approccio basato sulla voce. Esempi sono Siri di Apple o Amazon Echo.

Progettato per dispositivi mobili o sistemi IVR?

Quindi, quando un’azienda ha bisogno di una VUI, la domanda principale è quale approccio i professionisti del design dovrebbero seguire: usato nei dispositivi mobili o nei sistemi IVR?
Nonostante sia una tecnologia IVR piuttosto datata, può anche essere molto efficace. Nel caso di un servizio clienti, per esempio, questo è ancora un metodo collaudato, soprattutto perché gli utenti lo conoscono bene, lo sanno usare e non sono contrari. Allo stesso tempo, è estremamente importante per i progettisti di un IVR evitare i difetti fondamentali e le solite insidie.

Esempio di diagramma di flusso IVR

Non è un caso che molti sistemi di risposta interattiva sono stati oggetto di odio pubblico. Sono apparsi post di blog su come aggirare l’automazione e arrivare immediatamente al servizio clienti dal vivo.

L’approccio mobile deve essere primario quando si progetta una VUI

Lo scopo dell’IVR sarebbe proprio quello di alleggerire i servizi al cliente, dato che molte domande ricorrenti hanno già avuto una risposta. In questo caso, c’è sempre un design imperfetto o piuttosto un approccio imperfetto che alza la sua brutta testa sullo sfondo: gli IVR sono creati per rappresentare gli interessi dell’azienda e l’utente è solo un male necessario nell’equazione.
Nel caso delle VUI mobili, la domanda dei clienti è la forza motrice principale, ma possiamo ancora incontrare due tipi di approcci:

  1. La Voice User Interface è una versione sonora dell’interfaccia grafica / testuale,
  2. Secondo l’approccio puramente mobile, la VUI è un’interfaccia indipendente.

Quando si progettano le VUI moderne, una delle sfide serie è se avere un supporto grafico e visivo o meno, l’altra è se sarebbe interattivo, cioè, se il cliente può comunicare con la VUI. La prima facilita notevolmente la progettazione e l’implementazione della VUI, mentre la seconda rende l’implementazione più difficile con ordini di grandezza.

Svantaggi di un’interfaccia multimodale

Quando all’utente viene presentata la scelta tra l’utilizzo dell’interfaccia grafica, il campo di testo, o i comandi vocali mentre interagisce con un sistema, stiamo parlando di un’interfaccia multimodale. Il miglior esempio di questo è forse il motore di ricerca di Google, dove si può digitare il testo, ma si può anche cercare le cose parlando.
Le interfacce multimodali potrebbero raggiungere il più ampio gruppo di utenti possibile: potrebbero essere usate da tutti, compresi gli utenti disabili e persino da chi ha problemi di vista o di udito. Se il sistema è dotato di una VUI multimodale con interfaccia iconica, anche chi è analfabeta o non parla la lingua in questione potrebbe comunque navigarlo.

Un esempio di utilizzo multimodale dei dispositivi digitali

Sfruttare i vantaggi visivi dei dispositivi mobili è quindi un elemento evidente di qualsiasi VUI moderna – in questo caso gli aspetti applicabili all’interfaccia grafica hanno anche una notevole importanza. Tutto questo è ben noto a Ergomania che proviene dal mondo dell’UI design. Ma cosa succede se vogliamo che l’utente abbia un vero dialogo con il sistema? Questo è il momento in cui la pianificazione basata sul dialogo entra in scena.

Pianificazione basata sul dialogo della VUI

Anche se il dialogo è completamente naturale tra le persone, gli sviluppatori di sistemi informatici hanno lottato per decenni con il riconoscimento e l’interpretazione del parlato. Mentre il primo è in uno stato abbastanza avanzato (si pensi al software che converte il discorso dal vivo in testo, come Dragon, uno dei veterani del settore, o Amazon Transcribe), il secondo è ancora nella sua infanzia. Intendiamo letteralmente.
I sistemi civili più avanzati del mondo (come Siri di Apple o Google Assistant) sono più o meno come dei bambini piccoli: sono capaci del dialogo più elementare, ma non possiamo aspettarci di avere una conversazione complessa ed elevata con nessuno dei due.

Presentazione di Amazon Transcribe

La maggior parte dei dialoghi tramite VUI sono in realtà risposte a una domanda singolare

Contrariamente a quanto si crede, la maggior parte delle interazioni attuali basate sul dialogo sono a cerchio singolo. Un cerchio significa un’unità di domanda e risposta. Per esempio, se qualcuno chiede a Google quando inizia la sua prossima riunione o qual è il percorso più breve per raggiungere la sua destinazione, e ottiene una risposta di cui è soddisfatto (cioè: nessuna domanda di follow-up), stiamo parlando di un singolo cerchio di conversazione.
In generale, la maggior parte dei sistemi avanzati ora sono in grado di gestire singoli cerchi di conversazione. Una moltitudine di problemi inizia quando gli utenti hanno uno scopo diverso dall’acquisizione di informazioni una tantum. Siamo ancora lontani decenni dall’intelligenza artificiale come viene mostrata nei film di fantascienza (come il Jarvis di Tony Stark, o la Samantha di Her).

Basate il vostro design VUI sull’utente

Nel caso di un’interfaccia basata sul dialogo, conviene sempre partire dall’utente. Se vogliamo che il nostro sistema sia in grado di percorrere più di un cerchio (il che dà un vantaggio di mercato abbastanza grande a una data azienda, dato che è raro come i denti di gallina), vale la pena iniziare la fase di progettazione chiedendosi cosa potrebbe volere il cliente nel secondo cerchio.
Va da sé che non dobbiamo forzare l’utente in un secondo cerchio. Piuttosto dare all’utente la possibilità di continuare. La maggior parte dei dialoghi sarebbe a cerchio singolo come previsto, ma se si diffondesse il fatto che c’è un sistema con cui si può effettivamente parlare, incoraggerebbe molte persone a fare almeno un tentativo, e a sperimentare liberamente le capacità della VUI. Il sistema deve essere in grado di ricordare ciò che è stato detto prima nel dialogo, o – se vogliamo puntare ancora più in alto – non solo la conversazione corrente ma anche i dialoghi precedenti. Raggiungere questo obiettivo richiede un sofisticato sistema contestuale in grado di interpretare e comprendere il contesto.
Diciamo che chiediamo alla VUI quando è nato un personaggio famoso, e poi, nel secondo cerchio, chiediamo solo dove è nato, senza nominarlo (come faremmo nella vita reale). Una VUI ben progettata ricorda che l’utente è curioso di sapere il luogo di nascita della persona famosa menzionata nel cerchio precedente.

Strumenti per la progettazione VUI

Infine, parliamo degli strumenti attualmente disponibili che hanno già dimostrato la loro utilità nella progettazione VUI. Lo strumento più semplice è carta e penna. Tutto quello che dobbiamo fare è annotare un dialogo di esempio. Questo è essenzialmente un piccolo estratto dell’interazione tra l’utente e la VUI. È più o meno come un estratto di un copione in cui due attori parlano tra loro.

Pianificazione VUI tramite DialogFlow

Prepariamo un dialogo a più cerchi!

La chiave è pensare a tutte le opzioni che la VUI vuole servire. Diciamo che stiamo progettando un sito che offre un nuovo tipo di previsioni del tempo. Mentre una VUI capace di un dialogo complesso sarebbe davvero una soluzione leader di mercato, non è affatto necessario essere in grado di conversare sulla filosofia hegeliana o sugli ultimi successi pop.
Tuttavia, è della massima importanza che questa particolare VUI sia in grado di portare avanti una conversazione sul tempo. Per esempio, nel primo cerchio l’utente chiede che tipo di tempo è previsto sull’Adriatico in una data specifica, il sistema dà loro la previsione della temperatura e se è prevista pioggia. La VUI riconosce anche che gli è stato chiesto della spiaggia, quindi sa già che la prossima domanda sulla temperatura del mare riguarda la temperatura del mare misurata nel luogo a cui si riferiva la prima domanda.

Utilizzare il software di progettazione (chatbot)

Quando la nostra bozza su carta è pronta, e sappiamo che tipo di VUI vogliamo, vale la pena implementare strumenti specifici per la costruzione effettiva. Questo è il punto in cui ci renderemmo conto, la nostra migliore scommessa è di andare per un software inventato principalmente per lo sviluppo di chatbot. È dovuto al fatto che i chatbot mirano esattamente a ciò che è essenziale per le moderne VUI orientate al dialogo: l’interazione a più livelli tra uomo e macchina. I più popolari sono Dialogflow di Google, Adobe XD e Voiceflow.

Dialogflow è uno dei concorrenti più forti

Dialogflow è una piattaforma di comprensione del linguaggio naturale che facilita la progettazione e l’integrazione di un’interfaccia utente basata sulla conversazione in qualsiasi applicazione mobile, applicazione web, dispositivo intelligente, chatbot o anche sistema IVR.

Diagramma schematico di come funziona Dialogflow

Adobe XD offre uno strumento complesso

Adobe Experience Design promette molto più di Dialogflow: un toolkit complesso che soddisfa tutte le esigenze dei designer UX/UI. Da un semplice schizzo a un design pronto, è possibile creare prototipi interattivi sia per applicazioni mobili che per siti web.

Voiceflow non richiede conoscenze di programmazione

Voiceflow è stato creato da uno studio indipendente chiamato Storyflow. Il software aiuta a progettare e implementare applicazioni basate sul suono dallo schizzo al prototipo al prodotto finito. Rende facile la creazione di un sistema basato sulla voce per Amazon Alexa e Google Assistant senza alcuna conoscenza di codifica esistente.

Conclusioni

Quando si progettano interfacce utente vocali, è sempre necessario decidere quale approccio la VUI dovrebbe prendere. I sistemi IVR hanno ancora un posto sul mercato, ma allo stesso tempo è chiaro che la gente preferisce le interfacce multimodali e i sistemi basati sul dialogo (per esempio, assistenti digitali e chatbot).
Se preferisci affidare l’onere della pianificazione e dell’implementazione a un professionista, contatta Ergomania, il leader del mercato ungherese nella progettazione di UI.

  • Interfaccia multimodale
  • Chatbots
  • UI design
  • UX design
  • Design
  • UX
  • Vui

Dr. Péter Rónay

Senior blog writer