Articles

Wat is een Voice User Interface en waarom is het echt nodig?

Voice User Interfaces zijn aanwezig in vele gebieden van het leven. Soms zijn ze bijzonder nuttig, bijvoorbeeld wanneer contactloos gebruik van het grootste belang is: tijdens een epidemie, in een openbare ruimte, of op elk moment op een isoleerafdeling van een ziekenhuis.
In andere gevallen kunnen ze behoorlijk irritant zijn, vooral als we te maken hebben met een slecht ontworpen en/of onjuist opgevatte interface. Is er iemand die nog nooit van zijn stuk is gebracht door een telefonisch klantenservicesysteem?

Natuurlijk is het niet de VUI zelf die gebreken vertoont, maar eerder het gebrekkige ontwerp en de slecht gestructureerde workflow. Bovendien zijn dit soort systemen slechts VUI-achtig, omdat de gebruikers geen spraakcommando’s geven, noch vragen stellen. Het systeem biedt instructies en keuzemogelijkheden.
Wanneer we al (tevergeefs, maar toch) weten op welke knop we moeten drukken om bij het gewenste onderdeel in het menu te komen, maar we moeten nog steeds naar de monotone, robotachtig klinkende tekst luisteren. Geen wonder dat de meeste mensen vroeg of laat hun geduld zouden verliezen. In dit geval is de gebruiker nooit in gebreke gebleven! Kom op, wie vindt het nu leuk dat zijn tijd door anderen wordt verspild?

Daarom houdt Ergomania bij het ontwerpen en creëren van een UI (user interface) altijd de behoeften van de gebruiker als prioriteit aan. In dit artikel gaan we in op de basisprincipes van het ontwerp van de Voice User Interfaces en laten we tevens zien dat u een sympathieke, optimaal functionerende UI kunt ontwikkelen.

Definitie van VUI (Voice User Interface)

Een Voice User Interface (VUI) is een interface waarmee u een systeem of software geheel of gedeeltelijk met spraakcommando’s kunt bedienen.
Deze VUI-systemen zijn al geruime tijd onder ons. Denk aan telefonische klantenservicemanagementsystemen, waarbij je met een druk op de knop een keuze moet maken uit de menu-items, maar gebruikers in gesprek keuzes voorgeschoteld krijgen door een stem.

Het grootste probleem van VUI: het gezichtsvermogen is ons dominante zintuig

Gezien het feit dat de mens fundamenteel een visueel wezen is, heeft een zuivere Voice User Interface verschillende nadelen. De hersenen nemen de wereld hoofdzakelijk waar op basis van visuele stimuli, d.w.z. informatie die via het gezichtsvermogen wordt ontvangen. Ga maar na: hoe ver is de horizon zichtbaar bij helder weer als er niets is dat het zicht belemmert? Meer dan tien kilometer.
Maar wat is de hoorafstand van de mens? Een paar kilometer. Reuk? Een paar meter. En smaak en tastzin werken alleen bij directe input.
In het geval van VUI’s wordt dit nadeel verzacht door hybride oplossingen die visuele ondersteuning bieden – zoals een tekstuele beschrijving van de mogelijkheden die de Voice User Interface biedt of de afzonderlijke stappen van de processen. Misschien wel het beste voorbeeld van zo’n hybride systeem is Erica, een virtuele financiële assistent bij Bank of America, die (wie?) – bovendien – ook beschikbaar is als mobiele applicatie, zodat klanten het gevoel hebben dat ze de virtuele assistent overal mee naar toe kunnen nemen.

Erica biedt een aantal handige diensten aan klanten van Bank of America.

Dus, laten we eerst eens kijken naar de basisprincipes van het ontwerpen van Voice User Interfaces.

Basisprincipes van VUI-ontwerp

Voor Voice User Interfaces komen we meestal twee benaderingen tegen.
De eerste, wat oudere opvatting, is dat VUI een soort ondersteunende, aanvullende dienst is, een soort noodzakelijk kwaad, en voornamelijk wordt gemaakt als een spraakgestuurde versie van grafische UI’s.
Het vroegste voorbeeld hiervan zijn IVR-systemen: Interactive Voice Response (IVR), een interactief antwoordsysteem bekend bij iedereen die ooit een klantenservice VUI heeft gebruikt. “Om met een vertegenwoordiger te spreken, drukt u op nul… Houd de lijn vast tot onze vertegenwoordiger met u verbindt.” Bekende antwoorden die in elke IVR kunnen verschijnen.
In de tweede, nieuwere benadering, ook omarmd door Ergomania, is de VUI de primaire dienst, speciaal ontworpen met een spraakgebaseerde benadering. Voorbeelden zijn Apple’s Siri of Amazon Echo.

Ontworpen voor mobiele apparaten of IVR-systemen?

Dus, wanneer een bedrijf een VUI nodig heeft, is de primaire vraag welke benadering op basis van ontwerp professionals moeten volgen: gebruikt in mobiele apparaten of IVR-systemen?
Ondanks dat het een nogal gedateerde technologie IVR is, kan het zelfs zeer effectief zijn. In het geval van een klantenservice, bijvoorbeeld, is dit nog steeds een beproefde methode, vooral omdat gebruikers het goed kennen, het kunnen bedienen en er niet afkerig van zijn. Tegelijkertijd is het voor ontwerpers van een IVR uiterst belangrijk om fundamentele gebreken en gebruikelijke valkuilen te vermijden.

IVR stroomdiagram voorbeeld

Het is geen toeval dat veel interactieve antwoordsystemen onderwerp zijn geweest van publieke haat. Er zijn blogposts verschenen over hoe de automatisering te omzeilen en direct bij de live klantenservice te komen.

De mobiele benadering moet voorop staan bij het ontwerpen van een VUI

Het doel van de IVR zou juist zijn om de klantenservice te ontlasten, omdat veel terugkerende vragen al beantwoord zijn. In dit geval is er altijd een gebrekkig ontwerp of liever een gebrekkige aanpak die zijn lelijke kop opsteekt op de achtergrond: de IVR’s zijn gemaakt om de belangen van het bedrijf te vertegenwoordigen en de gebruiker is slechts een noodzakelijk kwaad in de vergelijking.
In het geval van mobiele VUI’s is de vraag van de klant de primaire drijvende kracht, maar we kunnen nog steeds twee soorten benaderingen tegenkomen:

  1. De Voice User Interface is een geluidsversie van de grafische / tekst-interface,
  2. Volgens de zuiver mobiele benadering, is de VUI een op zichzelf staande interface.

Bij het ontwerpen van moderne VUI’s is een van de grote uitdagingen of er grafische, visuele ondersteuning moet komen of niet , de andere is of het interactief zou zijn, d.w.z, of de klant met de VUI kan communiceren. De eerste vergemakkelijkt het ontwerp en de implementatie van de VUI aanzienlijk, terwijl de laatste de implementatie met ordes van grootte moeilijker maakt.

Voordelen van een multimodale interface

Wanneer de gebruiker de keuze wordt voorgelegd tussen het gebruik van de grafische interface, het tekstveld, of spraakcommando’s bij de interactie met een systeem, spreken we van een multimodale interface. Het beste voorbeeld hiervan is misschien wel de zoekmachine van Google, waar je tekst kunt typen, maar zelfs dingen kunt zoeken door te praten.
Multimodale interfaces zouden de breedst mogelijke gebruikersgroep kunnen bereiken: ze zouden door iedereen kunnen worden gebruikt, ook door gehandicapte gebruikers en zelfs door slechtzienden of slechthorenden. Als het systeem is uitgerust met een multimodale VUI met iconische interface, kunnen zelfs analfabeten of mensen die de taal in kwestie niet spreken er toch in navigeren.

Een voorbeeld van multimodaal digitaal apparaatgebruik

Het benutten van de visuele voordelen van mobiele apparaten is dan ook een vanzelfsprekend element van elke moderne VUI – in dit geval wordt ook veel nadruk gelegd op de aspecten die van toepassing zijn op de grafische interface. Dit alles is bekend bij Ergomania afkomstig uit de wereld van UI design. Maar wat als we willen dat de gebruiker een echte dialoog met het systeem voert? Dit is het moment waarop op dialoog gebaseerde planning het toneel betreedt.

Dialoog-gebaseerde planning van de VUI

Hoewel dialoog volkomen natuurlijk is bij mensen, worstelen ontwikkelaars van computersystemen al tientallen jaren met spraakherkenning en spraakinterpretatie. Terwijl het eerste zich in een vrij vergevorderd stadium bevindt (denk aan software die live spraak omzet in tekst, zoals Dragon, een van de veteranen uit de industrie, of Amazon Transcribe), staat het tweede nog in de kinderschoenen. We bedoelen letterlijk.
De meest geavanceerde civiele systemen ter wereld (zoals Apple’s Siri of Google Assistant) zijn zo’n beetje als kleine kinderen: ze zijn in staat tot de meest elementaire dialoog, maar we kunnen niet verwachten dat we complexe, verheven-gesprekken kunnen voeren met een van hen.

Amazon Transcribe presentatie

De meeste dialogen via VUI zijn eigenlijk antwoorden op een enkelvoudige vraag

In tegenstelling tot wat vaak wordt gedacht, zijn de meeste huidige dialooggebaseerde interacties enkelvoudige cirkels. Een cirkel betekent een vraag en antwoord eenheid. Als iemand bijvoorbeeld aan Google vraagt wanneer zijn volgende afspraak begint of wat de kortste route naar zijn bestemming is, en een antwoord krijgt waar hij tevreden mee is (dat wil zeggen: geen vervolgvragen), hebben we het over een enkele gesprekscirkel.
In het algemeen zijn de meeste geavanceerde systemen nu in staat om enkele gesprekscirkels af te handelen. Een veelheid van problemen begint wanneer gebruikers een ander doel hebben dan eenmalige informatieverwerving. We zijn nog tientallen jaren verwijderd van kunstmatige intelligentie zoals die in sci-fi films wordt getoond (zoals Tony Stark’s Jarvis, of de Samantha van Her).

Baseer je VUI ontwerp op de gebruiker

In het geval van een dialoog-gebaseerde interface, is het altijd de moeite waard om uit te gaan van de gebruiker. Als we willen dat ons systeem meer dan één cirkel kan doorlopen (wat een vrij groot marktvoordeel oplevert voor een bepaald bedrijf, want het is zo zeldzaam als wat), is het de moeite waard om de planningsfase te beginnen met de vraag wat de klant in de tweede cirkel zou kunnen willen.
Het spreekt vanzelf dat we de gebruiker niet in een tweede cirkel moeten dwingen. Geef de gebruiker liever de kans om verder te gaan. De meeste dialogen zouden, zoals verwacht, in een enkele cirkel verlopen, maar als bekend wordt, dat er een systeem is waarmee je werkelijk kunt praten, zou dat veel mensen aanmoedigen om het tenminste een kans te geven, en de mogelijkheden van de VUI vrij te ervaren. Het systeem moet in staat zijn te onthouden wat eerder in de dialoog is gezegd, of – als we nog hoger mikken – niet alleen het huidige gesprek maar ook eerdere dialogen. Om dit te bereiken is een gesofisticeerd contextueel systeem nodig dat in staat is de context te interpreteren en te begrijpen.
Laten we zeggen dat we de VUI vragen wanneer een beroemd persoon geboren is, en dan, in de tweede cirkel, vragen we alleen waar ze geboren zijn, zonder ze bij naam te noemen (zoals we in het echte leven zouden doen). Een goed ontworpen VUI onthoudt dat de gebruiker nieuwsgierig is naar de geboorteplaats van de beroemde persoon die in de vorige cirkel werd genoemd.

Gereedschap voor VUI ontwerp

Laten we het tenslotte hebben over het gereedschap dat momenteel beschikbaar is en dat zijn nut in VUI ontwerp al heeft bewezen. Het gemakkelijkste gereedschap is papier en pen. Het enige wat we hoeven te doen is een voorbeeld dialoog noteren. Dit is in wezen een klein uittreksel van de interactie tussen de gebruiker en de VUI. Het lijkt op een fragment uit een script waarin twee acteurs met elkaar praten.

VUI planning via DialogFlow

Laten we ons voorbereiden op een multi-cirkel dialoog!

De sleutel is om alle opties die de VUI wil bedienen door te denken. Laten we zeggen dat we van plan zijn een sit aan te bieden met een nieuw soort weersvoorspelling. Hoewel een VUI die in staat is tot een complexe dialoog inderdaad een marktleidende oplossing zou zijn, is het nauwelijks nodig dat hij in staat is te converseren over Hegeliaanse filosofie of de laatste pophits.
Het is echter van het grootste belang dat deze specifieke VUI in staat moet zijn een conversatie over het weer te voeren. Bijvoorbeeld, in de eerste cirkel vraagt de gebruiker wat voor weer er op een bepaalde datum aan de Adriatische Zee wordt verwacht, en het systeem geeft hem de temperatuurvoorspelling en of er regen wordt verwacht. De VUI herkent ook dat er werd gevraagd naar het strand, dus het weet al dat de komende vraag over de zeetemperatuur gaat over de zeetemperatuur gemeten op de plaats waar de eerste vraag naar verwees.

Gebruik (chatbot) ontwerp software

Wanneer onze op papier gebaseerde ruwe schets klaar is, en we weten wat voor soort VUI we willen, is het de moeite waard om specifieke tools te implementeren voor de eigenlijke bouw. Dit is het punt waar we zouden beseffen, onze beste weddenschap is om te gaan voor software die in de eerste plaats is uitgevonden voor de ontwikkeling van chatbots. Dat komt omdat chatbots zich precies richten op wat essentieel is voor moderne, dialoog-georiënteerde VUI’s: multi-ronde interactie tussen mens en machine. De populairste hiervan zijn Dialogflow van Google, Adobe XD en Voiceflow.

Dialogflow is een van de sterkste concurrenten

Dialogflow is een platform voor het begrijpen van natuurlijke taal dat het ontwerp en de integratie van een op conversatie gebaseerde gebruikersinterface in elke mobiele toepassing, webtoepassing, smart device, chatbot of zelfs IVR-systeem vergemakkelijkt.

Schematische weergave van hoe Dialogflow werkt

Adobe XD biedt een complexe tool

Adobe Experience Design belooft veel meer dan Dialogflow: een complexe toolkit die in alle behoeften van UX/UI ontwerpers voorziet. Van een eenvoudige schets tot een kant-en-klaar ontwerp, je kunt interactieve prototypes maken voor zowel mobiele applicaties als websites.

Voiceflow vereist geen programmeerkennis

Voiceflow is gemaakt door een onafhankelijke studio genaamd Storyflow. De software helpt het ontwerpen en implementeren van geluid-gebaseerde toepassingen van schets via prototype tot eindproduct. Het maakt het gemakkelijk om een spraakgebaseerd systeem voor Amazon Alexa en Google Assistant te maken zonder bestaande coderingskennis.

Conclusies

Bij het ontwerpen van Voice User Interfaces is het altijd nodig om te beslissen welke benadering de VUI moet nemen. IVR-systemen hebben nog steeds een plaats op de markt, maar tegelijkertijd is het duidelijk dat mensen de voorkeur geven aan multi-mode interfaces en dialooggebaseerde systemen (bijv. digitale assistenten en chatbots).
Als u de last van planning en implementatie liever aan een professional toevertrouwt, neem dan contact op met Ergomania, de Hongaarse marktleider op het gebied van UI-design.

  • Multimodale interface
  • Chatbots
  • UI design
  • UX design
  • Design
  • UX
  • Vui

Dr. Péter Rónay

Senior blog writer