Articles

Vad är ett röstgränssnitt och varför behövs det egentligen?

Röstgränssnitt finns på många områden i livet. Ibland är de särskilt användbara, till exempel när kontaktlös användning är av största vikt: under en epidemi, i ett offentligt område eller när som helst på en isoleringsavdelning på ett sjukhus.
I andra fall kan de vara ganska irriterande, särskilt om vi måste hantera ett dåligt utformat och/eller felaktigt utformat gränssnitt. Finns det någon där ute som aldrig har blivit upprörd över ett system för kundtjänst via telefon?

Naturligtvis är det inte själva användargränssnittet som är felaktigt, utan snarare den felaktiga utformningen och det dåligt strukturerade arbetsflödet. Dessutom är den här typen av system bara VUI-liknande, eftersom användarna varken ger röstkommandon eller ställer några frågor. Systemet erbjuder instruktioner och valmöjligheter.
När vi redan vet (förgäves, men ändå) vilken knapp vi ska trycka på för att komma till det avsnitt i menyn som vi ville ha, men vi måste ändå lyssna på den monotona, robotliknande texten. Inte undra på att de flesta människor förr eller senare skulle förlora tålamodet. I det här fallet är det aldrig användarens fel! Kom igen, vem gillar att få sin tid slösad bort av andra?

Det är därför Ergomania alltid prioriterar användarens behov när man utformar och skapar ett användargränssnitt (UI). I den här artikeln utforskar vi designgrunderna för Voice User Interfaces och visar också att du kan utveckla ett älskvärt, optimalt fungerande UI.

Definition av VUI (Voice User Interface)

Ett Voice User Interface (VUI) är ett gränssnitt som gör det möjligt för dig att styra ett system eller en mjukvara i sin helhet eller delar av den med hjälp av röstkommandon.
De här VUI-systemen har funnits med oss under ganska lång tid. Tänk på system för hantering av kundtjänst via telefon, där man måste välja mellan olika menyalternativ genom att trycka på en knapp, men användarna presenteras för valmöjligheterna av en röst i samtalet.

Huvudproblemet med VUI: synen är vårt dominerande sinnesorgan

Med tanke på att människan i grund och botten är en visuell varelse har ett renodlat röstanvändargränssnitt flera nackdelar. Hjärnan uppfattar världen främst på grundval av visuella stimuli, dvs. information som tas emot via synen. Tänk bara på det: hur långt är horisonten synlig i klart väder om det inte finns något som hindrar sikten? Mer än tio kilometer.
Men vad är människans hörselavstånd? Några kilometer. Lukt? Några meter. Och smak och känsel fungerar bara genom direkt inmatning.
I fallet med röstanvändargränssnitt mildras denna nackdel genom hybridlösningar som ger visuellt stöd – t.ex. en textbeskrivning av de möjligheter som erbjuds av röstanvändargränssnittet eller av de enskilda stegen i processerna. Det kanske bästa exemplet på ett sådant hybridsystem är Erica, en virtuell ekonomisk assistent på Bank of America, som (vem?) – dessutom – också finns tillgänglig som en mobilapplikation, så att kunderna kan känna att de kan ta den virtuella assistenten med sig var som helst.

Erica erbjuder ett antal bekväma tjänster till Bank of Americas kunder.

Så, låt oss först titta på grunderna för att utforma röstanvändargränssnitt.

Grunderna för utformning av VUI

För röstanvändargränssnitt stöter vi vanligtvis på två tillvägagångssätt.
Det första, ganska äldre synsättet, är att VUI är ett slags sidotjänst, en kompletterande tjänst, ett slags nödvändigt ont, och att det huvudsakligen skapas som en röstbaserad version av grafiska användargränssnitt.
Det tidigaste exemplet på detta är IVR-system: Interactive Voice Response (IVR), ett interaktivt responssystem som är känt av alla som någonsin har använt ett VUI för kundtjänst. ”För att tala med en representant, tryck på noll… Håll linjen tills vår representant får kontakt med dig.” Välkända svar som kan dyka upp i alla IVR.
I det andra, nyare tillvägagångssättet, som också omfamnas av Ergomania, är VUI den primära tjänsten, utformad specifikt med ett röstbaserat tillvägagångssätt. Exempel är Apples Siri eller Amazon Echo.

Designad för mobila enheter eller IVR-system?

Så, när ett företag behöver en VUI, är den primära frågan vilket tillvägagångssätt baserade designproffs bör följa: används i mobila enheter eller IVR-system?
Trots att det är en ganska föråldrad teknik IVR, kan den till och med vara mycket effektiv. När det gäller kundtjänst, till exempel, är detta fortfarande en beprövad metod, särskilt eftersom användarna känner till den väl, kan använda den och är inte främmande för den. Samtidigt är det oerhört viktigt att konstruktörerna av en IVR undviker grundläggande brister och vanliga fallgropar.

IVR flödesschema exempel

Det är ingen slump att många interaktiva responssystem har varit föremål för allmänhetens hat. Blogginlägg har dykt upp om hur man kan ta sig runt automatiseringen och komma till levande kundtjänst omedelbart.

Det mobila tillvägagångssättet måste vara primärt när man utformar ett VUI

Syftet med IVR skulle just vara att avlasta kundtjänsterna, eftersom många återkommande frågor redan har besvarats. I det här fallet finns det alltid en bristfällig utformning eller snarare ett bristfälligt tillvägagångssätt som höjer sitt fula huvud i bakgrunden: IVR:erna skapas för att företräda företagets intressen och användaren är bara ett nödvändigt ont i ekvationen.
I fallet med mobila användargränssnitt är kundernas efterfrågan den främsta drivkraften, men vi kan fortfarande stöta på två typer av tillvägagångssätt:

  1. Röstanvändargränssnittet är en ljudversion av det grafiska/textuella gränssnittet,
  2. Enligt det rent mobila tillvägagångssättet är användargränssnittet ett fristående gränssnitt.

När man utformar moderna användargränssnitt är en av de stora utmaningarna om man ska ha grafiskt, visuellt stöd eller inte , den andra är om det ska vara interaktivt, dvs, om kunden kan kommunicera med användargränssnittet. Det förstnämnda underlättar i hög grad utformningen och genomförandet av VUI, medan det sistnämnda gör genomförandet svårare med storleksordningar.

Fördelar med ett multimodalt gränssnitt

När användaren ställs inför ett val mellan att använda det grafiska gränssnittet, textfältet eller röstkommandon när han eller hon interagerar med ett system, talar vi om ett multimodalt gränssnitt. Det bästa exemplet på detta är kanske Googles sökmotor, där man kan skriva in text, men man kan även söka efter saker genom att prata.
Multimodala gränssnitt skulle kunna nå ut till bredast möjliga användargrupp: de skulle kunna användas av alla, även av funktionshindrade användare och till och med av syn- och hörselskadade. Om systemet är utrustat med ett multimodalt VUI med ikoniskt gränssnitt kan även de som är analfabeter eller inte talar det givna språket ändå navigera i det.

Ett exempel på multimodal användning av digitala enheter

Att utnyttja de visuella fördelarna med mobila enheter är därför en självklar del av varje modernt VUI – i det här fallet läggs också stor vikt vid de aspekter som gäller för det grafiska gränssnittet. Allt detta är välkänt för Ergomania som kommer från UI-designens värld. Men vad händer om vi vill att användaren ska ha en verklig dialog med systemet? Det är då dialogbaserad planering tar plats.

Dialogbaserad planering av VUI

Och även om dialog är helt naturligt bland människor har utvecklare av datorsystem kämpat med taligenkänning och taltolkning i årtionden. Medan det förstnämnda är ganska avancerat (tänk på programvara som omvandlar levande tal till text, som Dragon, en av branschens veteraner, eller Amazon Transcribe), är det sistnämnda fortfarande i sin linda. Vi menar bokstavligen.
Världens mest avancerade civila system (som Apples Siri eller Google Assistant) är ungefär som små barn: de kan föra den mest grundläggande dialogen, men vi kan inte förvänta oss att ha komplexa, förhöjda samtal med någon av dem.

Amazon Transcribe presentation

De flesta dialoger via VUI är faktiskt svar på en enskild fråga

I motsats till vad många tror är de flesta nuvarande dialogbaserade interaktioner en enda cirkel. En cirkel innebär en fråga- och svarsenhet. Om någon till exempel frågar Google när nästa möte börjar eller vilken som är den kortaste vägen till destinationen och får ett svar som han/hon är nöjd med (dvs. inga följdfrågor), talar vi om en enskild samtalscirkel.
I allmänhet klarar de flesta avancerade system numera av att hantera enstaka samtalscirklar. En mängd problem uppstår när användarna har ett annat syfte än att få information vid ett tillfälle. Vi är fortfarande årtionden ifrån artificiell intelligens som den visas i sci-fi-filmer (som Tony Starks Jarvis, eller Samantha of Her).

Baser din VUI-design på användaren

Om det gäller ett dialogbaserat gränssnitt är det alltid värt att utgå från användaren. Om vi vill att vårt system ska kunna gå mer än en cirkel (vilket ger en ganska stor marknadsfördel för ett visst företag eftersom det är sällsynt som hönsens tänder) är det värt att börja planeringsfasen med att fråga sig vad kunden skulle kunna vilja ha i den andra cirkeln.
Det säger sig självt att vi inte ska tvinga användaren till en andra cirkel. Ge snarare användaren en chans att fortsätta. De flesta dialoger skulle som väntat vara en enda cirkel, men om det går runt, att det finns ett system som man faktiskt kan prata med, skulle det uppmuntra många människor att åtminstone ge det ett försök, och uppleva VUI:s möjligheter fritt. Systemet måste kunna komma ihåg vad som sagts tidigare i dialogen, eller – om vi siktar ännu högre – inte bara den aktuella konversationen utan även tidigare dialoger. För att uppnå detta krävs ett sofistikerat kontextuellt system som kan tolka och förstå sammanhang.
Säg att vi frågar VUI när en berömd person föddes, och sedan, i den andra cirkeln, frågar vi bara var han eller hon föddes, utan att nämna hans eller hennes namn (som vi skulle göra i samtal i verkliga livet). Ett väl utformat VUI kommer ihåg att användaren är nyfiken på födelseorten för den berömda person som nämndes i den föregående cirkeln.

Verktyg för VUI-design

Slutligt ska vi tala om de verktyg som för närvarande finns tillgängliga och som redan har visat sig vara användbara för VUI-design. Det enklaste verktyget är papper och penna. Allt vi behöver göra är att anteckna ett exempel på en dialog. Detta är i huvudsak ett litet utdrag ur interaktionen mellan användaren och VUI. Det är ungefär som ett utdrag ur ett manus där två skådespelare pratar med varandra.

VUI-planering via DialogFlow

Vi förbereder oss för en dialog med flera cirklar!

Nyckeln är att tänka igenom alla de alternativ som VUI:n vill servera. Låt oss säga att vi planerar en sit som erbjuder en ny typ av väderprognos. Även om ett VUI som kan föra en komplex dialog verkligen skulle vara en marknadsledande lösning, är det knappast nödvändigt att kunna konversera om hegeliansk filosofi eller de senaste pophitsen.
Det är dock av yttersta vikt att just detta VUI ska kunna föra en konversation om vädret. I den första cirkeln frågar användaren till exempel vilket väder som väntas vid Adriatiska havet ett visst datum, och systemet ger honom temperaturprognosen och anger om det väntas regn. VUI:n känner också igen att det frågades om stranden, så den vet redan att den kommande frågan om havstemperaturen handlar om havstemperaturen som uppmätts på den plats som den första frågan hänvisade till.

Användning av (chatbot)designprogramvara

När vårt pappersbaserade grovutkast är färdigt och vi vet vilken typ av VUI vi vill ha, är det värt att implementera specifika verktyg för det faktiska byggandet. Det är vid den här punkten som vi skulle inse att vårt bästa alternativ är att välja programvara som i första hand är uppfunnen för utveckling av chattrobotar. Det beror på att chatbots riktar in sig på exakt det som är väsentligt för moderna, dialogorienterade VUI: interaktion i flera omgångar mellan människa och maskin. De mest populära av dessa är Dialogflow från Google, Adobe XD och Voiceflow.

Dialogflow är en av de starkaste konkurrenterna

Dialogflow är en plattform för förståelse av naturligt språk som underlättar utformning och integrering av ett konversationsbaserat användargränssnitt i alla mobilapplikationer, webbapplikationer, smarta enheter, chattbottar och även IVR-system.

Schematisk bild av hur Dialogflow fungerar

Adobe XD erbjuder ett komplext verktyg

Adobe Experience Design lovar mycket mer än Dialogflow: en komplex verktygslåda som uppfyller alla behov hos UX/UI-designers. Från en enkel skiss till en färdig design kan du skapa interaktiva prototyper för både mobilapplikationer och webbplatser.

Voiceflow kräver inga programmeringskunskaper

Voiceflow skapades av en oberoende studio som heter Storyflow. Programvaran hjälper till att designa och implementera ljudbaserade applikationer från skiss via prototyp till färdig produkt. Den gör det enkelt att skapa ett röstbaserat system för Amazon Alexa och Google Assistant utan några befintliga kodningskunskaper.

Slutsatser

När man utformar röstbaserade användargränssnitt måste man alltid bestämma sig för vilket tillvägagångssätt VUI:et ska ha. IVR-system har fortfarande en plats på marknaden, men samtidigt är det tydligt att människor föredrar gränssnitt med flera lägen och dialogbaserade system (t.ex. digitala assistenter och chatbots).
Om du hellre överlåter bördan av planering och implementering till ett proffs kan du kontakta Ergomania, den ungerska marknadsledaren inom UI-design.

  • Multimodalt gränssnitt
  • Chatbots
  • UI-design
  • UX-design
  • Design
  • UX
  • Vui

Dr Péter Rónay

Senior bloggskribent

.