Articles

Mi az a Voice User Interface és miért van rá szükség?

A Voice User Interface az élet számos területén jelen van. Néha különösen hasznosak, például amikor az érintésmentes használat a legfontosabb: járványok idején, közterületen vagy bármikor egy kórház elkülönítő osztályán.
Más esetekben viszont meglehetősen idegesítőek lehetnek, különösen, ha egy rosszul megtervezett és/vagy rosszul kigondolt felülettel kell megbirkóznunk. Van olyan ember, akit még soha nem idegesített fel egy telefonos ügyfélszolgálati rendszer?

Normális esetben nem maga a VUI hibás, hanem a hibás tervezés és a rosszul felépített munkafolyamat. Ráadásul az ilyen típusú rendszerek csak VUI-szerűek, hiszen a felhasználók nem adnak hangutasításokat, és nem is kérdeznek. A rendszer utasításokat és választási lehetőségeket kínál.
Mikor már tudjuk (hiába, de mégis), hogy melyik gombot kell megnyomni, hogy a menüben a kívánt részhez jussunk, mégis végig kell hallgatnunk a monoton, robotikusan hangzó szöveget. Nem csoda, hogy a legtöbb ember előbb-utóbb elveszítené a türelmét. Ebben az esetben sosem a felhasználó a hibás! Ugyan már, ki szereti, ha mások pazarolják az idejét?

Ez az oka annak, hogy az Ergomania mindig a felhasználó igényeit tartja elsődlegesnek a UI (felhasználói felület) tervezésénél és létrehozásánál. Ebben a cikkben a hangalapú felhasználói felületek tervezési alapjait vizsgálva azt is megmutatjuk, hogy hogyan lehet szerethető, optimálisan működő UI-t kialakítani.

A VUI (Voice User Interface)

A Voice User Interface (VUI) olyan felület, amely lehetővé teszi egy rendszer vagy szoftver teljes vagy részleges vezérlését hangutasításokkal.
A VUI-rendszerek már jó ideje velünk vannak. Gondoljunk csak a telefonos ügyfélszolgálati irányítási rendszerekre, ahol egy gombnyomással kell választani a menüpontok közül, de a felhasználóknak hívás közben a választási lehetőségeket egy hang mutatja be.

A VUI fő problémája: a látás a domináns érzékszervünk

Mivel az ember alapvetően vizuális lény, a tisztán hangalapú felhasználói felületnek számos hátránya van. Az agy a világot elsősorban vizuális ingerek, azaz a látáson keresztül kapott információk alapján érzékeli. Gondoljunk csak bele: tiszta időben milyen messzire látszik a horizont, ha semmi sem akadályozza a kilátást? Több mint tíz kilométerre.
De mekkora az ember hallótávolsága? Néhány kilométer. A szaglás? Néhány méter. Az ízlelés és a tapintás pedig csak közvetlen bevitelre működik.
A VUI-k esetében ezt a hátrányt a vizuális támogatást nyújtó hibrid megoldások – például a hangalapú felhasználói felület által kínált lehetőségek vagy a folyamatok egyes lépéseinek szöveges leírása – enyhítik. Ilyen hibrid rendszerre talán a legjobb példa az Erica, a Bank of America virtuális pénzügyi asszisztense, amely (ki?) – ráadásul – mobilalkalmazásként is elérhető, így az ügyfelek úgy érezhetik, bárhová magukkal vihetik a virtuális asszisztenst.

Erica számos kényelmi szolgáltatást nyújt a Bank of America ügyfeleinek.

Nézzük tehát először a hangalapú felhasználói felületek tervezésének alapjait.

A VUI tervezésének alapjai

A hangalapú felhasználói felületek esetében jellemzően két megközelítéssel találkozunk.
Az első, meglehetősen régebbi nézet szerint a VUI egyfajta kiegészítő, kiegészítő szolgáltatás, egyfajta szükséges rossz, és elsősorban a grafikus felhasználói felületek hangalapú változataként jön létre.
A legkorábbi példa erre az IVR rendszerek: Interactive Voice Response (IVR), egy interaktív válaszrendszer, amelyet mindenki ismer, aki valaha is használt már ügyfélszolgálati VUI-t. “Ha beszélni szeretne egy képviselővel, kérjük, nyomja meg a nullát… Tartsa a vonalat, amíg képviselőnk nem kapcsolja Önt”. Jól ismert válaszok, amelyek bármely IVR-ben megjelenhetnek.
A második, újabb megközelítésben, amelyet az Ergomania is felkarolt, a VUI az elsődleges szolgáltatás, amelyet kifejezetten hangalapú megközelítéssel terveztek. Ilyen például az Apple Siri vagy az Amazon Echo.

Mobileszközökre vagy IVR-rendszerekre tervezték?

Amikor tehát egy vállalkozásnak VUI-ra van szüksége, az elsődleges kérdés az, hogy milyen megközelítésen alapuló tervező szakemberek kövessék: mobileszközökön vagy IVR-rendszerekben használják?
Az IVR annak ellenére, hogy meglehetősen elavult technológia, még nagyon hatékony is lehet. Egy ügyfélszolgálat esetében például még mindig bevált módszer, különösen azért, mert a felhasználók jól ismerik, tudják kezelni, és nem idegenkednek tőle. Ugyanakkor rendkívül fontos, hogy az IVR tervezői elkerüljék az alapvető hibákat és a szokásos buktatókat.

IVR folyamatábra példa

Nem véletlen, hogy számos interaktív válaszrendszer a közutálat tárgya lett. Blogbejegyzések jelentek meg arról, hogyan lehet megkerülni az automatizálást, és azonnal élő ügyfélszolgálathoz jutni.

A VUI tervezésénél a mobilos megközelítésnek kell elsődlegesnek lennie

Az IVR célja éppen az ügyfélszolgálat tehermentesítése lenne, hiszen sok visszatérő kérdésre már választ kaptunk. Ebben az esetben a háttérben mindig egy hibás tervezés vagy inkább egy hibás megközelítés üti fel a fejét: az IVR-ek a vállalat érdekeinek képviseletére jönnek létre, és a felhasználó csak egy szükséges rossz az egyenletben.
A mobil VUI-k esetében az ügyfél igénye az elsődleges mozgatórugó, mégis kétféle megközelítéssel találkozhatunk:

  1. A hangos felhasználói felület a grafikus/szöveges felület hangos változata,
  2. A tisztán mobilos megközelítés szerint a VUI egy önálló felület.

A modern VUI-k tervezésekor az egyik komoly kihívás, hogy legyen-e grafikus, vizuális támogatás vagy sem , a másik, hogy legyen-e interaktív, azaz, hogy az ügyfél tud-e kommunikálni a VUI-val. Az előbbi nagyban megkönnyíti a VUI tervezését és megvalósítását, míg az utóbbi nagyságrendekkel megnehezíti a megvalósítást.

A multimodális interfész előnyei

Ha a felhasználó egy rendszerrel való interakció során választhat a grafikus felület, a szövegmező vagy a hangutasítások használata között, akkor multimodális interfészről beszélünk. A legjobb példa erre talán a Google keresőmotorja, ahol lehet szöveget gépelni, de akár beszéddel is lehet keresni.
A multimodális interfészek a lehető legszélesebb felhasználói csoportot érhetik el: mindenki használhatja őket, beleértve a fogyatékkal élő felhasználókat, sőt a látás- vagy hallássérülteket is. Ha a rendszert ikonikus felülettel ellátott multimodális VUI-val látják el, akkor még az analfabéták vagy az adott nyelvet nem beszélők is eligazodhatnak benne.

Egy példa a multimodális digitális eszközhasználatra

A mobileszközök vizuális előnyeinek kihasználása tehát magától értetődő eleme minden modern VUI-nak – ebben az esetben a grafikus felületre vonatkozó szempontok is jelentős hangsúlyt kapnak. Mindez jól ismert az Ergomania számára a felhasználói felület tervezés világából érkezve. De mi van akkor, ha azt szeretnénk, hogy a felhasználó tényleges párbeszédet folytasson a rendszerrel? Ekkor lép a színpadra a párbeszédalapú tervezés.

A VUI párbeszédalapú tervezése

Noha a párbeszéd teljesen természetes az emberek között, a számítógépes rendszerek fejlesztői évtizedek óta küzdenek a beszédfelismeréssel és beszédértelmezéssel. Míg az előbbi meglehetősen fejlett állapotban van (gondoljunk csak az élőbeszédet szöveggé alakító szoftverekre, mint például a Dragon, az iparág egyik veteránja, vagy az Amazon Transcribe), addig az utóbbi még gyerekcipőben jár. Szó szerint értjük.
A világ legfejlettebb civil rendszerei (mint az Apple Siri vagy a Google Assistant) nagyjából olyanok, mint a kisgyerekek: a legalapvetőbb párbeszédre képesek, de összetett, emelkedett gondolkodású beszélgetést egyikükkel sem várhatunk el.

Amazon Transcribe bemutatása

A VUI-n keresztül folytatott párbeszédek többsége valójában egyetlen kérdésre adott válasz

A közhiedelemmel ellentétben a jelenlegi párbeszédalapú interakciók többsége egykörös. A kör egy kérdés-válasz egységet jelent. Ha például valaki megkérdezi a Google-től, hogy mikor kezdődik a következő találkozója, vagy hogy melyik a legrövidebb útvonal az úti céljához, és olyan választ kap, amivel elégedett (vagyis: nincs további kérdés), akkor egyetlen beszélgetési körről beszélünk.
A legtöbb fejlett rendszer ma már általában képes egyetlen beszélgetési kört kezelni. A problémák sokasága akkor kezdődik, amikor a felhasználóknak az egyszeri információszerzésen kívül más célja is van. Még évtizedekre vagyunk a sci-fi filmekben bemutatott mesterséges intelligenciától (mint Tony Stark Jarvisa, vagy a Her Samanthája).

A VUI tervezését a felhasználóra alapozzuk

A párbeszéd alapú felület esetében mindig a felhasználóból érdemes kiindulni. Ha azt szeretnénk, hogy a rendszerünk egynél több kört is végig tudjon járni (ami elég nagy piaci előnyt ad egy adott cégnek, hiszen ritka, mint a tyúkszem), akkor érdemes a tervezési fázist azzal kezdeni, hogy mit akarhat a felhasználó a második körben.
Ez magától értetődő, hogy nem szabad a felhasználót egy második körbe kényszeríteni. Inkább adjunk lehetőséget a felhasználónak a folytatásra. A párbeszédek többsége az elvárásoknak megfelelően egykörös lenne, de ha elterjedne, hogy van egy rendszer, amellyel valóban lehet beszélgetni, az sokakat arra ösztönözne, hogy legalább egy próbát tegyenek vele, és szabadon megtapasztalják a VUI képességeit. A rendszernek képesnek kell lennie arra, hogy emlékezzen a párbeszédben korábban elhangzottakra, vagy – ha még magasabbra törekszünk – ne csak az aktuális beszélgetésre, hanem a korábbi párbeszédekre is. Ennek eléréséhez kifinomult kontextuális rendszerre van szükség, amely képes értelmezni és megérteni a kontextust.
Tegyük fel, hogy megkérdezzük a VUI-t, hogy mikor született egy híres ember, majd a második körben csak azt kérdezzük meg, hogy hol született, anélkül, hogy megneveznénk (ahogyan azt a valós életbeli beszélgetésekben tennénk). Egy jól megtervezett VUI emlékszik arra, hogy a felhasználó az előző körben említett híres személy születési helyére kíváncsi.

VUI-tervezéshez használt eszközök

Végül beszéljünk a jelenleg elérhető eszközökről, amelyek már bizonyították hasznosságukat a VUI-tervezésben. A legegyszerűbb eszköz a papír és a toll. Nem kell mást tennünk, mint feljegyezni egy minta párbeszédet. Ez lényegében egy kis részlet a felhasználó és a VUI közötti interakcióból. Nagyjából olyan, mint egy részlet egy forgatókönyvből, amelyben két színész beszélget egymással.

VUI-tervezés DialogFlow segítségével

Készüljünk fel egy többkörös párbeszédre!

A legfontosabb, hogy végiggondoljuk az összes lehetőséget, amelyet a VUI ki akar szolgálni. Tegyük fel, hogy egy újfajta időjárás-előrejelzést kínáló ülést tervezünk. Bár egy összetett párbeszédre képes VUI valóban piacvezető megoldás lenne, aligha szükséges, hogy a hegeliánus filozófiáról vagy a legújabb popslágerekről tudjon beszélgetni.
Az azonban rendkívül fontos, hogy ez a bizonyos VUI képes legyen az időjárásról szóló beszélgetést folytatni. Például az első körben a felhasználó megkérdezi, hogy milyen idő várható az Adrián egy adott napon, a rendszer megadja neki a hőmérséklet-előrejelzést és azt, hogy várható-e eső. A VUI azt is felismeri, hogy a tengerpartról kérdezték, így már tudja, hogy a következő, a tenger hőmérsékletéről szóló kérdés a tenger hőmérsékletéről szól, amelyet azon a helyen mértek, amelyre az első kérdés vonatkozott.

(Chatbot) tervezőszoftverek használata

Ha elkészült a papír alapú vázlatunk, és tudjuk, hogy milyen VUI-t szeretnénk, érdemes konkrét eszközöket implementálni a tényleges építéshez. Ez az a pont, amikor rájönnénk, hogy a legjobb, ha elsősorban chatbotok fejlesztésére kitalált szoftvereket választunk. Ez annak köszönhető, hogy a chatbotok pontosan azt célozzák meg, ami a modern, párbeszédorientált VUI-k számára elengedhetetlen: a többkörös interakciót ember és gép között. Ezek közül a legnépszerűbbek a Google által készített Dialogflow, az Adobe XD és a Voiceflow.

A Dialogflow az egyik legerősebb versenytárs

A Dialogflow egy természetes nyelvi megértő platform, amely megkönnyíti a beszélgetésalapú felhasználói felület tervezését és integrálását bármilyen mobilalkalmazásba, webes alkalmazásba, okoseszközbe, chatbotba vagy akár IVR-rendszerbe.

A Dialogflow működésének sematikus ábrája

Az Adobe XD komplex eszközt kínál

Az Adobe Experience Design sokkal többet ígér, mint a Dialogflow: egy komplex eszközkészletet, amely az UX/UI-tervezők minden igényét kielégíti. Az egyszerű vázlattól a kész dizájnig interaktív prototípusokat készíthet mobilalkalmazásokhoz és weboldalakhoz egyaránt.

A Voiceflow nem igényel programozási ismereteket

A Voiceflowt a Storyflow nevű független stúdió készítette. A szoftver segíti a hangalapú alkalmazások tervezését és megvalósítását a vázlattól a prototípuson át a kész termékig. Megkönnyíti az Amazon Alexa és a Google Assistant hangalapú rendszerének létrehozását meglévő kódolási ismeretek nélkül.

Következtetések

A hangalapú felhasználói felületek tervezésekor mindig el kell dönteni, hogy milyen megközelítést alkalmazzon a VUI. Az IVR rendszereknek még mindig van helyük a piacon, ugyanakkor egyértelmű, hogy az emberek a többmódú felületeket és a párbeszéd alapú rendszereket (pl. digitális asszisztensek és chatbotok) részesítik előnyben.
Ha inkább szakemberre bízná a tervezés és megvalósítás terhét, forduljon az Ergomania-hoz, a magyar piacvezető UI tervezéshez.

  • Multimodális felület
  • Chatbotok
  • UI design
  • UX design
  • Design
  • UX
  • Vui

Dr. Rónay Péter

Senior blogszerző

.