Articles

Co je to hlasové uživatelské rozhraní a proč je vlastně potřeba?

Hlasová uživatelská rozhraní se vyskytují v mnoha oblastech života. Někdy jsou obzvláště užitečná, například když je nejdůležitější bezkontaktní používání: během epidemie, ve veřejném prostoru nebo kdykoli na izolačním oddělení nemocnice.
V jiných případech mohou být docela otravná, zejména pokud se musíme vyrovnat se špatně navrženým a/nebo nesprávně koncipovaným rozhraním. Existuje někdo, koho nikdy nerozčílil systém telefonické obsluhy zákazníků?“

Přirozeně není vadné samotné VUI, ale spíše chybný návrh a špatně strukturovaný pracovní postup. Navíc tyto typy systémů jsou pouze VUI, protože uživatelé nevydávají hlasové příkazy, ani nepokládají žádné otázky. Systém nabízí pokyny a volby.
Když už víme (marně, ale přece), které tlačítko stisknout, abychom se dostali do požadované sekce v menu, ale přesto musíme poslouchat monotónní, roboticky znějící text. Není divu, že většina lidí dříve či později ztratí trpělivost. V tomto případě není nikdy chyba na straně uživatele! No tak, komu se líbí, když někdo plýtvá jeho časem?“

Proto má Ergomania při návrhu a tvorbě uživatelského rozhraní (UI) vždy na prvním místě potřeby uživatele. V tomto článku se zabýváme základy návrhu hlasového uživatelského rozhraní a také si ukážeme, že můžete vytvořit milé, optimálně fungující uživatelské rozhraní.

Definice VUI (Voice User Interface)

Hlasové uživatelské rozhraní (VUI) je rozhraní, které umožňuje ovládat systém nebo software jako celek nebo jeho části pomocí hlasových příkazů.
Tyto systémy VUI jsou tu s námi již delší dobu. Vzpomeňme si na systémy telefonického řízení zákaznických služeb, kde je třeba vybírat z položek nabídky stisknutím tlačítka, ale uživatelům jsou volby předkládány hlasem při hovoru.

Hlavní problém VUI: zrak je náš dominantní smyslový orgán

Vzhledem k tomu, že člověk je v podstatě vizuální bytost, má čistě hlasové uživatelské rozhraní několik nevýhod. Mozek vnímá svět především na základě vizuálních podnětů, tedy informací získaných zrakem. Jen se zamyslete: jak daleko je za jasného počasí vidět horizont, pokud výhledu nic nebrání? Více než deset kilometrů.
Jaká je však sluchová vzdálenost člověka? Několik kilometrů. Čich? Několik metrů. A chuť a hmat fungují pouze z přímého vstupu.
V případě VUI tuto nevýhodu zmírňují hybridní řešení poskytující vizuální podporu – například textový popis možností, které nabízí hlasové uživatelské rozhraní, nebo jednotlivé kroky procesů. Asi nejlepším příkladem takového hybridního systému je Erica, virtuální finanční asistentka společnosti Bank of America, která (kdo?) – navíc – je k dispozici také jako mobilní aplikace, takže zákazníci mohou mít pocit, že si virtuální asistentku mohou vzít kamkoli s sebou.

Erica poskytuje zákazníkům Bank of America řadu komfortních služeb.

Podívejme se tedy nejprve na základy navrhování hlasových uživatelských rozhraní.

Základy návrhu VUI

U hlasových uživatelských rozhraní se obvykle setkáváme se dvěma přístupy.
První, spíše starší názor je, že VUI je jakousi pomocnou, doplňkovou službou, jakýmsi nutným zlem, a vytváří se především jako hlasová verze grafických uživatelských rozhraní.
Nejstarším příkladem jsou systémy IVR: Interaktivní hlasová odezva (IVR), systém interaktivní odpovědi, který zná každý, kdo někdy použil VUI pro zákaznické služby. „Chcete-li hovořit se zástupcem, stiskněte prosím nulu… Vydržte na lince, dokud se s vámi nespojí náš zástupce“. Dobře známé odpovědi, které se mohou objevit v každém IVR.
V druhém, novějším přístupu, který rovněž přijala Ergomania, je VUI primární službou, navrženou speciálně s hlasovým přístupem. Příkladem je Siri od společnosti Apple nebo Amazon Echo.

Navrženo pro mobilní zařízení nebo systémy IVR?

Pokud tedy podnik potřebuje VUI, je primární otázkou, jaký přístup založený na designu by měli odborníci sledovat: použitý v mobilních zařízeních nebo v systémech IVR?
Přestože je IVR poměrně zastaralá technologie, může být dokonce velmi efektivní. Například v případě zákaznického servisu je to stále osvědčená metoda, zejména proto, že ji uživatelé dobře znají, umí ji ovládat a nemají k ní odpor. Zároveň je nesmírně důležité, aby se návrháři IVR vyvarovali zásadních chyb a obvyklých úskalí.

Příklad vývojového diagramu IVR

Není náhodou, že mnohé systémy interaktivní odezvy se staly předmětem nenávisti veřejnosti. Na blozích se objevily příspěvky o tom, jak obejít automatizaci a okamžitě se dostat k živému zákaznickému servisu.

Při návrhu VUI musí být primární mobilní přístup

Cílem IVR by mělo být právě odlehčení zákaznického servisu, protože mnoho opakujících se dotazů již bylo zodpovězeno. V tomto případě se v pozadí vždy objevuje chybný návrh nebo spíše chybný přístup: IVR jsou vytvořeny, aby zastupovaly zájmy společnosti, a uživatel je v této rovnici jen nutným zlem.
V případě mobilních VUI je hlavní hnací silou poptávka zákazníků, ale přesto se můžeme setkat se dvěma typy přístupů:

  1. Hlasové uživatelské rozhraní je zvukovou verzí grafického/textového rozhraní,
  2. Podle čistě mobilního přístupu je VUI samostatným rozhraním.

Při navrhování moderních VUI je jednou z vážných výzev, zda mít grafickou, vizuální podporu, nebo ne , druhou je, zda by bylo interaktivní, tj, zda zákazník může s VUI komunikovat. První možnost výrazně usnadňuje návrh a implementaci VUI, zatímco druhá možnost implementaci řádově ztěžuje.

Výhody multimodálního rozhraní

Pokud je uživateli při interakci se systémem předložena volba mezi použitím grafického rozhraní, textového pole nebo hlasových příkazů, hovoříme o multimodálním rozhraní. Nejlepším příkladem je zřejmě vyhledávač Google, kde můžete psát text, ale můžete vyhledávat i mluvením.
Multimodální rozhraní by mohla oslovit nejširší možnou skupinu uživatelů: mohli by je používat všichni, včetně uživatelů s postižením, a dokonce i zrakově nebo sluchově postižení. Pokud je systém vybaven multimodálním VUI s ikonickým rozhraním, mohli by se v něm orientovat i ti, kteří jsou negramotní nebo neovládají daný jazyk.

Příklad multimodálního využití digitálního zařízení

Využití vizuálních výhod mobilních zařízení je tedy samozřejmou součástí každého moderního VUI – v tomto případě je kladen značný důraz i na aspekty platné pro grafické rozhraní. To vše Ergomania dobře zná ze světa designu uživatelských rozhraní. Ale co když chceme, aby uživatel vedl se systémem skutečný dialog? Tehdy nastupuje na scénu plánování založené na dialogu.

Plánování VUI založené na dialogu

Ačkoli je dialog mezi lidmi zcela přirozený, vývojáři počítačových systémů se s rozpoznáváním a interpretací řeči potýkají již desítky let. Zatímco první z nich je v poměrně pokročilém stavu (vzpomeňme na software, který převádí živou řeč na text, jako je Dragon, jeden z veteránů v oboru, nebo Amazon Transcribe), druhý je stále v plenkách. Myslíme doslova.
Nejvyspělejší civilní systémy na světě (jako Siri od Applu nebo Asistent Google) jsou dost podobné malým dětem: jsou schopny nejzákladnějšího dialogu, ale ani u jednoho z nich nemůžeme očekávat složitou konverzaci s nadnesenými myšlenkami.

Prezentace Amazon Transcribe

Většina dialogů prostřednictvím VUI jsou vlastně odpovědi na jedinou otázku

Na rozdíl od všeobecného přesvědčení je většina současných interakcí založených na dialogu jednookruhová. Kruh znamená jednotku otázky a odpovědi. Pokud se například někdo zeptá Googlu, kdy začíná jeho příští schůzka nebo jaká je nejkratší cesta do jeho cíle, a dostane odpověď, se kterou je spokojen (což znamená: žádné doplňující otázky), hovoříme o jediném konverzačním kruhu.
Všeobecně lze říci, že většina pokročilých systémů je dnes schopna zpracovat jediné konverzační kruhy. Množství problémů začíná, když mají uživatelé jiný účel než jednorázové získání informací. Od umělé inteligence, jak ji ukazují sci-fi filmy (například Jarvis Tonyho Starka nebo Samantha z filmu Her), nás dělí ještě desítky let.

Založte návrh VUI na uživateli

V případě dialogového rozhraní se vždy vyplatí vycházet z uživatele. Pokud chceme, aby náš systém dokázal projít více než jedním okruhem (což dává dané společnosti poměrně velkou tržní výhodu, protože je to vzácné jako slepičí zuby), vyplatí se začít fázi plánování otázkou, co by mohl zákazník chtít v druhém okruhu.
Samozřejmostí je, že bychom neměli uživatele nutit do druhého okruhu. Spíše dejte uživateli šanci pokračovat. Většina dialogů by byla podle očekávání jednokolová, ale kdyby se rozneslo, že existuje systém, se kterým lze skutečně mluvit, povzbudilo by to mnoho lidí, aby to alespoň zkusili a svobodně si vyzkoušeli možnosti VUI. Systém si musí umět zapamatovat, co bylo v dialogu řečeno dříve, nebo – pokud míříme ještě výš – nejen aktuální konverzaci, ale i předchozí dialogy. Dosažení tohoto cíle vyžaduje sofistikovaný kontextový systém schopný interpretovat a chápat kontext.
Řekněme, že se VUI zeptáme, kdy se narodila nějaká slavná osobnost, a v druhém kole se zeptáme pouze na to, kde se narodila, aniž bychom ji jmenovali (jak bychom to udělali v reálných konverzacích). Dobře navržené VUI pamatuje na to, že uživatele zajímá místo narození slavné osobnosti uvedené v předchozím okruhu.

Nástroje pro návrh VUI

Nakonec si povíme o nástrojích, které jsou v současnosti k dispozici a které již prokázaly svou užitečnost při návrhu VUI. Nejjednodušším nástrojem je papír a pero. Stačí, když si zapíšeme vzorový dialog. Jedná se v podstatě o malý výňatek z interakce mezi uživatelem a VUI. Je to něco jako úryvek ze scénáře, ve kterém spolu hovoří dva herci.

Plánování VUI pomocí DialogFlow

Připravme se na vícekolový dialog!“

Klíčové je promyslet všechny možnosti, které chce VUI obsluhovat. Řekněme, že plánujeme sit uaci nabízející nový druh předpovědi počasí. I když by VUI schopné komplexního dialogu bylo skutečně špičkovým řešením na trhu, sotva je nutné, aby dokázalo konverzovat o hegelovské filozofii nebo nejnovějších popových hitech.
Je však nanejvýš důležité, aby toto konkrétní VUI dokázalo vést rozhovor o počasí. Když se například uživatel v prvním okruhu zeptá, jaké počasí se očekává na Jadranu v určitý den, systém mu sdělí předpověď teploty a to, zda se očekává déšť. VUI také rozpozná, že se ptal na pláž, takže už ví, že nadcházející otázka na teplotu moře se týká teploty moře naměřené v místě, na které se vztahovala první otázka.

Použití softwaru pro návrh (chatbota)

Když máme hotový hrubý návrh na papíře a víme, jaký typ VUI chceme, je vhodné implementovat konkrétní nástroje pro vlastní sestavení. To je bod, kdy bychom si uvědomili, že naší nejlepší volbou je sáhnout po softwaru vymyšleném primárně pro vývoj chatbotů. Je to dáno tím, že chatboti se zaměřují přesně na to, co je pro moderní, dialogově orientované VUI podstatné: na vícekolovou interakci mezi člověkem a strojem. Mezi nejpopulárnější z nich patří Dialogflow od společnosti Google, Adobe XD a Voiceflow.

Dialogflow je jedním z nejsilnějších konkurentů

Dialogflow je platforma pro porozumění přirozenému jazyku, která usnadňuje návrh a integraci konverzačního uživatelského rozhraní do libovolné mobilní aplikace, webové aplikace, chytrého zařízení, chatbota nebo dokonce systému IVR.

Schematické schéma fungování Dialogflow

Adobe XD nabízí komplexní nástroj

Adobe Experience Design slibuje mnohem více než Dialogflow: komplexní sadu nástrojů, která splňuje všechny potřeby návrhářů UX/UI. Od jednoduchého náčrtu až po hotový návrh můžete vytvářet interaktivní prototypy pro mobilní aplikace i webové stránky.

Voiceflow nevyžaduje znalosti programování

Voiceflow vytvořilo nezávislé studio Storyflow. Software pomáhá navrhovat a realizovat aplikace založené na zvuku od náčrtu přes prototyp až po hotový produkt. Umožňuje snadno vytvořit hlasový systém pro Amazon Alexa a Google Assistant bez jakýchkoli stávajících znalostí kódování.

Závěry

Při navrhování hlasových uživatelských rozhraní je vždy nutné rozhodnout, jaký přístup má VUI zaujmout. Systémy IVR mají na trhu stále své místo, ale zároveň je zřejmé, že lidé dávají přednost vícerežimovým rozhraním a systémům založeným na dialogu (např. digitálním asistentům a chatbotům).
Pokud byste břemeno plánování a implementace raději svěřili profesionálům, obraťte se na společnost Ergomania, maďarskou jedničku na trhu v oblasti návrhu uživatelských rozhraní.

  • Multimodální rozhraní
  • Chatboti
  • UI design
  • UX design
  • Design
  • UX
  • Vui

Dr. Péter Rónay

Senior blog writer

.