Articles

Co to jest głosowy interfejs użytkownika i dlaczego jest naprawdę potrzebny?

Głosowe interfejsy użytkownika są obecne w wielu dziedzinach życia. Czasami są one szczególnie użyteczne, na przykład wtedy, gdy bezkontaktowe użycie jest najważniejsze: podczas epidemii, w miejscu publicznym lub w dowolnym momencie na oddziale izolacyjnym w szpitalu.
W innych przypadkach mogą być dość irytujące, zwłaszcza jeśli musimy radzić sobie ze źle zaprojektowanym i/lub niepoprawnie pomyślanym interfejsem. Czy jest tam ktoś, kto nigdy nie był zdenerwowany przez system telefonicznej obsługi klienta?

Naturalnie, to nie sam VUI jest wadliwy, raczej wadliwy projekt i źle zorganizowany przepływ pracy. Ponadto, tego typu systemy są tylko VUI-ish, ponieważ użytkownicy nie wydają poleceń głosowych, ani nie zadają żadnych pytań. System oferuje instrukcje i wybory.
Kiedy już wiemy (na próżno, ale jednak), który przycisk nacisnąć, aby dostać się do sekcji w menu, którą chcieliśmy, ale nadal musimy słuchać monotonnego, robotycznie brzmiącego tekstu. Nic dziwnego, że większość ludzi prędzej czy później straciłaby cierpliwość. W tym przypadku użytkownik nigdy nie jest winny! Daj spokój, kto lubi, gdy inni marnują jego czas?

Dlatego Ergomania zawsze traktuje potrzeby użytkownika jako priorytet przy projektowaniu i tworzeniu UI (interfejsu użytkownika). W tym artykule zgłębiamy podstawy projektowania Głosowych Interfejsów Użytkownika i pokazujemy, że można stworzyć uroczy, optymalnie działający UI.

Definicja VUI (Voice User Interface)

Głosowy Interfejs Użytkownika (VUI) to interfejs, który pozwala na sterowanie systemem lub oprogramowaniem w całości lub w części za pomocą poleceń głosowych.
Te systemy VUI są z nami od dłuższego czasu. Pomyśl o telefonicznych systemach zarządzania obsługą klienta, gdzie trzeba wybierać z pozycji menu po naciśnięciu przycisku, ale użytkownicy są prezentowani z wyborami przez głos w rozmowie.

Główny problem VUI: wzrok jest naszym dominującym organem zmysłowym

Zważywszy, że człowiek jest zasadniczo istotą wizualną, czysty głosowy interfejs użytkownika ma kilka wad. Mózg postrzega świat przede wszystkim na podstawie bodźców wizualnych, czyli informacji otrzymywanych za pośrednictwem wzroku. Pomyśl tylko: jak daleko jest widoczny horyzont przy dobrej pogodzie, jeśli nic nie zasłania widoku? Ponad dziesięć kilometrów.
Ale jaka jest odległość słuchowa człowieka? Kilka kilometrów. Węch? Kilka metrów. A smak i dotyk działają tylko z bezpośredniego wejścia.
W przypadku VUI tę wadę łagodzą rozwiązania hybrydowe zapewniające wsparcie wizualne – np. tekstowy opis możliwości oferowanych przez Głosowy Interfejs Użytkownika lub poszczególnych etapów procesów. Być może najlepszym przykładem takiego hybrydowego systemu jest Erica, wirtualny asystent finansowy w Bank of America, który (kto?) – w dodatku – dostępny jest również jako aplikacja mobilna, dzięki czemu klienci mają poczucie, że mogą zabrać wirtualnego asystenta ze sobą wszędzie.

Erica dostarcza szereg usług conveniente klientom Bank of America.

Przyjrzyjrzyjrzyjmy się zatem najpierw podstawom projektowania Głosowych Interfejsów Użytkownika.

Podstawy projektowania VUI

W przypadku Voice User Interfaces spotykamy się zazwyczaj z dwoma podejściami.
Pierwszy, raczej starszy pogląd, głosi, że VUI jest rodzajem usługi pomocniczej, uzupełniającej, rodzajem zła koniecznego i jest tworzony głównie jako głosowa wersja graficznych UI.
Najwcześniejszym tego przykładem są systemy IVR: Interactive Voice Response (IVR), interaktywny system odpowiedzi znany każdemu, kto kiedykolwiek korzystał z VUI do obsługi klienta. „Aby porozmawiać z przedstawicielem, proszę nacisnąć zero… Przytrzymaj linię, aż nasz przedstawiciel połączy się z tobą”. Dobrze znane odpowiedzi, które mogą pojawić się w każdym IVR.
W drugim, nowszym podejściu, również przyjętym przez Ergomanię, VUI jest podstawową usługą, zaprojektowaną specjalnie z podejściem opartym na głosie. Przykładami są Siri firmy Apple lub Amazon Echo.

Zaprojektowane dla urządzeń mobilnych lub systemów IVR?

Więc, kiedy firma potrzebuje VUI, podstawowym pytaniem jest, jakie podejście powinni zastosować specjaliści od projektowania: używane w urządzeniach mobilnych lub systemach IVR.
Mimo, że jest to raczej przestarzała technologia IVR, może być nawet bardzo skuteczna. W przypadku np. obsługi klienta jest to wciąż sprawdzona metoda, zwłaszcza, że użytkownicy dobrze ją znają, potrafią obsługiwać i nie mają do niej awersji. Jednocześnie niezwykle ważne jest, aby projektanci IVR unikali podstawowych wad i typowych pułapek.

Przykładowy flowchart IVR

Nie przez przypadek wiele systemów interaktywnej odpowiedzi stało się przedmiotem publicznej nienawiści. Pojawiły się posty na blogach o tym, jak obejść automatyzację i natychmiast dostać się do obsługi klienta na żywo.

Podejście mobilne musi być najważniejsze przy projektowaniu VUI

Celem IVR byłoby właśnie odciążenie obsługi klienta, ponieważ na wiele powtarzających się pytań udzielono już odpowiedzi. W tym przypadku zawsze mamy do czynienia z wadliwym projektem, a raczej z wadliwym podejściem, które straszy w tle: IVR-y są tworzone po to, by reprezentować interesy firmy, a użytkownik jest tylko złem koniecznym w tym równaniu.
W przypadku mobilnych VUI, zapotrzebowanie klientów jest główną siłą napędową, ale nadal możemy natknąć się na dwa rodzaje podejść:

  1. Głosowy interfejs użytkownika jest dźwiękową wersją interfejsu graficznego/tekstowego,
  2. Zgodnie z podejściem czysto mobilnym, VUI jest samodzielnym interfejsem.

Przy projektowaniu współczesnych VUI jednym z poważnych wyzwań jest to, czy ma mieć wsparcie graficzne, wizualne czy nie , drugim jest to, czy będzie interaktywny, tzn, czy klient może komunikować się z VUI. Pierwsza opcja znacznie ułatwia projektowanie i implementację VUI, podczas gdy druga utrudnia implementację o rzędy wielkości.

Zalety interfejsu multimodalnego

Gdy użytkownik podczas interakcji z systemem ma do wyboru użycie interfejsu graficznego, pola tekstowego lub komend głosowych, mówimy o interfejsie multimodalnym. Najlepszym tego przykładem jest chyba wyszukiwarka Google, w której można wpisywać tekst, ale można nawet wyszukiwać rzeczy mówiąc.
Interfejsy multimodalne mogą dotrzeć do najszerszej możliwej grupy użytkowników: mogą być używane przez wszystkich, w tym użytkowników niepełnosprawnych, a nawet przez osoby niedowidzące lub niedosłyszące. Jeśli system wyposażony jest w wielotrybowy VUI z interfejsem ikonowym, nawet osoby niepiśmienne lub nieznające danego języka mogłyby się po nim poruszać.

Przykład multimodalnego wykorzystania urządzeń cyfrowych

Wykorzystanie wizualnych zalet urządzeń mobilnych jest więc oczywistym elementem każdego nowoczesnego VUI – w tym przypadku duży nacisk kładzie się również na aspekty dotyczące interfejsu graficznego. Wszystko to jest dobrze znane Ergomanii wywodzącej się ze świata projektowania UI. Ale co jeśli chcemy, aby użytkownik prowadził rzeczywisty dialog z systemem? Wtedy na scenę wkracza planowanie oparte na dialogu.

Dialogowe planowanie VUI

Pomimo że dialog jest całkowicie naturalny wśród ludzi, twórcy systemów komputerowych od dziesięcioleci zmagają się z rozpoznawaniem i interpretacją mowy. Podczas gdy pierwsze z nich jest w dość zaawansowanym stanie (pomyśl o oprogramowaniu, które przekształca mowę na żywo w tekst, jak Dragon, jeden z weteranów branży, lub Amazon Transcribe), drugie jest wciąż w powijakach. Mamy na myśli dosłownie.
Najbardziej zaawansowane systemy cywilne na świecie (takie jak Siri firmy Apple lub Asystent Google) są całkiem jak małe dzieci: są one zdolne do najbardziej podstawowego dialogu, ale nie możemy oczekiwać, aby mieć złożone, wzniosłe rozmowy z żadnym z nich.

Amazon Transcribe Prezentacja

Większość dialogów za pośrednictwem VUI są faktycznie odpowiedzi na pojedyncze pytanie

Wbrew powszechnemu przekonaniu, większość obecnych interakcji opartych na dialogu są pojedyncze koło. Okrąg oznacza jednostkę pytania i odpowiedzi. Na przykład, jeśli ktoś pyta Google, kiedy zaczyna się jego następne spotkanie lub jaka jest najkrótsza droga do celu, i otrzymuje odpowiedź, z której jest zadowolony (co oznacza: brak dalszych pytań), mówimy o pojedynczym kręgu konwersacyjnym.
Ogólnie, większość zaawansowanych systemów jest obecnie w stanie obsługiwać pojedyncze kręgi konwersacyjne. Mnóstwo problemów zaczyna się, gdy użytkownicy mają cel inny niż jednorazowe zdobycie informacji. Od sztucznej inteligencji, jaką pokazują filmy sci-fi (np. Jarvis Tony’ego Starka, czy Samantha z Her) dzielą nas jeszcze dekady.

Base your VUI design on the user

W przypadku interfejsu opartego na dialogu, zawsze warto zacząć od użytkownika. Jeśli chcemy, aby nasz system był w stanie przejść więcej niż jedno kółko (co daje dość dużą przewagę rynkową danej firmie, bo jest rzadkie jak zęby kury), warto zacząć fazę planowania od pytania, czego klient mógłby chcieć w drugim kółku.
Oczywiście nie należy zmuszać użytkownika do drugiego kółka. Raczej dać użytkownikowi szansę na kontynuację. Większość dialogów byłaby pojedynczym kręgiem zgodnie z oczekiwaniami, ale jeśli dotarłoby do niego, że istnieje system, z którym można faktycznie porozmawiać, zachęciłoby to wielu ludzi, aby przynajmniej spróbować i swobodnie doświadczyć możliwości VUI. System musi być w stanie zapamiętać, co zostało powiedziane wcześniej w dialogu, lub – jeśli mierzymy jeszcze wyżej – nie tylko bieżącą rozmowę, ale także poprzednie dialogi. Osiągnięcie tego wymaga wyrafinowanego systemu kontekstowego zdolnego do interpretacji i zrozumienia kontekstu.
Powiedzmy, że pytamy VUI kiedy urodziła się jakaś sławna osoba, a następnie, w drugim kręgu, pytamy tylko gdzie się urodziła, bez podawania jej imienia (tak jak zrobilibyśmy to w prawdziwych rozmowach). Dobrze zaprojektowany VUI pamięta, że użytkownik jest ciekawy miejsca urodzenia sławnej osoby wspomnianej w poprzednim kręgu.

Narzędzia do projektowania VUI

Na koniec porozmawiajmy o dostępnych obecnie narzędziach, które już udowodniły swoją przydatność w projektowaniu VUI. Najprostszym narzędziem jest papier i długopis. Wszystko, co musimy zrobić, to zanotować przykładowy dialog. Jest to w zasadzie mały fragment interakcji pomiędzy użytkownikiem a VUI. To całkiem jak fragment scenariusza, w którym dwóch aktorów rozmawia ze sobą.

Planowanie VUI za pomocą DialogFlow

Przygotujmy się na dialog wielookienkowy!

Kluczem jest przemyślenie wszystkich opcji, które VUI chce zaserwować. Załóżmy, że planujemy stronę oferującą nowy rodzaj prognozy pogody. Podczas gdy VUI zdolny do prowadzenia złożonego dialogu byłby rzeczywiście wiodącym rozwiązaniem na rynku, nie jest konieczne, aby być w stanie rozmawiać o filozofii Hegla lub najnowszych hitach popu.
Jednakże jest niezwykle ważne, aby ten konkretny VUI był w stanie prowadzić rozmowę o pogodzie. Na przykład, w pierwszym kręgu użytkownik pyta, jaka pogoda jest spodziewana nad Adriatykiem w określonym dniu, system podaje mu prognozę temperatury i czy spodziewany jest deszcz. VUI rozpoznaje też, że pytano o plażę, więc już wie, że kolejne pytanie o temperaturę morza dotyczy temperatury morza mierzonej w miejscu, do którego odnosiło się pierwsze pytanie.

Użyj oprogramowania do projektowania (chatbotów)

Gdy nasz papierowy szkic jest już gotowy i wiemy, jakiego VUI chcemy, warto zaimplementować konkretne narzędzia do właściwej budowy. To jest punkt, w którym zdamy sobie sprawę, naszym najlepszym wyborem będzie oprogramowanie stworzone głównie z myślą o rozwoju chatbotów. Wynika to z faktu, że chatboty celują dokładnie w to, co jest niezbędne dla nowoczesnych, zorientowanych na dialog VUI: wielorundową interakcję między człowiekiem a maszyną. Najpopularniejsze z nich to Dialogflow firmy Google, Adobe XD i Voiceflow.

Dialogflow jest jednym z najsilniejszych konkurentów

Dialogflow to platforma do rozumienia języka naturalnego, która ułatwia projektowanie i integrację interfejsu użytkownika opartego na rozmowie z dowolną aplikacją mobilną, aplikacją internetową, inteligentnym urządzeniem, chatbotem, a nawet systemem IVR.

Schemat działania Dialogflow

Adobe XD oferuje kompleksowe narzędzie

Adobe Experience Design obiecuje znacznie więcej niż Dialogflow: kompleksowy zestaw narzędzi, który spełnia wszystkie potrzeby projektantów UX/UI. Od prostego szkicu do gotowego projektu można tworzyć interaktywne prototypy zarówno dla aplikacji mobilnych, jak i stron internetowych.

Voiceflow nie wymaga wiedzy programistycznej

Voiceflow został stworzony przez niezależne studio Storyflow. Oprogramowanie pomaga w projektowaniu i wdrażaniu aplikacji opartych na dźwięku od szkicu przez prototyp do gotowego produktu. Ułatwia stworzenie systemu opartego na głosie dla Amazon Alexa i Google Assistant bez jakiejkolwiek istniejącej wiedzy z zakresu kodowania.

Wnioski

Przy projektowaniu głosowych interfejsów użytkownika zawsze trzeba zdecydować, jakie podejście powinien przyjąć VUI. Systemy IVR nadal mają swoje miejsce na rynku, ale jednocześnie jasne jest, że ludzie wolą interfejsy wielotrybowe i systemy oparte na dialogu (np. cyfrowi asystenci i chatboty).
Jeśli wolisz powierzyć ciężar planowania i wdrażania profesjonalistom, skontaktuj się z Ergomanią, liderem węgierskiego rynku w projektowaniu UI.

  • Multimodal interface
  • Chatboty
  • UI design
  • UX design
  • Design
  • UX
  • Vui

Dr Péter Rónay

Senior blog writer

.