Articles

Ce este o interfață vocală cu utilizatorul și de ce este cu adevărat necesară?

Interfețele vocale cu utilizatorul sunt prezente în multe domenii ale vieții. Uneori sunt deosebit de utile, de exemplu atunci când utilizarea fără contact este primordială: în timpul unei epidemii, într-o zonă publică sau în orice moment într-o secție de izolare a unui spital.
În alte cazuri, ele pot fi destul de enervante, mai ales dacă trebuie să ne confruntăm cu o interfață prost concepută și/sau incorect concepută. Există cineva care nu a fost niciodată supărat de un sistem de asistență telefonică pentru clienți?

În mod normal, nu VUI-ul în sine este defect, ci mai degrabă concepția defectuoasă și fluxul de lucru prost structurat. În plus, aceste tipuri de sisteme sunt doar VUI-istice, deoarece utilizatorii nu emit comenzi vocale și nici nu pun întrebări. Sistemul oferă instrucțiuni și opțiuni.
Când știm deja (în zadar, dar totuși) ce buton trebuie să apăsăm pentru a ajunge la secțiunea din meniu pe care o doream, dar tot trebuie să ascultăm textul monoton, cu iz robotic. Nu e de mirare că majoritatea oamenilor și-ar pierde mai devreme sau mai târziu răbdarea. În acest caz, utilizatorul nu este niciodată de vină! Haideți, cui îi place ca alții să îi irosească timpul?

De aceea, Ergomania consideră întotdeauna nevoile utilizatorului ca fiind prioritare atunci când proiectează și creează o interfață utilizator (UI). În acest articol, explorăm bazele de proiectare ale interfețelor de utilizator vocale, de asemenea, arătăm că puteți dezvolta o interfață de utilizator adorabilă, care să funcționeze în mod optim.

Definiția VUI (Voice User Interface)

O interfață de utilizator vocală (Voice User Interface – VUI) este o interfață care vă permite să controlați un sistem sau un software, în întregime sau în părți, folosind comenzi vocale.
Aceste sisteme VUI-sunt cu noi de ceva timp. Gândiți-vă la sistemele de gestionare a serviciilor telefonice pentru clienți, unde trebuie să alegeți din meniul de meniuri prin simpla apăsare a unui buton, dar utilizatorilor le sunt prezentate alegerile de către o voce în timpul apelului.

Principala problemă a VUI: vederea este organul nostru senzorial dominant

Datorită faptului că omul este în mod fundamental o ființă vizuală, o interfață utilizator vocală pură are mai multe dezavantaje. Creierul percepe lumea în principal pe baza stimulilor vizuali, adică a informațiilor primite prin intermediul vederii. Gândiți-vă: cât de departe este vizibil orizontul pe vreme senină, dacă nu există nimic care să împiedice vederea? Mai mult de zece kilometri.
Dar care este distanța auditivă a omului? Câțiva kilometri. Mirosul? Câțiva metri. Iar gustul și simțul tactil funcționează doar prin input direct.
În cazul VUI-urilor, acest dezavantaj este atenuat prin soluții hibride care oferă suport vizual – cum ar fi o descriere textuală a posibilităților oferite de interfața vocală cu utilizatorul sau a etapelor individuale ale proceselor. Poate că cel mai bun exemplu al unui astfel de sistem hibrid este Erica, un asistent financiar virtual de la Bank of America, care (cine?) – în plus – este disponibil și ca aplicație mobilă, astfel încât clienții să simtă că pot lua asistentul virtual cu ei oriunde.

Erica oferă o serie de servicii convenabile clienților Bank of America.

Așadar, să analizăm mai întâi elementele de bază ale proiectării interfețelor vocale cu utilizatorul.

Bazele proiectării VUI

Pentru interfețele utilizator vocale, ne întâlnim de obicei cu două abordări.
Primul punct de vedere, mai degrabă mai vechi, este că VUI este un fel de serviciu auxiliar, suplimentar, un fel de rău necesar, și este creat în principal ca o versiune bazată pe voce a interfețelor utilizator grafice.
Cel mai vechi exemplu în acest sens sunt sistemele IVR: Interactive Voice Response (IVR), un sistem de răspuns interactiv cunoscut de toți cei care au folosit vreodată un VUI pentru serviciul clienți. „Pentru a vorbi cu un reprezentant, vă rugăm să apăsați zero… Rămâneți în linie până când reprezentantul nostru vă conectează.” Răspunsuri binecunoscute care pot apărea în orice IVR.
În cea de-a doua abordare, mai nouă, îmbrățișată și de Ergomania, VUI este serviciul principal, conceput special cu o abordare bazată pe voce. Exemple sunt Siri de la Apple sau Amazon Echo.

Conceput pentru dispozitive mobile sau sisteme IVR?

Atunci, atunci când o afacere are nevoie de un VUI, întrebarea principală este ce abordare ar trebui să urmeze profesioniștii de design bazat pe abordare: folosit în dispozitive mobile sau în sisteme IVR?
În ciuda faptului că este o tehnologie IVR destul de învechită, poate fi chiar foarte eficientă. În cazul unui serviciu pentru clienți, de exemplu, aceasta este încă o metodă dovedită, mai ales pentru că utilizatorii o cunosc bine, o pot opera și nu sunt reticenți la ea. În același timp, este extrem de important ca proiectanții unui IVR să evite defectele fundamentale și capcanele obișnuite.

Exemplu de organigramă IVR

Nu este o coincidență faptul că multe sisteme de răspuns interactiv au fost subiectul urii publice. Au apărut postări pe bloguri despre cum să se ocolească automatizarea și să se ajungă imediat la un serviciu clienți live.

Abordarea mobilă trebuie să fie primordială atunci când se proiectează un VUI

Obiectivul IVR ar fi tocmai acela de a degreva serviciile pentru clienți, deoarece la multe întrebări recurente s-a răspuns deja. În acest caz, există întotdeauna un design defectuos sau, mai degrabă, o abordare defectuoasă care își ridică capul urât în fundal: IVR-urile sunt create pentru a reprezenta interesele companiei, iar utilizatorul este doar un rău necesar în ecuație.
În cazul VUI-urilor mobile, cererea clienților este principala forță motrice, dar putem totuși întâlni două tipuri de abordări:

  1. Interfața vocală cu utilizatorul este o versiune sonoră a interfeței grafice / text,
  2. Conform abordării pur mobile, VUI este o interfață de sine stătătoare.

Când se proiectează VUI-uri moderne, una dintre provocările serioase este dacă să aibă suport grafic, vizual sau nu , cealaltă este dacă ar fi interactivă, adică, dacă clientul poate comunica cu VUI-ul. Prima variantă facilitează foarte mult proiectarea și implementarea VUI, în timp ce a doua îngreunează implementarea cu ordine de mărime.

Vantajele unei interfețe multimodale

Când utilizatorului i se prezintă posibilitatea de a alege între utilizarea interfeței grafice, a câmpului de text sau a comenzilor vocale în timp ce interacționează cu un sistem, vorbim despre o interfață multimodală. Cel mai bun exemplu în acest sens este poate motorul de căutare al Google, unde se poate tasta text, dar se pot căuta lucruri chiar și prin vorbire.
Interfețele multimodale ar putea ajunge la cel mai larg grup de utilizatori posibil: ar putea fi utilizate de toată lumea, inclusiv de utilizatorii cu handicap și chiar de persoanele cu deficiențe de vedere sau de auz. Dacă sistemul este echipat cu o VUI multimodală cu interfață iconică, chiar și cei care sunt analfabeți sau nu vorbesc limba respectivă ar putea să navigheze prin el.

Un exemplu de utilizare multimodală a dispozitivelor digitale

Exploatarea avantajelor vizuale ale dispozitivelor mobile este, prin urmare, un element evident al oricărei VUI moderne – în acest caz, aspectele aplicabile interfeței grafice primesc, de asemenea, un accent semnificativ. Toate acestea sunt bine cunoscute de Ergomania care vine din lumea designului de interfață utilizator. Dar ce se întâmplă dacă dorim ca utilizatorul să aibă un dialog real cu sistemul? Acesta este momentul în care intră în scenă planificarea bazată pe dialog.

Planificarea bazată pe dialog a VUI

Deși dialogul este complet natural între oameni, dezvoltatorii de sisteme informatice se luptă de zeci de ani cu recunoașterea și interpretarea vorbirii. În timp ce prima se află într-o stare destul de avansată (gândiți-vă la software-ul care convertește vorbirea în direct în text, cum ar fi Dragon, unul dintre veteranii industriei, sau Amazon Transcribe), cel de-al doilea este încă în fază incipientă. Vrem să spunem la propriu.
Cele mai avansate sisteme civile din lume (cum ar fi Siri de la Apple sau Google Assistant) sunt cam ca niște copii mici: sunt capabile de cel mai elementar dialog, dar nu ne putem aștepta să avem o conversație complexă, cu minți elevate, cu niciunul dintre ele.

Prezentare Amazon Transcribe

Cele mai multe dialoguri prin VUI sunt de fapt răspunsuri la o întrebare singulară

În ciuda credinței populare, cele mai multe interacțiuni actuale bazate pe dialog sunt cu un singur cerc. Un cerc înseamnă o unitate de întrebare și răspuns. De exemplu, dacă cineva întreabă Google când începe următoarea întâlnire sau care este cel mai scurt traseu până la destinație și primește un răspuns de care este mulțumit (adică: fără întrebări ulterioare), vorbim despre un singur cerc conversațional.
În general, majoritatea sistemelor avansate sunt acum capabile să gestioneze cercuri conversaționale singulare. O multitudine de probleme încep atunci când utilizatorii au un alt scop decât achiziția de informații de o singură dată. Suntem încă la zeci de ani distanță de inteligența artificială așa cum este prezentată în filmele SF (cum ar fi Jarvis al lui Tony Stark, sau Samantha din Her).

Bazează-ți proiectarea VUI pe utilizator

În cazul unei interfețe bazate pe dialog, merită întotdeauna să pornești de la utilizator. Dacă dorim ca sistemul nostru să fie capabil să parcurgă mai mult de un cerc (ceea ce oferă un avantaj de piață destul de mare unei anumite companii, deoarece este rar ca dinții de găină), merită să începem faza de planificare întrebându-ne ce ar putea dori clientul în cel de-al doilea cerc.
Este de la sine înțeles că nu trebuie să forțăm utilizatorul să intre într-un al doilea cerc. Mai degrabă să-i oferim utilizatorului șansa de a continua. Majoritatea dialogurilor ar fi cu un singur cerc, așa cum era de așteptat, dar dacă se va răspândi ideea că există un sistem cu care se poate vorbi cu adevărat, ar încuraja multe persoane să încerce măcar o dată și să experimenteze liber capacitățile VUI. Sistemul trebuie să fie capabil să rețină ceea ce s-a spus mai devreme în dialog, sau – dacă țintim și mai sus – nu doar conversația curentă, ci și dialogurile anterioare. Realizarea acestui lucru necesită un sistem contextual sofisticat, capabil să interpreteze și să înțeleagă contextul.
Să spunem că întrebăm VUI-ul când s-a născut o persoană celebră, iar apoi, în al doilea cerc, întrebăm doar unde s-a născut, fără a o numi (așa cum am face în conversațiile din viața reală). Un VUI bine conceput își amintește că utilizatorul este curios să afle unde s-a născut persoana celebră menționată în cercul anterior.

Unelte pentru proiectarea VUI

În cele din urmă, să vorbim despre instrumentele disponibile în prezent care și-au dovedit deja utilitatea în proiectarea VUI. Cel mai simplu instrument este hârtia și stiloul. Tot ce avem de făcut este să notăm un exemplu de dialog. Acesta este, în esență, un mic extras din interacțiunea dintre utilizator și VUI. Este cam ca un extras dintr-un scenariu în care doi actori vorbesc unul cu celălalt.

Planificarea VUI prin DialogFlow

Să ne pregătim pentru un dialog cu mai multe cercuri!

Cheia este să ne gândim la toate opțiunile pe care VUI dorește să le servească. Să spunem că planificăm un sit care să ofere un nou tip de prognoză meteo. În timp ce un VUI capabil de un dialog complex ar fi într-adevăr o soluție lider de piață, nu este deloc necesar să poată conversa despre filozofia hegeliană sau despre cele mai recente hituri pop.
Cu toate acestea, este extrem de important ca acest VUI special să fie capabil să poarte o conversație despre vreme. De exemplu, în primul cerc, când utilizatorul întreabă ce fel de vreme se așteaptă la Adriatica la o anumită dată, sistemul îi oferă prognoza de temperatură și dacă se așteaptă ploaie. VUI recunoaște, de asemenea, că a fost întrebat despre plajă, așa că știe deja că următoarea întrebare despre temperatura mării se referă la temperatura mării măsurată în locul la care s-a referit prima întrebare.

Utilizați un software de proiectare (chatbot)

Când schița noastră pe hârtie este gata și știm ce fel de VUI ne dorim, merită să implementăm instrumente specifice pentru construcția propriu-zisă. Acesta este punctul în care ne-am da seama, cel mai bun pariu al nostru este să optăm pentru un software inventat în principal pentru dezvoltarea de chatbots. Acest lucru se datorează faptului că chatbots vizează exact ceea ce este esențial pentru VUI-urile moderne, orientate spre dialog: interacțiunea în mai multe runde între om și mașină. Cele mai populare dintre acestea sunt Dialogflow de la Google, Adobe XD și Voiceflow.

Dialogflow este unul dintre cei mai puternici concurenți

Dialogflow este o platformă de înțelegere a limbajului natural care facilitează proiectarea și integrarea unei interfețe utilizator bazate pe conversație în orice aplicație mobilă, aplicație web, dispozitiv inteligent, chatbot sau chiar sistem IVR.

Diagramă schematică a modului de funcționare a Dialogflow

Adobe XD oferă un instrument complex

Adobe Experience Design promite mult mai mult decât Dialogflow: un set de instrumente complexe care satisface toate nevoile designerilor UX/UI. De la o simplă schiță la un design gata făcut, puteți crea prototipuri interactive atât pentru aplicații mobile, cât și pentru site-uri web.

Voiceflow nu necesită cunoștințe de programare

Voiceflow a fost creat de un studio independent numit Storyflow. Software-ul ajută la proiectarea și implementarea aplicațiilor bazate pe sunet, de la schiță via prototip până la produsul finit. Acesta facilitează crearea unui sistem bazat pe voce pentru Amazon Alexa și Google Assistant fără cunoștințe de programare existente.

Concluzii

Când se proiectează interfețe vocale pentru utilizatori, este întotdeauna necesar să se decidă ce abordare ar trebui să aibă VUI-ul. Sistemele IVR încă mai au un loc pe piață, dar, în același timp, este clar că oamenii preferă interfețele multimodale și sistemele bazate pe dialog (de exemplu, asistenții digitali și chatbots).
Dacă preferați să încredințați povara planificării și implementării unui profesionist, vă rugăm să contactați Ergomania, liderul pieței maghiare de proiectare UI.

  • Interfață multimodală
  • Chatbots
  • Proiectare UI
  • ProiectareUX
  • Proiectare
  • Design
  • UX
  • Vui

Dr. Péter Rónay

Senior blog writer

.