Articles

Was ist ein Voice User Interface und warum braucht man es wirklich?

Voice User Interfaces sind in vielen Bereichen des Lebens präsent. Manchmal sind sie besonders nützlich, z.B. wenn es um die kontaktlose Nutzung geht: während einer Epidemie, in einem öffentlichen Bereich oder jederzeit in einer Isolierstation eines Krankenhauses.
In anderen Fällen können sie ziemlich lästig sein, besonders wenn wir mit einer schlecht gestalteten und/oder falsch konzipierten Schnittstelle zurechtkommen müssen. Gibt es irgendjemanden, der sich noch nie über ein telefonisches Kundendienstsystem geärgert hat?

Natürlich ist es nicht die Benutzeroberfläche selbst, die fehlerhaft ist, sondern das fehlerhafte Design und der schlecht strukturierte Arbeitsablauf. Außerdem sind solche Systeme nur VUI-ähnlich, da die Benutzer keine Sprachbefehle geben und auch keine Fragen stellen. Das System bietet Anweisungen und Auswahlmöglichkeiten an.
Wenn wir schon wissen (vergeblich, aber immerhin), welche Taste wir drücken müssen, um zu dem gewünschten Abschnitt im Menü zu gelangen, aber wir müssen uns immer noch den monotonen, roboterhaft klingenden Text anhören. Kein Wunder, dass die meisten Menschen früher oder später die Geduld verlieren würden. In diesem Fall ist der Benutzer nie schuld! Wer lässt schon gerne seine Zeit von anderen vergeuden?

Deshalb stellt Ergomania bei der Konzeption und Gestaltung einer Benutzeroberfläche (UI) immer die Bedürfnisse des Benutzers in den Vordergrund. In diesem Artikel gehen wir auf die Design-Grundlagen des Voice User Interfaces ein und zeigen auch, wie Sie ein liebenswertes, optimal funktionierendes UI entwickeln können.

Definition von VUI (Voice User Interface)

Ein Voice User Interface (VUI) ist eine Schnittstelle, die es erlaubt, ein System oder eine Software ganz oder in Teilen mit Sprachbefehlen zu steuern.
Diese VUI-Systeme gibt es schon seit geraumer Zeit. Man denke nur an Telefon-Kundenservice-Managementsysteme, bei denen man per Knopfdruck aus den Menüpunkten wählen muss, aber dem Benutzer die Auswahlmöglichkeiten durch eine Stimme im Gespräch präsentiert werden.

Das Hauptproblem von VUI: Das Sehen ist unser dominantes Sinnesorgan

Da der Mensch grundsätzlich ein visuelles Wesen ist, hat ein reines Voice User Interface mehrere Nachteile. Das Gehirn nimmt die Welt in erster Linie auf der Basis von visuellen Reizen wahr, also von Informationen, die über das Sehen aufgenommen werden. Überlegen Sie einmal: Wie weit ist der Horizont bei klarem Wetter sichtbar, wenn nichts die Sicht behindert? Mehr als zehn Kilometer.
Aber was ist die Hörweite des Menschen? Ein paar Kilometer. Der Geruchssinn? Ein paar Meter. Und Geschmack und Tastsinn funktionieren nur bei direkter Eingabe.
Im Falle von VUIs wird dieser Nachteil durch hybride Lösungen mit visueller Unterstützung gemildert – etwa durch eine textuelle Beschreibung der Möglichkeiten des Voice User Interface oder der einzelnen Schritte der Prozesse. Das vielleicht beste Beispiel für ein solches hybrides System ist Erica, eine virtuelle Finanzassistentin der Bank of America, die (wer?) zusätzlich auch als mobile Anwendung zur Verfügung steht, so dass die Kunden das Gefühl haben, die virtuelle Assistentin überall hin mitnehmen zu können.

Erica bietet den Kunden der Bank of America eine Reihe komfortabler Dienste.

Werfen wir also zunächst einen Blick auf die Grundlagen der Gestaltung von Voice User Interfaces.

Grundlagen der VUI-Gestaltung

Bei Voice User Interfaces stoßen wir typischerweise auf zwei Ansätze.
Die erste, eher ältere Sichtweise ist, dass VUI eine Art zusätzlicher, ergänzender Service ist, eine Art notwendiges Übel, und hauptsächlich als sprachbasierte Version von grafischen UIs erstellt wird.
Das früheste Beispiel hierfür sind IVR-Systeme: Interactive Voice Response (IVR), ein interaktives Antwortsystem, das jeder kennt, der schon einmal eine VUI für den Kundenservice benutzt hat. „Um mit einem Mitarbeiter zu sprechen, drücken Sie bitte die Null… Bleiben Sie in der Leitung, bis unser Mitarbeiter mit Ihnen verbunden ist.“ Bekannte Antworten, die in jedem IVR erscheinen können.
Beim zweiten, neueren Ansatz, der auch von Ergomania aufgegriffen wird, ist die VUI der primäre Dienst, der speziell mit einem sprachbasierten Ansatz entwickelt wurde. Beispiele dafür sind Apples Siri oder Amazon Echo.

Gestaltet für mobile Geräte oder IVR-Systeme?

Wenn ein Unternehmen also eine VUI benötigt, stellt sich vor allem die Frage, welchen Ansatz die Design-Profis verfolgen sollten: für mobile Geräte oder IVR-Systeme?
Trotz der Tatsache, dass IVR eine eher veraltete Technologie ist, kann sie sogar sehr effektiv sein. Im Falle eines Kundendienstes beispielsweise ist dies immer noch eine bewährte Methode, vor allem weil die Benutzer sie gut kennen, bedienen können und ihr nicht abgeneigt sind. Gleichzeitig ist es für die Designer einer IVR äußerst wichtig, grundlegende Fehler und die üblichen Fallstricke zu vermeiden.

IVR-Flussdiagramm-Beispiel

Es ist kein Zufall, dass viele interaktive Antwortsysteme Gegenstand des öffentlichen Hasses waren. Es sind Blog-Beiträge erschienen, in denen es darum geht, wie man die Automatisierung umgehen und sofort zum Live-Kundenservice gelangen kann.

Der mobile Ansatz muss bei der Gestaltung einer VUI im Vordergrund stehen

Das Ziel der IVR wäre ja gerade die Entlastung des Kundenservices, da viele wiederkehrende Fragen bereits beantwortet sind. In diesem Fall steht immer ein fehlerhaftes Design bzw. ein fehlerhafter Ansatz im Hintergrund: Die IVRs werden geschaffen, um die Interessen des Unternehmens zu vertreten und der Nutzer ist nur ein notwendiges Übel in dieser Gleichung.
Bei mobilen VUIs ist die Kundennachfrage die primäre treibende Kraft, aber wir können immer noch zwei Arten von Ansätzen finden:

  1. Das Voice User Interface ist eine akustische Version der grafischen / Textschnittstelle,
  2. Beim rein mobilen Ansatz ist das VUI eine eigenständige Schnittstelle.

Bei der Gestaltung von modernen VUIs ist eine der großen Herausforderungen, ob es eine grafische, visuelle Unterstützung geben soll oder nicht, die andere ist, ob es interaktiv sein soll, d.h., ob der Kunde mit der VUI kommunizieren kann. Ersteres erleichtert den Entwurf und die Implementierung der VUI erheblich, während letzteres die Implementierung um Größenordnungen erschwert.

Vorteile einer multimodalen Schnittstelle

Wenn der Benutzer bei der Interaktion mit einem System die Wahl zwischen der Verwendung der grafischen Schnittstelle, des Textfeldes oder von Sprachbefehlen hat, sprechen wir von einer multimodalen Schnittstelle. Das beste Beispiel dafür ist vielleicht die Suchmaschine von Google, bei der man nicht nur Text eintippen, sondern auch per Sprache suchen kann.
Multimodale Schnittstellen könnten die größtmögliche Nutzergruppe erreichen: Sie könnten von allen genutzt werden, auch von behinderten Nutzern und sogar von Seh- oder Hörbehinderten. Wenn das System mit einer multimodalen VUI mit ikonischer Schnittstelle ausgestattet ist, können auch Analphabeten oder Personen, die die jeweilige Sprache nicht beherrschen, damit navigieren.

Ein Beispiel für die multimodale Nutzung digitaler Geräte

Die Nutzung der visuellen Vorteile mobiler Geräte ist daher ein selbstverständlicher Bestandteil jeder modernen VUI – in diesem Fall werden auch die für die grafische Schnittstelle geltenden Aspekte stark betont. All dies ist Ergomania aus der Welt des UI-Designs bekannt. Was aber, wenn der Benutzer tatsächlich einen Dialog mit dem System führen soll? Hier kommt die dialogbasierte Planung ins Spiel.

Dialogbasierte Planung der VUI

Obwohl der Dialog unter Menschen völlig natürlich ist, haben sich die Entwickler von Computersystemen jahrzehntelang mit Spracherkennung und Sprachinterpretation herumgeschlagen. Während ersteres schon recht weit fortgeschritten ist (man denke nur an Software, die Live-Sprache in Text umwandelt, wie Dragon, einer der Branchenveteranen, oder Amazon Transcribe), steckt letzteres noch in den Kinderschuhen. Und das meinen wir wörtlich.
Die fortschrittlichsten zivilen Systeme der Welt (wie Apples Siri oder Google Assistant) sind wie kleine Kinder: Sie sind zu den grundlegendsten Dialogen fähig, aber wir können nicht erwarten, dass wir mit einem von ihnen ein komplexes Gespräch auf hohem Niveau führen können.

Amazon Transcribe-Präsentation

Die meisten Dialoge über VUI sind eigentlich Antworten auf eine einzelne Frage

Entgegen der landläufigen Meinung sind die meisten aktuellen dialogbasierten Interaktionen ein Kreis. Ein Kreis bedeutet eine Frage- und Antworteinheit. Wenn jemand beispielsweise Google fragt, wann sein nächstes Treffen beginnt oder welches der kürzeste Weg zu seinem Ziel ist, und eine Antwort erhält, mit der er zufrieden ist (d.h. keine Folgefragen), sprechen wir von einem einzelnen Gesprächskreis.
Im Allgemeinen sind die meisten fortschrittlichen Systeme heute in der Lage, einzelne Gesprächskreise zu verarbeiten. Eine Vielzahl von Problemen beginnt, wenn die Benutzer einen anderen Zweck als die einmalige Informationsbeschaffung verfolgen. Wir sind noch Jahrzehnte von künstlicher Intelligenz entfernt, wie sie in Science-Fiction-Filmen gezeigt wird (wie Tony Starks Jarvis oder die Samantha von Her).

Basieren Sie Ihr VUI-Design auf den Benutzer

Im Falle einer dialogbasierten Schnittstelle lohnt es sich immer, vom Benutzer auszugehen. Wenn wir wollen, dass unser System mehr als einen Kreis durchlaufen kann (was einem Unternehmen einen ziemlich großen Marktvorteil verschafft, da es so selten ist wie ein Huhn), lohnt es sich, die Planungsphase mit der Frage zu beginnen, was der Kunde im zweiten Kreis wollen könnte.
Es versteht sich von selbst, dass wir den Benutzer nicht in einen zweiten Kreis zwingen sollten. Vielmehr sollte man dem Benutzer die Möglichkeit geben, fortzufahren. Die meisten Dialoge wären erwartungsgemäß einkreisig, aber wenn es sich herumspricht, dass es ein System gibt, mit dem man tatsächlich sprechen kann, würde es viele Leute dazu ermutigen, es zumindest zu versuchen und die Fähigkeiten der VUI frei zu erleben. Das System muss in der Lage sein, sich an das zu erinnern, was zuvor im Dialog gesagt wurde, oder – wenn wir noch höher hinauswollen – nicht nur an das aktuelle Gespräch, sondern auch an frühere Dialoge. Dies erfordert ein ausgeklügeltes kontextbezogenes System, das in der Lage ist, den Kontext zu interpretieren und zu verstehen.
Nehmen wir an, wir fragen die Benutzeroberfläche, wann eine berühmte Person geboren wurde, und dann, im zweiten Kreis, fragen wir nur, wo sie geboren wurde, ohne ihren Namen zu nennen (wie wir es in echten Gesprächen tun würden). Eine gut gestaltete VUI merkt sich, dass der Benutzer neugierig auf den Geburtsort der berühmten Person ist, die im vorherigen Kreis erwähnt wurde.

Werkzeuge für die VUI-Gestaltung

Schließlich wollen wir über die derzeit verfügbaren Werkzeuge sprechen, die ihre Nützlichkeit für die VUI-Gestaltung bereits bewiesen haben. Das einfachste Werkzeug sind Papier und Stift. Alles, was wir tun müssen, ist, einen Beispieldialog zu notieren. Dabei handelt es sich im Wesentlichen um einen kleinen Ausschnitt aus der Interaktion zwischen dem Benutzer und der VUI. Es ist so ziemlich wie ein Ausschnitt aus einem Drehbuch, in dem zwei Schauspieler miteinander sprechen.

VUI-Planung über DialogFlow

Lassen Sie uns einen mehrkreisigen Dialog vorbereiten!

Der Schlüssel ist, alle Optionen zu durchdenken, die die VUI bedienen will. Nehmen wir an, wir planen eine Seite, die eine neue Art von Wettervorhersage anbietet. Während eine VUI, die zu komplexen Dialogen fähig ist, in der Tat eine marktführende Lösung wäre, ist es kaum notwendig, sich über die Hegelsche Philosophie oder die neuesten Pop-Hits unterhalten zu können.
Es ist jedoch von größter Wichtigkeit, dass diese spezielle VUI in der Lage sein sollte, eine Unterhaltung über das Wetter zu führen. In der ersten Runde fragt der Benutzer zum Beispiel, welches Wetter an einem bestimmten Datum an der Adria erwartet wird, und das System gibt ihm die Temperaturvorhersage und ob Regen zu erwarten ist. Die VUI erkennt auch, dass sie nach dem Strand gefragt wurde, und weiß daher bereits, dass die nächste Frage nach der Meerestemperatur die an dem Ort gemessene Temperatur betrifft, auf den sich die erste Frage bezog.

Verwendung von (Chatbot-)Design-Software

Wenn unser papierbasierter Rohentwurf fertig ist und wir wissen, welche Art von VUI wir wollen, lohnt es sich, spezifische Tools für die eigentliche Erstellung zu implementieren. Dies ist der Punkt, an dem wir erkennen, dass es am besten ist, auf Software zurückzugreifen, die hauptsächlich für die Entwicklung von Chatbots entwickelt wurde. Denn Chatbots zielen genau auf das ab, was für moderne, dialogorientierte VUIs essentiell ist: die Mehr-Runden-Interaktion zwischen Mensch und Maschine. Die bekanntesten sind Dialogflow von Google, Adobe XD und Voiceflow.

Dialogflow ist einer der stärksten Konkurrenten

Dialogflow ist eine Plattform für das Verstehen natürlicher Sprache, die das Design und die Integration einer konversationsbasierten Benutzeroberfläche in jede mobile Anwendung, Webanwendung, jedes Smart Device, Chatbot oder sogar IVR-System erleichtert.

Schematische Darstellung der Funktionsweise von Dialogflow

Adobe XD bietet ein komplexes Werkzeug

Adobe Experience Design verspricht viel mehr als Dialogflow: ein komplexes Toolkit, das alle Anforderungen von UX/UI-Designern erfüllt. Von der einfachen Skizze bis zum fertigen Design lassen sich interaktive Prototypen sowohl für mobile Anwendungen als auch für Websites erstellen.

Voiceflow erfordert keine Programmierkenntnisse

Voiceflow wurde von einem unabhängigen Studio namens Storyflow entwickelt. Die Software unterstützt das Design und die Implementierung von klangbasierten Anwendungen von der Skizze über den Prototyp bis zum fertigen Produkt. Sie macht es einfach, ein sprachbasiertes System für Amazon Alexa und Google Assistant zu erstellen, ohne dass dafür Programmierkenntnisse erforderlich sind.

Schlussfolgerungen

Beim Design von Voice User Interfaces muss immer entschieden werden, welchen Ansatz die VUI verfolgen soll. IVR-Systeme haben immer noch einen Platz auf dem Markt, aber gleichzeitig ist es klar, dass die Menschen Multimode-Schnittstellen und dialogbasierte Systeme (z.B. digitale Assistenten und Chatbots) bevorzugen.
Wenn Sie die Last der Planung und Umsetzung lieber einem Profi anvertrauen möchten, wenden Sie sich an Ergomania, den ungarischen Marktführer für UI-Design.

  • Multimodale Schnittstelle
  • Chatbots
  • UI-Design
  • UX-Design
  • Design
  • UX
  • Vui

Dr. Péter Rónay

Senior Blog Autor