Multimodale und Sprachinteraktion
Multimodale Interaktion kombiniert zwei oder mehr Eingabe- oder Ausgabekanäle, wie Sprache und Gestik, während Sprachinteraktion es Benutzern ermöglicht, mit Systemen zu sprechen; beide zielen auf eine natürlichere, flexiblere Kommunikation mit Computern ab.
Definition
Multimodale Interaktion ist eine Interaktion, bei der der Benutzer über mehr als eine Modalität kommuniziert und das System diese gemeinsam interpretieren kann; Sprachinteraktion ist eine Interaktion über gesprochene Sprache; konversationelle Schnittstellen strukturieren dies als Dialog zwischen Benutzer und System.
Scope
Dieses Thema behandelt sprachbasierte und multimodale Schnittstellen: Sprachbenutzeroberflächen und konversationelle Interaktion, die Kombination von Modalitäten wie Sprache mit Zeigen oder Gestik, die Fusion und Disambiguierung mehrerer Eingaben sowie die Designfragen von Fehlern, Kontext und Feedback in diesen Umgebungen. Es behandelt nicht die zugrunde liegenden Spracherkennungs- oder natürlichsprachlichen Algorithmen, die zur künstlichen Intelligenz gehören, noch unimodale Berührungs- und Gesteninteraktion, die unter Berührungs- und Gesteninteraktion behandelt wird.
Core questions
- Wie kann die Kombination von Modalitäten wie Sprache und Gestik die Interaktion verbessern?
- Welche Vorteile und Grenzen haben Sprach- und Konversationsschnittstellen?
- Wie fusioniert und disambiguiert ein System Eingaben aus verschiedenen Modalitäten?
- Wie sollten multimodale und Sprachschnittstellen mit Fehlern und Kontext umgehen?
Key concepts
- Sprachbenutzeroberfläche
- Konversationsschnittstelle
- multimodale Fusion
- komplementäre vs. redundante Modalitäten
- Kombination von Sprache und Gestik
- Dialog und Turn-Taking
- Fehlerbehebung
- Kontext und Grounding
Key theories
- Kombination von Sprache und Gestik
- Bolts „Put-that-there“ zeigte, dass die Kombination von Sprachbefehlen mit Zeigen es Benutzern ermöglicht, Referenzen natürlich aufzulösen, zum Beispiel „put that there“ zu sagen, während man zeigt, eine frühe Illustration komplementärer Modalitäten.
- Prinzipien der multimodalen Interaktion
- Oviatt argumentierte gegen gängige Annahmen über die multimodale Nutzung und zeigte, dass Benutzer Eingaben nicht einfach über Modalitäten hinweg duplizieren und dass eine gut gestaltete Fusion komplementärer Modalitäten die Robustheit und Effizienz verbessern kann.
- Design von Konversationsschnittstellen
- Konversationsschnittstellen modellieren Interaktion als Dialog, was Aufmerksamkeit für Turn-Taking, Grounding, Fehlerbehebung und das Management des Kontexts erfordert, damit gesprochene oder Textaustausche kohärent und nützlich bleiben.
Clinical relevance
Sprach- und Konversationsschnittstellen treiben intelligente Lautsprecher, virtuelle Assistenten und In-Car-Systeme an und unterstützen die freihändige und augenfreie Nutzung; multimodale Designs können Systeme robuster und zugänglicher machen, auch für Benutzer, die keine konventionellen Eingaben verwenden können, obwohl sie spezifische Fehler- und Datenschutzüberlegungen aufwerfen.
History
Bolts „Put-that-there“-System von 1980 war ein Pionier der kombinierten Sprach- und Gesteninteraktion. Die Forschung in den 1990er Jahren, einschließlich Systemen wie QuickSet, entwickelte die multimodale Fusion, und Oviatts Arbeit korrigierte Missverständnisse darüber, wie Menschen mehrere Modalitäten nutzen. Fortschritte in der Spracherkennung führten in den 2010er Jahren zu weit verbreiteten Sprachassistenten und Konversationsschnittstellen.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- Bietet multimodale Interaktion lediglich mehrere Eingabeoptionen?
- Nicht genau. Das Anbieten alternativer Eingaben ist ein Vorteil, aber echte multimodale Interaktion kann Modalitäten gemeinsam interpretieren, sodass Sprache und eine Zeigegeste gemeinsam einen Befehl spezifizieren. Dies kann Mehrdeutigkeiten auflösen und die Robustheit auf eine Weise verbessern, die separate, unabhängige Eingaben nicht können.
- Warum haben Sprachschnittstellen in einigen Umgebungen immer noch Schwierigkeiten?
- Sprache hängt von einer genauen Spracherkennung und der Auflösung mehrdeutiger oder kontextabhängiger Anfragen ab, was in lauten Umgebungen oder bei offenen Aufgaben schwierig ist. Sprache fehlt auch das persistente visuelle Feedback von Bildschirmen, daher müssen Designer die Bestätigung, Fehlerbehebung und das, was das System kann und nicht kann, sorgfältig verwalten.