L'interaction multimodale consiste-t-elle simplement à offrir plusieurs options d'entrée ?

Pas exactement. Offrir des entrées alternatives est un avantage, mais une véritable interaction multimodale peut interpréter les modalités conjointement, de sorte que la parole et un geste de pointage spécifient conjointement une commande. Cela peut résoudre l'ambiguïté et améliorer la robustesse d'une manière que des entrées séparées et indépendantes ne peuvent pas.

Pourquoi les interfaces vocales rencontrent-elles encore des difficultés dans certains contextes ?

La voix dépend d'une reconnaissance vocale précise et de la résolution de requêtes ambiguës ou dépendantes du contexte, ce qui est difficile dans des environnements bruyants ou pour des tâches ouvertes. La voix manque également du retour visuel persistant des écrans, de sorte que les concepteurs doivent gérer avec soin la confirmation, la récupération d'erreur et ce que le système peut et ne peut pas faire.

Interaction multimodale et vocale

L'interaction multimodale combine deux ou plusieurs canaux d'entrée ou de sortie, tels que la parole et le geste, tandis que l'interaction vocale permet aux utilisateurs de parler aux systèmes ; les deux visent une communication plus naturelle et flexible avec les ordinateurs.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'interaction multimodale est une interaction dans laquelle l'utilisateur communique via plus d'une modalité, et le système peut les interpréter conjointement ; l'interaction vocale est une interaction par le langage parlé ; les interfaces conversationnelles structurent cela comme un dialogue entre l'utilisateur et le système.

Scope

Ce sujet couvre les interfaces vocales et multimodales : les interfaces utilisateur vocales et l'interaction conversationnelle, la combinaison de modalités telles que la parole avec le pointage ou le geste, la fusion et la désambiguïsation de multiples entrées, ainsi que les problèmes de conception liés à l'erreur, au contexte et au retour d'information dans ces environnements. Il ne couvre pas les algorithmes sous-jacents de reconnaissance vocale ou de traitement du langage naturel, qui relèvent de l'intelligence artificielle, ni le toucher et le geste unimodaux, traités sous l'interaction tactile et gestuelle.

Core questions

Comment la combinaison de modalités telles que la parole et le geste peut-elle améliorer l'interaction ?
Quels sont les avantages et les limites des interfaces vocales et conversationnelles ?
Comment un système fusionne-t-il et désambiguïse-t-il les entrées de différentes modalités ?
Comment les interfaces multimodales et vocales devraient-elles gérer les erreurs et le contexte ?

Key concepts

interface utilisateur vocale
interface conversationnelle
fusion multimodale
modalités complémentaires vs redondantes
combinaison parole et geste
dialogue et prise de tour
récupération d'erreur
contexte et ancrage

Key theories

Combinaison voix et geste: Le système « Put-that-there » de Bolt a démontré que la combinaison de commandes vocales avec le pointage permet aux utilisateurs de résoudre les références naturellement, par exemple en disant « mets ça là » tout en pointant, une illustration précoce des modalités complémentaires.
Principes de l'interaction multimodale: Oviatt s'est opposée aux hypothèses courantes sur l'utilisation multimodale, montrant que les utilisateurs ne dupliquent pas simplement les entrées entre les modalités et qu'une fusion bien conçue de modalités complémentaires peut améliorer la robustesse et l'efficacité.
Conception d'interface conversationnelle: Les interfaces conversationnelles modélisent l'interaction comme un dialogue, nécessitant une attention particulière à la prise de tour, à l'ancrage, à la récupération d'erreur et à la gestion du contexte afin que les échanges parlés ou textuels restent cohérents et utiles.

Clinical relevance

Les interfaces vocales et conversationnelles alimentent les enceintes intelligentes, les assistants virtuels et les systèmes embarqués, favorisant une utilisation mains libres et sans les yeux ; les conceptions multimodales peuvent rendre les systèmes plus robustes et accessibles, y compris pour les utilisateurs qui ne peuvent pas utiliser les entrées conventionnelles, bien qu'elles soulèvent des considérations distinctes en matière d'erreur et de confidentialité.

History

Le système « Put-that-there » de Bolt en 1980 a été le pionnier de l'interaction combinée voix et geste. La recherche tout au long des années 1990, y compris des systèmes tels que QuickSet, a développé la fusion multimodale, et les travaux d'Oviatt ont corrigé les idées fausses sur la façon dont les gens utilisent plusieurs modalités. Les avancées en reconnaissance vocale ont conduit à la généralisation des assistants vocaux et des interfaces conversationnelles dans les années 2010.

Key figures

Richard A. Bolt
Sharon Oviatt
Philip R. Cohen
Michael McTear

Seminal works

bolt1980
oviatt1999
cohen1997

Frequently asked questions

L'interaction multimodale consiste-t-elle simplement à offrir plusieurs options d'entrée ?: Pas exactement. Offrir des entrées alternatives est un avantage, mais une véritable interaction multimodale peut interpréter les modalités conjointement, de sorte que la parole et un geste de pointage spécifient conjointement une commande. Cela peut résoudre l'ambiguïté et améliorer la robustesse d'une manière que des entrées séparées et indépendantes ne peuvent pas.
Pourquoi les interfaces vocales rencontrent-elles encore des difficultés dans certains contextes ?: La voix dépend d'une reconnaissance vocale précise et de la résolution de requêtes ambiguës ou dépendantes du contexte, ce qui est difficile dans des environnements bruyants ou pour des tâches ouvertes. La voix manque également du retour visuel persistant des écrans, de sorte que les concepteurs doivent gérer avec soin la confirmation, la récupération d'erreur et ce que le système peut et ne peut pas faire.