ScholarGate
Asistente

Interacción multimodal y por voz

La interacción multimodal combina dos o más canales de entrada o salida, como el habla y los gestos, mientras que la interacción por voz permite a los usuarios hablar con los sistemas; ambos buscan una comunicación más natural y flexible con las computadoras.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La interacción multimodal es aquella en la que el usuario se comunica a través de más de una modalidad, y el sistema puede interpretarlas conjuntamente; la interacción por voz es la interacción a través del lenguaje hablado; las interfaces conversacionales estructuran esto como un diálogo entre el usuario y el sistema.

Scope

Este tema abarca las interfaces multimodales y basadas en el habla: las interfaces de usuario de voz y la interacción conversacional, la combinación de modalidades como el habla con el señalamiento o los gestos, la fusión y desambiguación de múltiples entradas, y los problemas de diseño de errores, contexto y retroalimentación en estos entornos. No cubre los algoritmos subyacentes de reconocimiento de voz o lenguaje natural, que pertenecen a la inteligencia artificial, ni el tacto y los gestos unimodales, tratados en la interacción táctil y gestual.

Core questions

  • ¿Cómo puede la combinación de modalidades como el habla y los gestos mejorar la interacción?
  • ¿Qué ventajas y límites tienen las interfaces de voz y conversacionales?
  • ¿Cómo fusiona y desambigua un sistema las entradas de diferentes modalidades?
  • ¿Cómo deben manejar los errores y el contexto las interfaces multimodales y de voz?

Key concepts

  • interfaz de usuario de voz
  • interfaz conversacional
  • fusión multimodal
  • modalidades complementarias vs redundantes
  • combinación de habla y gestos
  • diálogo y toma de turnos
  • recuperación de errores
  • contexto y fundamentación

Key theories

Combinación de voz y gestos
El sistema 'Put-that-there' de Bolt demostró que la combinación de comandos hablados con el señalamiento permite a los usuarios resolver referencias de forma natural, por ejemplo, diciendo 'pon eso ahí' mientras señalan, una ilustración temprana de modalidades complementarias.
Principios de la interacción multimodal
Oviatt argumentó en contra de suposiciones comunes sobre el uso multimodal, mostrando que los usuarios no simplemente duplican la entrada a través de las modalidades y que una fusión bien diseñada de modalidades complementarias puede mejorar la robustez y la eficiencia.
Diseño de interfaz conversacional
Las interfaces conversacionales modelan la interacción como un diálogo, lo que requiere atención a la toma de turnos, la fundamentación, la recuperación de errores y la gestión del contexto para que los intercambios hablados o de texto sigan siendo coherentes y útiles.

Clinical relevance

Las interfaces de voz y conversacionales impulsan los altavoces inteligentes, los asistentes virtuales y los sistemas en el automóvil, lo que permite un uso con manos libres y sin necesidad de mirar; los diseños multimodales pueden hacer que los sistemas sean más robustos y accesibles, incluso para usuarios que no pueden utilizar la entrada convencional, aunque plantean consideraciones distintas en cuanto a errores y privacidad.

History

El sistema 'Put-that-there' de Bolt de 1980 fue pionero en la interacción combinada de voz y gestos. La investigación a lo largo de la década de 1990, incluyendo sistemas como QuickSet, desarrolló la fusión multimodal, y el trabajo de Oviatt corrigió conceptos erróneos sobre cómo las personas usan múltiples modalidades. Los avances en el reconocimiento de voz llevaron a la proliferación de asistentes de voz e interfaces conversacionales en la década de 2010.

Key figures

  • Richard A. Bolt
  • Sharon Oviatt
  • Philip R. Cohen
  • Michael McTear

Related topics

Seminal works

  • bolt1980
  • oviatt1999
  • cohen1997

Frequently asked questions

¿La interacción multimodal es solo ofrecer varias opciones de entrada?
No exactamente. Ofrecer entradas alternativas es un beneficio, pero la verdadera interacción multimodal puede interpretar las modalidades en conjunto, de modo que el habla y un gesto de señalamiento especifican conjuntamente un comando. Esto puede resolver la ambigüedad y mejorar la robustez de maneras que las entradas separadas e independientes no pueden.
¿Por qué las interfaces de voz todavía tienen dificultades en algunos entornos?
La voz depende de un reconocimiento de voz preciso y de la resolución de solicitudes ambiguas o dependientes del contexto, lo cual es difícil en entornos ruidosos o tareas abiertas. La voz también carece de la retroalimentación visual persistente de las pantallas, por lo que los diseñadores deben gestionar cuidadosamente la confirmación, la recuperación de errores y lo que el sistema puede y no puede hacer.

Methods for this concept

Related concepts