Interacción multimodal y por voz
La interacción multimodal combina dos o más canales de entrada o salida, como el habla y los gestos, mientras que la interacción por voz permite a los usuarios hablar con los sistemas; ambos buscan una comunicación más natural y flexible con las computadoras.
Definition
La interacción multimodal es aquella en la que el usuario se comunica a través de más de una modalidad, y el sistema puede interpretarlas conjuntamente; la interacción por voz es la interacción a través del lenguaje hablado; las interfaces conversacionales estructuran esto como un diálogo entre el usuario y el sistema.
Scope
Este tema abarca las interfaces multimodales y basadas en el habla: las interfaces de usuario de voz y la interacción conversacional, la combinación de modalidades como el habla con el señalamiento o los gestos, la fusión y desambiguación de múltiples entradas, y los problemas de diseño de errores, contexto y retroalimentación en estos entornos. No cubre los algoritmos subyacentes de reconocimiento de voz o lenguaje natural, que pertenecen a la inteligencia artificial, ni el tacto y los gestos unimodales, tratados en la interacción táctil y gestual.
Core questions
- ¿Cómo puede la combinación de modalidades como el habla y los gestos mejorar la interacción?
- ¿Qué ventajas y límites tienen las interfaces de voz y conversacionales?
- ¿Cómo fusiona y desambigua un sistema las entradas de diferentes modalidades?
- ¿Cómo deben manejar los errores y el contexto las interfaces multimodales y de voz?
Key concepts
- interfaz de usuario de voz
- interfaz conversacional
- fusión multimodal
- modalidades complementarias vs redundantes
- combinación de habla y gestos
- diálogo y toma de turnos
- recuperación de errores
- contexto y fundamentación
Key theories
- Combinación de voz y gestos
- El sistema 'Put-that-there' de Bolt demostró que la combinación de comandos hablados con el señalamiento permite a los usuarios resolver referencias de forma natural, por ejemplo, diciendo 'pon eso ahí' mientras señalan, una ilustración temprana de modalidades complementarias.
- Principios de la interacción multimodal
- Oviatt argumentó en contra de suposiciones comunes sobre el uso multimodal, mostrando que los usuarios no simplemente duplican la entrada a través de las modalidades y que una fusión bien diseñada de modalidades complementarias puede mejorar la robustez y la eficiencia.
- Diseño de interfaz conversacional
- Las interfaces conversacionales modelan la interacción como un diálogo, lo que requiere atención a la toma de turnos, la fundamentación, la recuperación de errores y la gestión del contexto para que los intercambios hablados o de texto sigan siendo coherentes y útiles.
Clinical relevance
Las interfaces de voz y conversacionales impulsan los altavoces inteligentes, los asistentes virtuales y los sistemas en el automóvil, lo que permite un uso con manos libres y sin necesidad de mirar; los diseños multimodales pueden hacer que los sistemas sean más robustos y accesibles, incluso para usuarios que no pueden utilizar la entrada convencional, aunque plantean consideraciones distintas en cuanto a errores y privacidad.
History
El sistema 'Put-that-there' de Bolt de 1980 fue pionero en la interacción combinada de voz y gestos. La investigación a lo largo de la década de 1990, incluyendo sistemas como QuickSet, desarrolló la fusión multimodal, y el trabajo de Oviatt corrigió conceptos erróneos sobre cómo las personas usan múltiples modalidades. Los avances en el reconocimiento de voz llevaron a la proliferación de asistentes de voz e interfaces conversacionales en la década de 2010.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- ¿La interacción multimodal es solo ofrecer varias opciones de entrada?
- No exactamente. Ofrecer entradas alternativas es un beneficio, pero la verdadera interacción multimodal puede interpretar las modalidades en conjunto, de modo que el habla y un gesto de señalamiento especifican conjuntamente un comando. Esto puede resolver la ambigüedad y mejorar la robustez de maneras que las entradas separadas e independientes no pueden.
- ¿Por qué las interfaces de voz todavía tienen dificultades en algunos entornos?
- La voz depende de un reconocimiento de voz preciso y de la resolución de solicitudes ambiguas o dependientes del contexto, lo cual es difícil en entornos ruidosos o tareas abiertas. La voz también carece de la retroalimentación visual persistente de las pantallas, por lo que los diseñadores deben gestionar cuidadosamente la confirmación, la recuperación de errores y lo que el sistema puede y no puede hacer.