Interação Multimodal e por Voz
A interação multimodal combina dois ou mais canais de entrada ou saída, como fala e gestos, enquanto a interação por voz permite que os usuários falem com os sistemas; ambos visam uma comunicação mais natural e flexível com os computadores.
Definition
Interação multimodal é a interação na qual o usuário se comunica por meio de mais de uma modalidade, e o sistema pode interpretá-las em conjunto; interação por voz é a interação por meio da linguagem falada; interfaces conversacionais estruturam isso como um diálogo entre o usuário e o sistema.
Scope
Este tópico abrange interfaces baseadas em fala e multimodais: interfaces de usuário por voz e interação conversacional, a combinação de modalidades como fala com apontamento ou gestos, a fusão e desambiguação de múltiplas entradas, e as questões de design de erro, contexto e feedback nesses cenários. Não abrange os algoritmos subjacentes de reconhecimento de fala ou linguagem natural, que pertencem à inteligência artificial, nem o toque e o gesto unimodais, tratados sob interação por toque e gesto.
Core questions
- Como a combinação de modalidades como fala e gestos pode melhorar a interação?
- Que vantagens e limites as interfaces de voz e conversacionais possuem?
- Como um sistema funde e desambigua entradas de diferentes modalidades?
- Como as interfaces multimodais e de voz devem lidar com erros e contexto?
Key concepts
- interface de usuário por voz
- interface conversacional
- fusão multimodal
- modalidades complementares vs redundantes
- combinação de fala e gestos
- diálogo e alternância de turnos
- recuperação de erros
- contexto e ancoragem
Key theories
- Combinando voz e gestos
- O 'Put-that-there' de Bolt demonstrou que a combinação de comandos falados com apontamento permite que os usuários resolvam referências naturalmente, por exemplo, dizendo 'coloque isso ali' enquanto apontam, uma ilustração inicial de modalidades complementares.
- Princípios da interação multimodal
- Oviatt argumentou contra suposições comuns sobre o uso multimodal, mostrando que os usuários não duplicam simplesmente a entrada entre modalidades e que a fusão bem projetada de modalidades complementares pode melhorar a robustez e a eficiência.
- Design de interface conversacional
- As interfaces conversacionais modelam a interação como diálogo, exigindo atenção à alternância de turnos, ancoragem, recuperação de erros e gerenciamento de contexto para que as trocas faladas ou textuais permaneçam coerentes e úteis.
Clinical relevance
As interfaces de voz e conversacionais alimentam alto-falantes inteligentes, assistentes virtuais e sistemas automotivos, suportando o uso sem as mãos e sem os olhos; designs multimodais podem tornar os sistemas mais robustos e acessíveis, inclusive para usuários que não podem usar a entrada convencional, embora levantem considerações distintas sobre erros e privacidade.
History
O sistema 'Put-that-there' de Bolt, de 1980, foi pioneiro na combinação de interação por voz e gestos. Pesquisas ao longo da década de 1990, incluindo sistemas como o QuickSet, desenvolveram a fusão multimodal, e o trabalho de Oviatt corrigiu equívocos sobre como as pessoas usam múltiplas modalidades. Os avanços no reconhecimento de fala levaram a assistentes de voz e interfaces conversacionais generalizados na década de 2010.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- A interação multimodal é apenas oferecer várias opções de entrada?
- Não exatamente. Oferecer entradas alternativas é um benefício, mas a verdadeira interação multimodal pode interpretar modalidades em conjunto, de modo que a fala e um gesto de apontar especificam um comando em conjunto. Isso pode resolver ambiguidades e melhorar a robustez de maneiras que entradas separadas e independentes não conseguem.
- Por que as interfaces de voz ainda enfrentam dificuldades em alguns cenários?
- A voz depende do reconhecimento preciso da fala e da resolução de solicitações ambíguas ou dependentes do contexto, o que é difícil em ambientes ruidosos ou tarefas abertas. A voz também carece do feedback visual persistente das telas, então os designers devem gerenciar cuidadosamente a confirmação, a recuperação de erros e o que o sistema pode e não pode fazer.