A interação multimodal é apenas oferecer várias opções de entrada?

Não exatamente. Oferecer entradas alternativas é um benefício, mas a verdadeira interação multimodal pode interpretar modalidades em conjunto, de modo que a fala e um gesto de apontar especificam um comando em conjunto. Isso pode resolver ambiguidades e melhorar a robustez de maneiras que entradas separadas e independentes não conseguem.

Por que as interfaces de voz ainda enfrentam dificuldades em alguns cenários?

A voz depende do reconhecimento preciso da fala e da resolução de solicitações ambíguas ou dependentes do contexto, o que é difícil em ambientes ruidosos ou tarefas abertas. A voz também carece do feedback visual persistente das telas, então os designers devem gerenciar cuidadosamente a confirmação, a recuperação de erros e o que o sistema pode e não pode fazer.

Interação Multimodal e por Voz

A interação multimodal combina dois ou mais canais de entrada ou saída, como fala e gestos, enquanto a interação por voz permite que os usuários falem com os sistemas; ambos visam uma comunicação mais natural e flexível com os computadores.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Interação multimodal é a interação na qual o usuário se comunica por meio de mais de uma modalidade, e o sistema pode interpretá-las em conjunto; interação por voz é a interação por meio da linguagem falada; interfaces conversacionais estruturam isso como um diálogo entre o usuário e o sistema.

Scope

Este tópico abrange interfaces baseadas em fala e multimodais: interfaces de usuário por voz e interação conversacional, a combinação de modalidades como fala com apontamento ou gestos, a fusão e desambiguação de múltiplas entradas, e as questões de design de erro, contexto e feedback nesses cenários. Não abrange os algoritmos subjacentes de reconhecimento de fala ou linguagem natural, que pertencem à inteligência artificial, nem o toque e o gesto unimodais, tratados sob interação por toque e gesto.

Core questions

Como a combinação de modalidades como fala e gestos pode melhorar a interação?
Que vantagens e limites as interfaces de voz e conversacionais possuem?
Como um sistema funde e desambigua entradas de diferentes modalidades?
Como as interfaces multimodais e de voz devem lidar com erros e contexto?

Key concepts

interface de usuário por voz
interface conversacional
fusão multimodal
modalidades complementares vs redundantes
combinação de fala e gestos
diálogo e alternância de turnos
recuperação de erros
contexto e ancoragem

Key theories

Combinando voz e gestos: O 'Put-that-there' de Bolt demonstrou que a combinação de comandos falados com apontamento permite que os usuários resolvam referências naturalmente, por exemplo, dizendo 'coloque isso ali' enquanto apontam, uma ilustração inicial de modalidades complementares.
Princípios da interação multimodal: Oviatt argumentou contra suposições comuns sobre o uso multimodal, mostrando que os usuários não duplicam simplesmente a entrada entre modalidades e que a fusão bem projetada de modalidades complementares pode melhorar a robustez e a eficiência.
Design de interface conversacional: As interfaces conversacionais modelam a interação como diálogo, exigindo atenção à alternância de turnos, ancoragem, recuperação de erros e gerenciamento de contexto para que as trocas faladas ou textuais permaneçam coerentes e úteis.

Clinical relevance

As interfaces de voz e conversacionais alimentam alto-falantes inteligentes, assistentes virtuais e sistemas automotivos, suportando o uso sem as mãos e sem os olhos; designs multimodais podem tornar os sistemas mais robustos e acessíveis, inclusive para usuários que não podem usar a entrada convencional, embora levantem considerações distintas sobre erros e privacidade.

History

O sistema 'Put-that-there' de Bolt, de 1980, foi pioneiro na combinação de interação por voz e gestos. Pesquisas ao longo da década de 1990, incluindo sistemas como o QuickSet, desenvolveram a fusão multimodal, e o trabalho de Oviatt corrigiu equívocos sobre como as pessoas usam múltiplas modalidades. Os avanços no reconhecimento de fala levaram a assistentes de voz e interfaces conversacionais generalizados na década de 2010.

Key figures

Richard A. Bolt
Sharon Oviatt
Philip R. Cohen
Michael McTear

Seminal works

bolt1980
oviatt1999
cohen1997

Frequently asked questions

A interação multimodal é apenas oferecer várias opções de entrada?: Não exatamente. Oferecer entradas alternativas é um benefício, mas a verdadeira interação multimodal pode interpretar modalidades em conjunto, de modo que a fala e um gesto de apontar especificam um comando em conjunto. Isso pode resolver ambiguidades e melhorar a robustez de maneiras que entradas separadas e independentes não conseguem.
Por que as interfaces de voz ainda enfrentam dificuldades em alguns cenários?: A voz depende do reconhecimento preciso da fala e da resolução de solicitações ambíguas ou dependentes do contexto, o que é difícil em ambientes ruidosos ou tarefas abertas. A voz também carece do feedback visual persistente das telas, então os designers devem gerenciar cuidadosamente a confirmação, a recuperação de erros e o que o sistema pode e não pode fazer.