ScholarGate
助手

多模态与语音交互

多模态交互结合了两种或多种输入或输出通道,例如语音和手势,而语音交互则允许用户与系统对话;两者都旨在实现与计算机之间更自然、灵活的通信。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

多模态交互是指用户通过多种模态进行通信,系统可以联合解释这些模态;语音交互是通过口语进行的交互;对话式界面将其构建为用户与系统之间的对话。

Scope

本主题涵盖基于语音和多模态的界面:语音用户界面和对话式交互,语音与指向或手势等模态的结合,多种输入的融合和消歧,以及在这些设置中错误、上下文和反馈的设计问题。它不包括底层的语音识别或自然语言算法(这些属于人工智能范畴),也不包括在触控和手势交互下处理的单模态触控和手势。

Core questions

  • 语音和手势等模态的结合如何改善交互?
  • 语音和对话式界面有哪些优点和局限性?
  • 系统如何融合和消歧来自不同模态的输入?
  • 多模态和语音界面应如何处理错误和上下文?

Key concepts

  • 语音用户界面
  • 对话式界面
  • 多模态融合
  • 互补模态与冗余模态
  • 语音与手势结合
  • 对话与轮流
  • 错误恢复
  • 上下文与基础

Key theories

语音与手势结合
Bolt的“Put-that-there”系统演示了将口头命令与指向结合,用户可以自然地解决指代问题,例如在指向的同时说“把那个放在那里”,这是互补模态的早期例证。
多模态交互原则
Oviatt反对关于多模态使用的常见假设,表明用户并非简单地在不同模态之间重复输入,并且精心设计的互补模态融合可以提高鲁棒性和效率。
对话式界面设计
对话式界面将交互建模为对话,需要关注轮流、基础、错误恢复和上下文管理,以使口头或文本交流保持连贯和有用。

Clinical relevance

语音和对话式界面为智能音箱、虚拟助手和车载系统提供支持,实现了免提和免视使用;多模态设计可以使系统更健壮和易于访问,包括对于无法使用传统输入的用户,尽管它们会带来独特的错误和隐私考虑。

History

Bolt于1980年提出的“Put-that-there”系统开创了语音和手势结合的交互。1990年代的研究,包括QuickSet等系统,发展了多模态融合,Oviatt的工作纠正了人们对如何使用多种模态的误解。语音识别的进步在2010年代促成了语音助手和对话式界面的广泛应用。

Key figures

  • Richard A. Bolt
  • Sharon Oviatt
  • Philip R. Cohen
  • Michael McTear

Related topics

Seminal works

  • bolt1980
  • oviatt1999
  • cohen1997

Frequently asked questions

多模态交互仅仅是提供多种输入选项吗?
不完全是。提供替代输入是一个好处,但真正的多模态交互可以联合解释模态,因此语音和指向手势共同指定一个命令。这可以解决歧义并提高鲁棒性,这是单独、独立的输入无法做到的。
为什么语音界面在某些情况下仍然面临挑战?
语音依赖于准确的语音识别以及解决模糊或依赖上下文的请求,这在嘈杂的环境或开放式任务中很难。语音也缺乏屏幕的持续视觉反馈,因此设计者必须仔细管理确认、错误恢复以及系统能做什么和不能做什么。

Methods for this concept

Related concepts