多模态交互仅仅是提供多种输入选项吗？

不完全是。提供替代输入是一个好处，但真正的多模态交互可以联合解释模态，因此语音和指向手势共同指定一个命令。这可以解决歧义并提高鲁棒性，这是单独、独立的输入无法做到的。

为什么语音界面在某些情况下仍然面临挑战？

语音依赖于准确的语音识别以及解决模糊或依赖上下文的请求，这在嘈杂的环境或开放式任务中很难。语音也缺乏屏幕的持续视觉反馈，因此设计者必须仔细管理确认、错误恢复以及系统能做什么和不能做什么。

多模态交互结合了两种或多种输入或输出通道，例如语音和手势，而语音交互则允许用户与系统对话；两者都旨在实现与计算机之间更自然、灵活的通信。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

多模态交互是指用户通过多种模态进行通信，系统可以联合解释这些模态；语音交互是通过口语进行的交互；对话式界面将其构建为用户与系统之间的对话。

本主题涵盖基于语音和多模态的界面：语音用户界面和对话式交互，语音与指向或手势等模态的结合，多种输入的融合和消歧，以及在这些设置中错误、上下文和反馈的设计问题。它不包括底层的语音识别或自然语言算法（这些属于人工智能范畴），也不包括在触控和手势交互下处理的单模态触控和手势。

语音与手势结合: Bolt的“Put-that-there”系统演示了将口头命令与指向结合，用户可以自然地解决指代问题，例如在指向的同时说“把那个放在那里”，这是互补模态的早期例证。
多模态交互原则: Oviatt反对关于多模态使用的常见假设，表明用户并非简单地在不同模态之间重复输入，并且精心设计的互补模态融合可以提高鲁棒性和效率。
对话式界面设计: 对话式界面将交互建模为对话，需要关注轮流、基础、错误恢复和上下文管理，以使口头或文本交流保持连贯和有用。

语音和对话式界面为智能音箱、虚拟助手和车载系统提供支持，实现了免提和免视使用；多模态设计可以使系统更健壮和易于访问，包括对于无法使用传统输入的用户，尽管它们会带来独特的错误和隐私考虑。

Bolt于1980年提出的“Put-that-there”系统开创了语音和手势结合的交互。1990年代的研究，包括QuickSet等系统，发展了多模态融合，Oviatt的工作纠正了人们对如何使用多种模态的误解。语音识别的进步在2010年代促成了语音助手和对话式界面的广泛应用。

多模态交互仅仅是提供多种输入选项吗？: 不完全是。提供替代输入是一个好处，但真正的多模态交互可以联合解释模态，因此语音和指向手势共同指定一个命令。这可以解决歧义并提高鲁棒性，这是单独、独立的输入无法做到的。
为什么语音界面在某些情况下仍然面临挑战？: 语音依赖于准确的语音识别以及解决模糊或依赖上下文的请求，这在嘈杂的环境或开放式任务中很难。语音也缺乏屏幕的持续视觉反馈，因此设计者必须仔细管理确认、错误恢复以及系统能做什么和不能做什么。