ScholarGate
Ассистент

Мультимодальное и голосовое взаимодействие

Мультимодальное взаимодействие объединяет два или более входных или выходных канала, таких как речь и жесты, в то время как голосовое взаимодействие позволяет пользователям общаться с системами с помощью речи; оба подхода направлены на более естественное и гибкое общение с компьютерами.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Мультимодальное взаимодействие — это взаимодействие, при котором пользователь общается посредством более чем одной модальности, и система может интерпретировать их совместно; голосовое взаимодействие — это взаимодействие посредством устной речи; диалоговые интерфейсы структурируют это как диалог между пользователем и системой.

Scope

Эта тема охватывает речевые и мультимодальные интерфейсы: голосовые пользовательские интерфейсы и диалоговое взаимодействие, комбинацию модальностей, таких как речь с указанием или жестом, слияние и разрешение неоднозначности множественных входных данных, а также вопросы проектирования, связанные с ошибками, контекстом и обратной связью в этих условиях. Она не охватывает базовые алгоритмы распознавания речи или обработки естественного языка, которые относятся к искусственному интеллекту, а также унимодальные сенсорные и жестовые взаимодействия, рассматриваемые в разделе «Сенсорное и жестовое взаимодействие».

Core questions

  • Как сочетание модальностей, таких как речь и жесты, может улучшить взаимодействие?
  • Каковы преимущества и ограничения голосовых и диалоговых интерфейсов?
  • Как система объединяет и разрешает неоднозначность входных данных из разных модальностей?
  • Как мультимодальные и голосовые интерфейсы должны обрабатывать ошибки и контекст?

Key concepts

  • голосовой пользовательский интерфейс
  • диалоговый интерфейс
  • мультимодальное слияние
  • дополнительные против избыточных модальностей
  • сочетание речи и жестов
  • диалог и смена ролей
  • восстановление после ошибок
  • контекст и обоснование

Key theories

Сочетание голоса и жестов
Система Болта «Put-that-there» продемонстрировала, что сочетание устных команд с указанием позволяет пользователям естественным образом разрешать ссылки, например, произнося «положи это туда» и указывая, что является ранней иллюстрацией дополнительных модальностей.
Принципы мультимодального взаимодействия
Овиатт выступала против распространенных предположений о мультимодальном использовании, показывая, что пользователи не просто дублируют ввод по модальностям и что хорошо спроектированное слияние дополнительных модальностей может повысить надежность и эффективность.
Проектирование диалогового интерфейса
Диалоговые интерфейсы моделируют взаимодействие как диалог, требуя внимания к смене ролей, обоснованию, восстановлению после ошибок и управлению контекстом, чтобы устные или текстовые обмены оставались связными и полезными.

Clinical relevance

Голосовые и диалоговые интерфейсы лежат в основе умных колонок, виртуальных помощников и автомобильных систем, поддерживая использование без помощи рук и без зрительного контакта; мультимодальные конструкции могут сделать системы более надежными и доступными, в том числе для пользователей, которые не могут использовать обычный ввод, хотя они поднимают отдельные вопросы ошибок и конфиденциальности.

History

Система Болта «Put-that-there» 1980 года стала пионером в комбинированном голосовом и жестовом взаимодействии. Исследования 1990-х годов, включая такие системы, как QuickSet, развивали мультимодальное слияние, а работа Овиатт исправила заблуждения о том, как люди используют несколько модальностей. Достижения в области распознавания речи привели к широкому распространению голосовых помощников и диалоговых интерфейсов в 2010-х годах.

Key figures

  • Richard A. Bolt
  • Sharon Oviatt
  • Philip R. Cohen
  • Michael McTear

Related topics

Seminal works

  • bolt1980
  • oviatt1999
  • cohen1997

Frequently asked questions

Является ли мультимодальное взаимодействие просто предложением нескольких вариантов ввода?
Не совсем. Предложение альтернативных способов ввода — это одно из преимуществ, но истинное мультимодальное взаимодействие может интерпретировать модальности совместно, так что речь и указывающий жест совместно определяют команду. Это может разрешить неоднозначность и повысить надежность способами, недоступными для отдельных, независимых вводов.
Почему голосовые интерфейсы все еще сталкиваются с трудностями в некоторых условиях?
Голос зависит от точного распознавания речи и от разрешения неоднозначных или контекстно-зависимых запросов, что сложно в шумных условиях или при выполнении открытых задач. Голосу также не хватает постоянной визуальной обратной связи экранов, поэтому дизайнеры должны тщательно управлять подтверждением, восстановлением после ошибок и тем, что система может и не может делать.

Methods for this concept

Related concepts