Является ли мультимодальное взаимодействие просто предложением нескольких вариантов ввода?

Не совсем. Предложение альтернативных способов ввода — это одно из преимуществ, но истинное мультимодальное взаимодействие может интерпретировать модальности совместно, так что речь и указывающий жест совместно определяют команду. Это может разрешить неоднозначность и повысить надежность способами, недоступными для отдельных, независимых вводов.

Почему голосовые интерфейсы все еще сталкиваются с трудностями в некоторых условиях?

Голос зависит от точного распознавания речи и от разрешения неоднозначных или контекстно-зависимых запросов, что сложно в шумных условиях или при выполнении открытых задач. Голосу также не хватает постоянной визуальной обратной связи экранов, поэтому дизайнеры должны тщательно управлять подтверждением, восстановлением после ошибок и тем, что система может и не может делать.

Мультимодальное и голосовое взаимодействие

Мультимодальное взаимодействие объединяет два или более входных или выходных канала, таких как речь и жесты, в то время как голосовое взаимодействие позволяет пользователям общаться с системами с помощью речи; оба подхода направлены на более естественное и гибкое общение с компьютерами.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Мультимодальное взаимодействие — это взаимодействие, при котором пользователь общается посредством более чем одной модальности, и система может интерпретировать их совместно; голосовое взаимодействие — это взаимодействие посредством устной речи; диалоговые интерфейсы структурируют это как диалог между пользователем и системой.

Scope

Эта тема охватывает речевые и мультимодальные интерфейсы: голосовые пользовательские интерфейсы и диалоговое взаимодействие, комбинацию модальностей, таких как речь с указанием или жестом, слияние и разрешение неоднозначности множественных входных данных, а также вопросы проектирования, связанные с ошибками, контекстом и обратной связью в этих условиях. Она не охватывает базовые алгоритмы распознавания речи или обработки естественного языка, которые относятся к искусственному интеллекту, а также унимодальные сенсорные и жестовые взаимодействия, рассматриваемые в разделе «Сенсорное и жестовое взаимодействие».

Core questions

Как сочетание модальностей, таких как речь и жесты, может улучшить взаимодействие?
Каковы преимущества и ограничения голосовых и диалоговых интерфейсов?
Как система объединяет и разрешает неоднозначность входных данных из разных модальностей?
Как мультимодальные и голосовые интерфейсы должны обрабатывать ошибки и контекст?

Key concepts

голосовой пользовательский интерфейс
диалоговый интерфейс
мультимодальное слияние
дополнительные против избыточных модальностей
сочетание речи и жестов
диалог и смена ролей
восстановление после ошибок
контекст и обоснование

Key theories

Сочетание голоса и жестов: Система Болта «Put-that-there» продемонстрировала, что сочетание устных команд с указанием позволяет пользователям естественным образом разрешать ссылки, например, произнося «положи это туда» и указывая, что является ранней иллюстрацией дополнительных модальностей.
Принципы мультимодального взаимодействия: Овиатт выступала против распространенных предположений о мультимодальном использовании, показывая, что пользователи не просто дублируют ввод по модальностям и что хорошо спроектированное слияние дополнительных модальностей может повысить надежность и эффективность.
Проектирование диалогового интерфейса: Диалоговые интерфейсы моделируют взаимодействие как диалог, требуя внимания к смене ролей, обоснованию, восстановлению после ошибок и управлению контекстом, чтобы устные или текстовые обмены оставались связными и полезными.

Clinical relevance

Голосовые и диалоговые интерфейсы лежат в основе умных колонок, виртуальных помощников и автомобильных систем, поддерживая использование без помощи рук и без зрительного контакта; мультимодальные конструкции могут сделать системы более надежными и доступными, в том числе для пользователей, которые не могут использовать обычный ввод, хотя они поднимают отдельные вопросы ошибок и конфиденциальности.

History

Система Болта «Put-that-there» 1980 года стала пионером в комбинированном голосовом и жестовом взаимодействии. Исследования 1990-х годов, включая такие системы, как QuickSet, развивали мультимодальное слияние, а работа Овиатт исправила заблуждения о том, как люди используют несколько модальностей. Достижения в области распознавания речи привели к широкому распространению голосовых помощников и диалоговых интерфейсов в 2010-х годах.

Key figures

Richard A. Bolt
Sharon Oviatt
Philip R. Cohen
Michael McTear

Seminal works

bolt1980
oviatt1999
cohen1997

Frequently asked questions

Является ли мультимодальное взаимодействие просто предложением нескольких вариантов ввода?: Не совсем. Предложение альтернативных способов ввода — это одно из преимуществ, но истинное мультимодальное взаимодействие может интерпретировать модальности совместно, так что речь и указывающий жест совместно определяют команду. Это может разрешить неоднозначность и повысить надежность способами, недоступными для отдельных, независимых вводов.
Почему голосовые интерфейсы все еще сталкиваются с трудностями в некоторых условиях?: Голос зависит от точного распознавания речи и от разрешения неоднозначных или контекстно-зависимых запросов, что сложно в шумных условиях или при выполнении открытых задач. Голосу также не хватает постоянной визуальной обратной связи экранов, поэтому дизайнеры должны тщательно управлять подтверждением, восстановлением после ошибок и тем, что система может и не может делать.