Мультимодальное и голосовое взаимодействие
Мультимодальное взаимодействие объединяет два или более входных или выходных канала, таких как речь и жесты, в то время как голосовое взаимодействие позволяет пользователям общаться с системами с помощью речи; оба подхода направлены на более естественное и гибкое общение с компьютерами.
Definition
Мультимодальное взаимодействие — это взаимодействие, при котором пользователь общается посредством более чем одной модальности, и система может интерпретировать их совместно; голосовое взаимодействие — это взаимодействие посредством устной речи; диалоговые интерфейсы структурируют это как диалог между пользователем и системой.
Scope
Эта тема охватывает речевые и мультимодальные интерфейсы: голосовые пользовательские интерфейсы и диалоговое взаимодействие, комбинацию модальностей, таких как речь с указанием или жестом, слияние и разрешение неоднозначности множественных входных данных, а также вопросы проектирования, связанные с ошибками, контекстом и обратной связью в этих условиях. Она не охватывает базовые алгоритмы распознавания речи или обработки естественного языка, которые относятся к искусственному интеллекту, а также унимодальные сенсорные и жестовые взаимодействия, рассматриваемые в разделе «Сенсорное и жестовое взаимодействие».
Core questions
- Как сочетание модальностей, таких как речь и жесты, может улучшить взаимодействие?
- Каковы преимущества и ограничения голосовых и диалоговых интерфейсов?
- Как система объединяет и разрешает неоднозначность входных данных из разных модальностей?
- Как мультимодальные и голосовые интерфейсы должны обрабатывать ошибки и контекст?
Key concepts
- голосовой пользовательский интерфейс
- диалоговый интерфейс
- мультимодальное слияние
- дополнительные против избыточных модальностей
- сочетание речи и жестов
- диалог и смена ролей
- восстановление после ошибок
- контекст и обоснование
Key theories
- Сочетание голоса и жестов
- Система Болта «Put-that-there» продемонстрировала, что сочетание устных команд с указанием позволяет пользователям естественным образом разрешать ссылки, например, произнося «положи это туда» и указывая, что является ранней иллюстрацией дополнительных модальностей.
- Принципы мультимодального взаимодействия
- Овиатт выступала против распространенных предположений о мультимодальном использовании, показывая, что пользователи не просто дублируют ввод по модальностям и что хорошо спроектированное слияние дополнительных модальностей может повысить надежность и эффективность.
- Проектирование диалогового интерфейса
- Диалоговые интерфейсы моделируют взаимодействие как диалог, требуя внимания к смене ролей, обоснованию, восстановлению после ошибок и управлению контекстом, чтобы устные или текстовые обмены оставались связными и полезными.
Clinical relevance
Голосовые и диалоговые интерфейсы лежат в основе умных колонок, виртуальных помощников и автомобильных систем, поддерживая использование без помощи рук и без зрительного контакта; мультимодальные конструкции могут сделать системы более надежными и доступными, в том числе для пользователей, которые не могут использовать обычный ввод, хотя они поднимают отдельные вопросы ошибок и конфиденциальности.
History
Система Болта «Put-that-there» 1980 года стала пионером в комбинированном голосовом и жестовом взаимодействии. Исследования 1990-х годов, включая такие системы, как QuickSet, развивали мультимодальное слияние, а работа Овиатт исправила заблуждения о том, как люди используют несколько модальностей. Достижения в области распознавания речи привели к широкому распространению голосовых помощников и диалоговых интерфейсов в 2010-х годах.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- Является ли мультимодальное взаимодействие просто предложением нескольких вариантов ввода?
- Не совсем. Предложение альтернативных способов ввода — это одно из преимуществ, но истинное мультимодальное взаимодействие может интерпретировать модальности совместно, так что речь и указывающий жест совместно определяют команду. Это может разрешить неоднозначность и повысить надежность способами, недоступными для отдельных, независимых вводов.
- Почему голосовые интерфейсы все еще сталкиваются с трудностями в некоторых условиях?
- Голос зависит от точного распознавания речи и от разрешения неоднозначных или контекстно-зависимых запросов, что сложно в шумных условиях или при выполнении открытых задач. Голосу также не хватает постоянной визуальной обратной связи экранов, поэтому дизайнеры должны тщательно управлять подтверждением, восстановлением после ошибок и тем, что система может и не может делать.