マルチモーダルインタラクションは、単に複数の入力オプションを提供するだけのものでしょうか？

厳密にはそうではありません。代替入力の提供は一つの利点ですが、真のマルチモーダルインタラクションはモダリティを一緒に解釈できるため、音声とポインティングジェスチャーが共同でコマンドを特定します。これにより、個別の独立した入力では不可能な方法で曖昧さを解消し、堅牢性を向上させることができます。

なぜ音声インターフェースは、一部の環境で依然として苦戦するのでしょうか？

音声は、正確な音声認識と、曖昧な要求や文脈依存の要求の解決に依存しますが、これらは騒がしい環境やオープンエンドのタスクでは困難です。また、音声には画面のような永続的な視覚的フィードバックがないため、設計者は確認、エラー回復、およびシステムができることとできないことを慎重に管理する必要があります。

マルチモーダルおよび音声インタラクション

マルチモーダルインタラクションは、音声やジェスチャーなど、2つ以上の入力または出力チャネルを組み合わせるものであり、音声インタラクションはユーザーがシステムに話しかけることを可能にします。どちらも、コンピューターとのより自然で柔軟なコミュニケーションを目指しています。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

マルチモーダルインタラクションとは、ユーザーが複数のモダリティを介してコミュニケーションを行い、システムがそれらを共同で解釈するインタラクションのことです。音声インタラクションとは、音声言語を介したインタラクションのことです。会話型インターフェースは、これをユーザーとシステム間の対話として構造化します。

Scope

このトピックは、音声ベースおよびマルチモーダルインターフェース、すなわち音声ユーザーインターフェースと会話型インタラクション、音声とポインティングやジェスチャーなどのモダリティの組み合わせ、複数の入力の融合と曖昧さの解消、およびこれらの設定におけるエラー、コンテキスト、フィードバックの設計上の問題について扱います。人工知能に属する基盤となる音声認識や自然言語アルゴリズム、およびタッチとジェスチャーのインタラクションで扱われるユニモーダルなタッチとジェスチャーについては扱いません。

Core questions

音声とジェスチャーなどのモダリティを組み合わせることで、インタラクションをどのように改善できるでしょうか？
音声および会話型インターフェースにはどのような利点と限界があるでしょうか？
システムは異なるモダリティからの入力をどのように融合し、曖昧さを解消するのでしょうか？
マルチモーダルおよび音声インターフェースは、エラーとコンテキストをどのように処理すべきでしょうか？

Key concepts

音声ユーザーインターフェース
会話型インターフェース
マルチモーダル融合
相補的モダリティと冗長モダリティ
音声とジェスチャーの組み合わせ
対話とターンテーキング
エラー回復
コンテキストとグラウンディング

Key theories

音声とジェスチャーの組み合わせ: ボルトの「Put-that-there」は、音声コマンドとポインティングを組み合わせることで、ユーザーが「そこにあれを置く」と指差しながら言うように、参照を自然に解決できることを示しました。これは相補的モダリティの初期の例です。
マルチモーダルインタラクションの原則: Oviattは、マルチモーダル使用に関する一般的な仮定に異議を唱え、ユーザーが単にモダリティ間で入力を複製するわけではないこと、そして相補的モダリティの適切に設計された融合が堅牢性と効率を向上させ得ることを示しました。
会話型インターフェース設計: 会話型インターフェースは、インタラクションを対話としてモデル化し、ターンテーキング、グラウンディング、エラー回復、およびコンテキストの管理に注意を払うことで、音声またはテキストのやり取りが一貫性があり有用なものとなるようにします。

Clinical relevance

音声および会話型インターフェースは、スマートスピーカー、仮想アシスタント、車載システムを動かし、ハンズフリーおよびアイズフリーでの使用をサポートします。マルチモーダル設計は、従来の入力を使用できないユーザーを含め、システムをより堅牢でアクセスしやすいものにすることができますが、エラーやプライバシーに関する明確な考慮事項も生じさせます。

History

ボルトの1980年の「Put-that-there」システムは、音声とジェスチャーを組み合わせたインタラクションの先駆けとなりました。QuickSetなどのシステムを含む1990年代の研究では、マルチモーダル融合が開発され、Oviattの研究は、人々が複数のモダリティをどのように使用するかについての誤解を修正しました。音声認識の進歩により、2010年代には音声アシスタントと会話型インターフェースが広く普及しました。

Key figures

Richard A. Bolt
Sharon Oviatt
Philip R. Cohen
Michael McTear

Seminal works

bolt1980
oviatt1999
cohen1997

Frequently asked questions

マルチモーダルインタラクションは、単に複数の入力オプションを提供するだけのものでしょうか？: 厳密にはそうではありません。代替入力の提供は一つの利点ですが、真のマルチモーダルインタラクションはモダリティを一緒に解釈できるため、音声とポインティングジェスチャーが共同でコマンドを特定します。これにより、個別の独立した入力では不可能な方法で曖昧さを解消し、堅牢性を向上させることができます。
なぜ音声インターフェースは、一部の環境で依然として苦戦するのでしょうか？: 音声は、正確な音声認識と、曖昧な要求や文脈依存の要求の解決に依存しますが、これらは騒がしい環境やオープンエンドのタスクでは困難です。また、音声には画面のような永続的な視覚的フィードバックがないため、設計者は確認、エラー回復、およびシステムができることとできないことを慎重に管理する必要があります。