マルチモーダルおよび音声インタラクション
マルチモーダルインタラクションは、音声やジェスチャーなど、2つ以上の入力または出力チャネルを組み合わせるものであり、音声インタラクションはユーザーがシステムに話しかけることを可能にします。どちらも、コンピューターとのより自然で柔軟なコミュニケーションを目指しています。
Definition
マルチモーダルインタラクションとは、ユーザーが複数のモダリティを介してコミュニケーションを行い、システムがそれらを共同で解釈するインタラクションのことです。音声インタラクションとは、音声言語を介したインタラクションのことです。会話型インターフェースは、これをユーザーとシステム間の対話として構造化します。
Scope
このトピックは、音声ベースおよびマルチモーダルインターフェース、すなわち音声ユーザーインターフェースと会話型インタラクション、音声とポインティングやジェスチャーなどのモダリティの組み合わせ、複数の入力の融合と曖昧さの解消、およびこれらの設定におけるエラー、コンテキスト、フィードバックの設計上の問題について扱います。人工知能に属する基盤となる音声認識や自然言語アルゴリズム、およびタッチとジェスチャーのインタラクションで扱われるユニモーダルなタッチとジェスチャーについては扱いません。
Core questions
- 音声とジェスチャーなどのモダリティを組み合わせることで、インタラクションをどのように改善できるでしょうか?
- 音声および会話型インターフェースにはどのような利点と限界があるでしょうか?
- システムは異なるモダリティからの入力をどのように融合し、曖昧さを解消するのでしょうか?
- マルチモーダルおよび音声インターフェースは、エラーとコンテキストをどのように処理すべきでしょうか?
Key concepts
- 音声ユーザーインターフェース
- 会話型インターフェース
- マルチモーダル融合
- 相補的モダリティと冗長モダリティ
- 音声とジェスチャーの組み合わせ
- 対話とターンテーキング
- エラー回復
- コンテキストとグラウンディング
Key theories
- 音声とジェスチャーの組み合わせ
- ボルトの「Put-that-there」は、音声コマンドとポインティングを組み合わせることで、ユーザーが「そこにあれを置く」と指差しながら言うように、参照を自然に解決できることを示しました。これは相補的モダリティの初期の例です。
- マルチモーダルインタラクションの原則
- Oviattは、マルチモーダル使用に関する一般的な仮定に異議を唱え、ユーザーが単にモダリティ間で入力を複製するわけではないこと、そして相補的モダリティの適切に設計された融合が堅牢性と効率を向上させ得ることを示しました。
- 会話型インターフェース設計
- 会話型インターフェースは、インタラクションを対話としてモデル化し、ターンテーキング、グラウンディング、エラー回復、およびコンテキストの管理に注意を払うことで、音声またはテキストのやり取りが一貫性があり有用なものとなるようにします。
Clinical relevance
音声および会話型インターフェースは、スマートスピーカー、仮想アシスタント、車載システムを動かし、ハンズフリーおよびアイズフリーでの使用をサポートします。マルチモーダル設計は、従来の入力を使用できないユーザーを含め、システムをより堅牢でアクセスしやすいものにすることができますが、エラーやプライバシーに関する明確な考慮事項も生じさせます。
History
ボルトの1980年の「Put-that-there」システムは、音声とジェスチャーを組み合わせたインタラクションの先駆けとなりました。QuickSetなどのシステムを含む1990年代の研究では、マルチモーダル融合が開発され、Oviattの研究は、人々が複数のモダリティをどのように使用するかについての誤解を修正しました。音声認識の進歩により、2010年代には音声アシスタントと会話型インターフェースが広く普及しました。
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- マルチモーダルインタラクションは、単に複数の入力オプションを提供するだけのものでしょうか?
- 厳密にはそうではありません。代替入力の提供は一つの利点ですが、真のマルチモーダルインタラクションはモダリティを一緒に解釈できるため、音声とポインティングジェスチャーが共同でコマンドを特定します。これにより、個別の独立した入力では不可能な方法で曖昧さを解消し、堅牢性を向上させることができます。
- なぜ音声インターフェースは、一部の環境で依然として苦戦するのでしょうか?
- 音声は、正確な音声認識と、曖昧な要求や文脈依存の要求の解決に依存しますが、これらは騒がしい環境やオープンエンドのタスクでは困難です。また、音声には画面のような永続的な視覚的フィードバックがないため、設計者は確認、エラー回復、およびシステムができることとできないことを慎重に管理する必要があります。