Interaksi Multimodal dan Suara
Interaksi multimodal menggabungkan dua atau lebih saluran masukan atau keluaran, seperti ucapan dan gestur, sementara interaksi suara memungkinkan pengguna berbicara dengan sistem; keduanya bertujuan untuk komunikasi yang lebih alami dan fleksibel dengan komputer.
Definition
Interaksi multimodal adalah interaksi di mana pengguna berkomunikasi melalui lebih dari satu modalitas, dan sistem dapat menginterpretasikannya secara bersamaan; interaksi suara adalah interaksi melalui bahasa lisan; antarmuka percakapan menstrukturkan ini sebagai dialog antara pengguna dan sistem.
Scope
Topik ini mencakup antarmuka berbasis ucapan dan multimodal: antarmuka pengguna suara dan interaksi percakapan, kombinasi modalitas seperti ucapan dengan penunjuk atau gestur, fusi dan disambiguasi berbagai masukan, serta masalah desain kesalahan, konteks, dan umpan balik dalam pengaturan ini. Topik ini tidak mencakup algoritma pengenalan ucapan atau bahasa alami yang mendasari, yang termasuk dalam kecerdasan buatan, maupun sentuhan dan gestur unimodal, yang dibahas dalam interaksi sentuhan dan gestur.
Core questions
- Bagaimana penggabungan modalitas seperti ucapan dan gestur dapat meningkatkan interaksi?
- Apa keuntungan dan batasan yang dimiliki antarmuka suara dan percakapan?
- Bagaimana sistem menggabungkan dan menghilangkan ambiguitas masukan dari modalitas yang berbeda?
- Bagaimana antarmuka multimodal dan suara harus menangani kesalahan dan konteks?
Key concepts
- antarmuka pengguna suara
- antarmuka percakapan
- fusi multimodal
- modalitas komplementer vs redundan
- kombinasi ucapan dan gestur
- dialog dan pengambilan giliran
- pemulihan kesalahan
- konteks dan dasar
Key theories
- Menggabungkan suara dan gestur
- 'Put-that-there' Bolt menunjukkan bahwa menggabungkan perintah lisan dengan penunjuk memungkinkan pengguna menyelesaikan referensi secara alami, misalnya mengatakan 'taruh itu di sana' sambil menunjuk, sebuah ilustrasi awal modalitas komplementer.
- Prinsip-prinsip interaksi multimodal
- Oviatt menentang asumsi umum tentang penggunaan multimodal, menunjukkan bahwa pengguna tidak hanya menduplikasi masukan di berbagai modalitas dan bahwa fusi modalitas komplementer yang dirancang dengan baik dapat meningkatkan ketahanan dan efisiensi.
- Desain antarmuka percakapan
- Antarmuka percakapan memodelkan interaksi sebagai dialog, membutuhkan perhatian pada pengambilan giliran, dasar, pemulihan kesalahan, dan pengelolaan konteks sehingga pertukaran lisan atau teks tetap koheren dan berguna.
Clinical relevance
Antarmuka suara dan percakapan mendukung pengeras suara pintar, asisten virtual, dan sistem dalam mobil, mendukung penggunaan tanpa tangan dan tanpa mata; desain multimodal dapat membuat sistem lebih kuat dan mudah diakses, termasuk bagi pengguna yang tidak dapat menggunakan masukan konvensional, meskipun hal ini menimbulkan pertimbangan kesalahan dan privasi yang berbeda.
History
Sistem 'Put-that-there' Bolt pada tahun 1980 memelopori kombinasi interaksi suara dan gestur. Penelitian sepanjang tahun 1990-an, termasuk sistem seperti QuickSet, mengembangkan fusi multimodal, dan karya Oviatt mengoreksi kesalahpahaman tentang bagaimana orang menggunakan berbagai modalitas. Kemajuan dalam pengenalan ucapan menyebabkan meluasnya asisten suara dan antarmuka percakapan pada tahun 2010-an.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- Apakah interaksi multimodal hanya menawarkan beberapa opsi masukan?
- Tidak persis. Menawarkan masukan alternatif adalah salah satu manfaat, tetapi interaksi multimodal yang sebenarnya dapat menginterpretasikan modalitas secara bersamaan, sehingga ucapan dan gestur menunjuk secara bersama-sama menentukan perintah. Ini dapat menyelesaikan ambiguitas dan meningkatkan ketahanan dengan cara yang tidak dapat dilakukan oleh masukan terpisah dan independen.
- Mengapa antarmuka suara masih kesulitan dalam beberapa pengaturan?
- Suara bergantung pada pengenalan ucapan yang akurat dan pada penyelesaian permintaan yang ambigu atau bergantung pada konteks, yang sulit dalam lingkungan yang bising atau tugas yang tidak terbatas. Suara juga tidak memiliki umpan balik visual yang persisten seperti layar, sehingga desainer harus hati-hati mengelola konfirmasi, pemulihan kesalahan, dan apa yang dapat dan tidak dapat dilakukan sistem.