Apakah interaksi multimodal hanya menawarkan beberapa opsi masukan?

Tidak persis. Menawarkan masukan alternatif adalah salah satu manfaat, tetapi interaksi multimodal yang sebenarnya dapat menginterpretasikan modalitas secara bersamaan, sehingga ucapan dan gestur menunjuk secara bersama-sama menentukan perintah. Ini dapat menyelesaikan ambiguitas dan meningkatkan ketahanan dengan cara yang tidak dapat dilakukan oleh masukan terpisah dan independen.

Mengapa antarmuka suara masih kesulitan dalam beberapa pengaturan?

Suara bergantung pada pengenalan ucapan yang akurat dan pada penyelesaian permintaan yang ambigu atau bergantung pada konteks, yang sulit dalam lingkungan yang bising atau tugas yang tidak terbatas. Suara juga tidak memiliki umpan balik visual yang persisten seperti layar, sehingga desainer harus hati-hati mengelola konfirmasi, pemulihan kesalahan, dan apa yang dapat dan tidak dapat dilakukan sistem.

Interaksi Multimodal dan Suara

Interaksi multimodal menggabungkan dua atau lebih saluran masukan atau keluaran, seperti ucapan dan gestur, sementara interaksi suara memungkinkan pengguna berbicara dengan sistem; keduanya bertujuan untuk komunikasi yang lebih alami dan fleksibel dengan komputer.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Interaksi multimodal adalah interaksi di mana pengguna berkomunikasi melalui lebih dari satu modalitas, dan sistem dapat menginterpretasikannya secara bersamaan; interaksi suara adalah interaksi melalui bahasa lisan; antarmuka percakapan menstrukturkan ini sebagai dialog antara pengguna dan sistem.

Scope

Topik ini mencakup antarmuka berbasis ucapan dan multimodal: antarmuka pengguna suara dan interaksi percakapan, kombinasi modalitas seperti ucapan dengan penunjuk atau gestur, fusi dan disambiguasi berbagai masukan, serta masalah desain kesalahan, konteks, dan umpan balik dalam pengaturan ini. Topik ini tidak mencakup algoritma pengenalan ucapan atau bahasa alami yang mendasari, yang termasuk dalam kecerdasan buatan, maupun sentuhan dan gestur unimodal, yang dibahas dalam interaksi sentuhan dan gestur.

Core questions

Bagaimana penggabungan modalitas seperti ucapan dan gestur dapat meningkatkan interaksi?
Apa keuntungan dan batasan yang dimiliki antarmuka suara dan percakapan?
Bagaimana sistem menggabungkan dan menghilangkan ambiguitas masukan dari modalitas yang berbeda?
Bagaimana antarmuka multimodal dan suara harus menangani kesalahan dan konteks?

Key concepts

antarmuka pengguna suara
antarmuka percakapan
fusi multimodal
modalitas komplementer vs redundan
kombinasi ucapan dan gestur
dialog dan pengambilan giliran
pemulihan kesalahan
konteks dan dasar

Key theories

Menggabungkan suara dan gestur: 'Put-that-there' Bolt menunjukkan bahwa menggabungkan perintah lisan dengan penunjuk memungkinkan pengguna menyelesaikan referensi secara alami, misalnya mengatakan 'taruh itu di sana' sambil menunjuk, sebuah ilustrasi awal modalitas komplementer.
Prinsip-prinsip interaksi multimodal: Oviatt menentang asumsi umum tentang penggunaan multimodal, menunjukkan bahwa pengguna tidak hanya menduplikasi masukan di berbagai modalitas dan bahwa fusi modalitas komplementer yang dirancang dengan baik dapat meningkatkan ketahanan dan efisiensi.
Desain antarmuka percakapan: Antarmuka percakapan memodelkan interaksi sebagai dialog, membutuhkan perhatian pada pengambilan giliran, dasar, pemulihan kesalahan, dan pengelolaan konteks sehingga pertukaran lisan atau teks tetap koheren dan berguna.

Clinical relevance

Antarmuka suara dan percakapan mendukung pengeras suara pintar, asisten virtual, dan sistem dalam mobil, mendukung penggunaan tanpa tangan dan tanpa mata; desain multimodal dapat membuat sistem lebih kuat dan mudah diakses, termasuk bagi pengguna yang tidak dapat menggunakan masukan konvensional, meskipun hal ini menimbulkan pertimbangan kesalahan dan privasi yang berbeda.

History

Sistem 'Put-that-there' Bolt pada tahun 1980 memelopori kombinasi interaksi suara dan gestur. Penelitian sepanjang tahun 1990-an, termasuk sistem seperti QuickSet, mengembangkan fusi multimodal, dan karya Oviatt mengoreksi kesalahpahaman tentang bagaimana orang menggunakan berbagai modalitas. Kemajuan dalam pengenalan ucapan menyebabkan meluasnya asisten suara dan antarmuka percakapan pada tahun 2010-an.

Key figures

Richard A. Bolt
Sharon Oviatt
Philip R. Cohen
Michael McTear

Seminal works

bolt1980
oviatt1999
cohen1997

Frequently asked questions

Apakah interaksi multimodal hanya menawarkan beberapa opsi masukan?: Tidak persis. Menawarkan masukan alternatif adalah salah satu manfaat, tetapi interaksi multimodal yang sebenarnya dapat menginterpretasikan modalitas secara bersamaan, sehingga ucapan dan gestur menunjuk secara bersama-sama menentukan perintah. Ini dapat menyelesaikan ambiguitas dan meningkatkan ketahanan dengan cara yang tidak dapat dilakukan oleh masukan terpisah dan independen.
Mengapa antarmuka suara masih kesulitan dalam beberapa pengaturan?: Suara bergantung pada pengenalan ucapan yang akurat dan pada penyelesaian permintaan yang ambigu atau bergantung pada konteks, yang sulit dalam lingkungan yang bising atau tugas yang tidak terbatas. Suara juga tidak memiliki umpan balik visual yang persisten seperti layar, sehingga desainer harus hati-hati mengelola konfirmasi, pemulihan kesalahan, dan apa yang dapat dan tidak dapat dilakukan sistem.