Tương tác đa phương thức và tương tác bằng giọng nói
Tương tác đa phương thức kết hợp hai hoặc nhiều kênh đầu vào hoặc đầu ra, chẳng hạn như lời nói và cử chỉ, trong khi tương tác bằng giọng nói cho phép người dùng nói chuyện với hệ thống; cả hai đều hướng tới giao tiếp tự nhiên và linh hoạt hơn với máy tính.
Definition
Tương tác đa phương thức là tương tác trong đó người dùng giao tiếp thông qua nhiều hơn một phương thức, và hệ thống có thể diễn giải chúng cùng nhau; tương tác bằng giọng nói là tương tác thông qua ngôn ngữ nói; các giao diện hội thoại cấu trúc điều này như một cuộc đối thoại giữa người dùng và hệ thống.
Scope
Chủ đề này bao gồm các giao diện dựa trên lời nói và đa phương thức: giao diện người dùng bằng giọng nói và tương tác hội thoại, sự kết hợp các phương thức như lời nói với chỉ trỏ hoặc cử chỉ, sự kết hợp và loại bỏ sự mơ hồ của nhiều đầu vào, và các vấn đề thiết kế về lỗi, ngữ cảnh và phản hồi trong các cài đặt này. Nó không bao gồm các thuật toán nhận dạng giọng nói hoặc xử lý ngôn ngữ tự nhiên cơ bản, thuộc lĩnh vực trí tuệ nhân tạo, cũng như tương tác chạm và cử chỉ đơn phương thức, được xử lý trong tương tác chạm và cử chỉ.
Core questions
- Làm thế nào việc kết hợp các phương thức như lời nói và cử chỉ có thể cải thiện tương tác?
- Các giao diện giọng nói và hội thoại có những ưu điểm và hạn chế nào?
- Làm thế nào một hệ thống kết hợp và loại bỏ sự mơ hồ của các đầu vào từ các phương thức khác nhau?
- Các giao diện đa phương thức và giọng nói nên xử lý lỗi và ngữ cảnh như thế nào?
Key concepts
- giao diện người dùng bằng giọng nói
- giao diện hội thoại
- kết hợp đa phương thức
- các phương thức bổ sung so với dư thừa
- kết hợp lời nói và cử chỉ
- đối thoại và luân phiên
- phục hồi lỗi
- ngữ cảnh và nền tảng
Key theories
- Kết hợp giọng nói và cử chỉ
- 'Put-that-there' của Bolt đã chứng minh rằng việc kết hợp các lệnh nói với chỉ trỏ cho phép người dùng giải quyết các tham chiếu một cách tự nhiên, ví dụ như nói 'đặt cái đó ở đó' trong khi chỉ tay, một minh họa ban đầu về các phương thức bổ sung.
- Các nguyên tắc tương tác đa phương thức
- Oviatt đã phản bác các giả định phổ biến về việc sử dụng đa phương thức, cho thấy rằng người dùng không chỉ đơn thuần sao chép đầu vào trên các phương thức và rằng sự kết hợp được thiết kế tốt của các phương thức bổ sung có thể cải thiện độ mạnh mẽ và hiệu quả.
- Thiết kế giao diện hội thoại
- Các giao diện hội thoại mô hình hóa tương tác như đối thoại, đòi hỏi sự chú ý đến việc luân phiên, nền tảng, phục hồi lỗi và quản lý ngữ cảnh để các cuộc trao đổi bằng lời nói hoặc văn bản vẫn mạch lạc và hữu ích.
Clinical relevance
Các giao diện giọng nói và hội thoại cung cấp năng lượng cho loa thông minh, trợ lý ảo và hệ thống trong xe hơi, hỗ trợ sử dụng rảnh tay và không cần nhìn; các thiết kế đa phương thức có thể làm cho hệ thống mạnh mẽ và dễ tiếp cận hơn, bao gồm cả đối với người dùng không thể sử dụng đầu vào thông thường, mặc dù chúng đặt ra những cân nhắc riêng biệt về lỗi và quyền riêng tư.
History
Hệ thống 'Put-that-there' năm 1980 của Bolt đã tiên phong trong việc kết hợp tương tác giọng nói và cử chỉ. Nghiên cứu trong suốt những năm 1990, bao gồm các hệ thống như QuickSet, đã phát triển sự kết hợp đa phương thức, và công trình của Oviatt đã sửa chữa những quan niệm sai lầm về cách mọi người sử dụng nhiều phương thức. Những tiến bộ trong nhận dạng giọng nói đã dẫn đến sự phổ biến rộng rãi của trợ lý giọng nói và giao diện hội thoại vào những năm 2010.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- Tương tác đa phương thức có phải chỉ là cung cấp một số tùy chọn đầu vào không?
- Không hẳn. Cung cấp các đầu vào thay thế là một lợi ích, nhưng tương tác đa phương thức thực sự có thể diễn giải các phương thức cùng nhau, vì vậy lời nói và cử chỉ chỉ trỏ cùng nhau chỉ định một lệnh. Điều này có thể giải quyết sự mơ hồ và cải thiện độ mạnh mẽ theo những cách mà các đầu vào riêng biệt, độc lập không thể.
- Tại sao các giao diện giọng nói vẫn gặp khó khăn trong một số cài đặt?
- Giọng nói phụ thuộc vào nhận dạng giọng nói chính xác và vào việc giải quyết các yêu cầu mơ hồ hoặc phụ thuộc vào ngữ cảnh, điều này khó khăn trong môi trường ồn ào hoặc các tác vụ mở. Giọng nói cũng thiếu phản hồi trực quan liên tục của màn hình, vì vậy các nhà thiết kế phải quản lý cẩn thận việc xác nhận, phục hồi lỗi và những gì hệ thống có thể và không thể làm.