ปฏิสัมพันธ์หลายรูปแบบและปฏิสัมพันธ์ด้วยเสียง
ปฏิสัมพันธ์หลายรูปแบบเป็นการรวมช่องทางการนำเข้าหรือส่งออกตั้งแต่สองช่องทางขึ้นไป เช่น เสียงพูดและท่าทาง ในขณะที่ปฏิสัมพันธ์ด้วยเสียงช่วยให้ผู้ใช้สามารถพูดคุยกับระบบได้ ทั้งสองมีเป้าหมายเพื่อการสื่อสารกับคอมพิวเตอร์ที่เป็นธรรมชาติและยืดหยุ่นมากขึ้น
Definition
ปฏิสัมพันธ์หลายรูปแบบคือปฏิสัมพันธ์ที่ผู้ใช้สื่อสารผ่านรูปแบบมากกว่าหนึ่งรูปแบบ และระบบอาจตีความร่วมกัน ปฏิสัมพันธ์ด้วยเสียงคือปฏิสัมพันธ์ผ่านภาษาพูด อินเทอร์เฟซเชิงสนทนาจะจัดโครงสร้างสิ่งนี้เป็นการสนทนาระหว่างผู้ใช้และระบบ
Scope
หัวข้อนี้ครอบคลุมอินเทอร์เฟซที่ใช้เสียงพูดและอินเทอร์เฟซหลายรูปแบบ: อินเทอร์เฟซผู้ใช้ด้วยเสียงและการปฏิสัมพันธ์เชิงสนทนา การรวมรูปแบบต่างๆ เช่น เสียงพูดกับการชี้หรือท่าทาง การหลอมรวมและการขจัดความกำกวมของข้อมูลนำเข้าหลายรายการ และประเด็นการออกแบบเกี่ยวกับข้อผิดพลาด บริบท และการตอบสนองในการตั้งค่าเหล่านี้ ไม่ครอบคลุมถึงอัลกอริทึมการรู้จำเสียงพูดหรือภาษาธรรมชาติ ซึ่งจัดอยู่ในสาขาปัญญาประดิษฐ์ และไม่ครอบคลุมถึงการสัมผัสและท่าทางแบบโมดอลเดียว ซึ่งจะกล่าวถึงภายใต้ปฏิสัมพันธ์การสัมผัสและท่าทาง
Core questions
- การรวมรูปแบบต่างๆ เช่น เสียงพูดและท่าทาง สามารถปรับปรุงปฏิสัมพันธ์ได้อย่างไร?
- อินเทอร์เฟซเสียงและอินเทอร์เฟซเชิงสนทนามีข้อดีและข้อจำกัดอะไรบ้าง?
- ระบบจะหลอมรวมและขจัดความกำกวมของข้อมูลนำเข้าจากรูปแบบต่างๆ ได้อย่างไร?
- อินเทอร์เฟซหลายรูปแบบและอินเทอร์เฟซเสียงควรจัดการกับข้อผิดพลาดและบริบทอย่างไร?
Key concepts
- อินเทอร์เฟซผู้ใช้ด้วยเสียง
- อินเทอร์เฟซเชิงสนทนา
- การหลอมรวมหลายรูปแบบ
- รูปแบบเสริมเทียบกับรูปแบบซ้ำซ้อน
- การรวมเสียงพูดและท่าทาง
- บทสนทนาและการผลัดกันพูด
- การกู้คืนข้อผิดพลาด
- บริบทและการอ้างอิง
Key theories
- การรวมเสียงพูดและท่าทาง
- ระบบ 'Put-that-there' ของ Bolt แสดงให้เห็นว่าการรวมคำสั่งเสียงกับการชี้ช่วยให้ผู้ใช้สามารถแก้ไขการอ้างอิงได้อย่างเป็นธรรมชาติ เช่น การพูดว่า 'วางตรงนั้น' พร้อมกับการชี้ ซึ่งเป็นตัวอย่างแรกเริ่มของรูปแบบเสริม
- หลักการของปฏิสัมพันธ์หลายรูปแบบ
- Oviatt โต้แย้งข้อสันนิษฐานทั่วไปเกี่ยวกับการใช้หลายรูปแบบ โดยแสดงให้เห็นว่าผู้ใช้ไม่ได้เพียงแค่ทำซ้ำข้อมูลนำเข้าในรูปแบบต่างๆ และการหลอมรวมรูปแบบเสริมที่ออกแบบมาอย่างดีสามารถปรับปรุงความทนทานและประสิทธิภาพได้
- การออกแบบอินเทอร์เฟซเชิงสนทนา
- อินเทอร์เฟซเชิงสนทนาจำลองปฏิสัมพันธ์เป็นบทสนทนา ซึ่งต้องให้ความสนใจกับการผลัดกันพูด การอ้างอิง การกู้คืนข้อผิดพลาด และการจัดการบริบท เพื่อให้การแลกเปลี่ยนด้วยเสียงพูดหรือข้อความยังคงสอดคล้องกันและมีประโยชน์
Clinical relevance
อินเทอร์เฟซเสียงและอินเทอร์เฟซเชิงสนทนาขับเคลื่อนลำโพงอัจฉริยะ ผู้ช่วยเสมือน และระบบในรถยนต์ ซึ่งรองรับการใช้งานแบบแฮนด์ฟรีและไม่ต้องใช้สายตา การออกแบบหลายรูปแบบสามารถทำให้ระบบมีความทนทานและเข้าถึงได้มากขึ้น รวมถึงสำหรับผู้ใช้ที่ไม่สามารถใช้อินพุตทั่วไปได้ แม้ว่าจะก่อให้เกิดข้อผิดพลาดและข้อควรพิจารณาด้านความเป็นส่วนตัวที่แตกต่างกัน
History
ระบบ 'Put-that-there' ของ Bolt ในปี 1980 เป็นผู้บุกเบิกการรวมปฏิสัมพันธ์ด้วยเสียงและท่าทาง การวิจัยตลอดทศวรรษ 1990 รวมถึงระบบต่างๆ เช่น QuickSet ได้พัฒนาการหลอมรวมหลายรูปแบบ และงานของ Oviatt ได้แก้ไขความเข้าใจผิดเกี่ยวกับวิธีที่ผู้คนใช้รูปแบบต่างๆ ความก้าวหน้าในการรู้จำเสียงพูดนำไปสู่ผู้ช่วยเสียงและอินเทอร์เฟซเชิงสนทนาที่แพร่หลายในทศวรรษ 2010
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- ปฏิสัมพันธ์หลายรูปแบบเป็นเพียงการเสนอทางเลือกในการป้อนข้อมูลหลายอย่างใช่หรือไม่?
- ไม่เชิงทีเดียว การเสนอทางเลือกในการป้อนข้อมูลเป็นประโยชน์อย่างหนึ่ง แต่ปฏิสัมพันธ์หลายรูปแบบที่แท้จริงสามารถตีความรูปแบบต่างๆ ร่วมกันได้ ดังนั้นเสียงพูดและท่าทางการชี้จะระบุคำสั่งร่วมกัน สิ่งนี้สามารถแก้ไขความกำกวมและปรับปรุงความทนทานในลักษณะที่ข้อมูลนำเข้าที่แยกจากกันและเป็นอิสระไม่สามารถทำได้
- เหตุใดอินเทอร์เฟซเสียงจึงยังคงประสบปัญหาในบางสถานการณ์?
- เสียงขึ้นอยู่กับการรู้จำเสียงพูดที่แม่นยำและการแก้ไขคำขอที่กำกวมหรือขึ้นอยู่กับบริบท ซึ่งเป็นเรื่องยากในสภาพแวดล้อมที่มีเสียงดังหรืองานที่เปิดกว้าง เสียงยังขาดการตอบสนองทางสายตาที่ต่อเนื่องของหน้าจอ ดังนั้นนักออกแบบจึงต้องจัดการการยืนยัน การกู้คืนข้อผิดพลาด และสิ่งที่ระบบทำได้และทำไม่ได้อย่างรอบคอบ