ปฏิสัมพันธ์หลายรูปแบบเป็นเพียงการเสนอทางเลือกในการป้อนข้อมูลหลายอย่างใช่หรือไม่?

ไม่เชิงทีเดียว การเสนอทางเลือกในการป้อนข้อมูลเป็นประโยชน์อย่างหนึ่ง แต่ปฏิสัมพันธ์หลายรูปแบบที่แท้จริงสามารถตีความรูปแบบต่างๆ ร่วมกันได้ ดังนั้นเสียงพูดและท่าทางการชี้จะระบุคำสั่งร่วมกัน สิ่งนี้สามารถแก้ไขความกำกวมและปรับปรุงความทนทานในลักษณะที่ข้อมูลนำเข้าที่แยกจากกันและเป็นอิสระไม่สามารถทำได้

เหตุใดอินเทอร์เฟซเสียงจึงยังคงประสบปัญหาในบางสถานการณ์?

เสียงขึ้นอยู่กับการรู้จำเสียงพูดที่แม่นยำและการแก้ไขคำขอที่กำกวมหรือขึ้นอยู่กับบริบท ซึ่งเป็นเรื่องยากในสภาพแวดล้อมที่มีเสียงดังหรืองานที่เปิดกว้าง เสียงยังขาดการตอบสนองทางสายตาที่ต่อเนื่องของหน้าจอ ดังนั้นนักออกแบบจึงต้องจัดการการยืนยัน การกู้คืนข้อผิดพลาด และสิ่งที่ระบบทำได้และทำไม่ได้อย่างรอบคอบ

ปฏิสัมพันธ์หลายรูปแบบและปฏิสัมพันธ์ด้วยเสียง

ปฏิสัมพันธ์หลายรูปแบบเป็นการรวมช่องทางการนำเข้าหรือส่งออกตั้งแต่สองช่องทางขึ้นไป เช่น เสียงพูดและท่าทาง ในขณะที่ปฏิสัมพันธ์ด้วยเสียงช่วยให้ผู้ใช้สามารถพูดคุยกับระบบได้ ทั้งสองมีเป้าหมายเพื่อการสื่อสารกับคอมพิวเตอร์ที่เป็นธรรมชาติและยืดหยุ่นมากขึ้น

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

ปฏิสัมพันธ์หลายรูปแบบคือปฏิสัมพันธ์ที่ผู้ใช้สื่อสารผ่านรูปแบบมากกว่าหนึ่งรูปแบบ และระบบอาจตีความร่วมกัน ปฏิสัมพันธ์ด้วยเสียงคือปฏิสัมพันธ์ผ่านภาษาพูด อินเทอร์เฟซเชิงสนทนาจะจัดโครงสร้างสิ่งนี้เป็นการสนทนาระหว่างผู้ใช้และระบบ

Scope

หัวข้อนี้ครอบคลุมอินเทอร์เฟซที่ใช้เสียงพูดและอินเทอร์เฟซหลายรูปแบบ: อินเทอร์เฟซผู้ใช้ด้วยเสียงและการปฏิสัมพันธ์เชิงสนทนา การรวมรูปแบบต่างๆ เช่น เสียงพูดกับการชี้หรือท่าทาง การหลอมรวมและการขจัดความกำกวมของข้อมูลนำเข้าหลายรายการ และประเด็นการออกแบบเกี่ยวกับข้อผิดพลาด บริบท และการตอบสนองในการตั้งค่าเหล่านี้ ไม่ครอบคลุมถึงอัลกอริทึมการรู้จำเสียงพูดหรือภาษาธรรมชาติ ซึ่งจัดอยู่ในสาขาปัญญาประดิษฐ์ และไม่ครอบคลุมถึงการสัมผัสและท่าทางแบบโมดอลเดียว ซึ่งจะกล่าวถึงภายใต้ปฏิสัมพันธ์การสัมผัสและท่าทาง

Core questions

การรวมรูปแบบต่างๆ เช่น เสียงพูดและท่าทาง สามารถปรับปรุงปฏิสัมพันธ์ได้อย่างไร?
อินเทอร์เฟซเสียงและอินเทอร์เฟซเชิงสนทนามีข้อดีและข้อจำกัดอะไรบ้าง?
ระบบจะหลอมรวมและขจัดความกำกวมของข้อมูลนำเข้าจากรูปแบบต่างๆ ได้อย่างไร?
อินเทอร์เฟซหลายรูปแบบและอินเทอร์เฟซเสียงควรจัดการกับข้อผิดพลาดและบริบทอย่างไร?

Key concepts

อินเทอร์เฟซผู้ใช้ด้วยเสียง
อินเทอร์เฟซเชิงสนทนา
การหลอมรวมหลายรูปแบบ
รูปแบบเสริมเทียบกับรูปแบบซ้ำซ้อน
การรวมเสียงพูดและท่าทาง
บทสนทนาและการผลัดกันพูด
การกู้คืนข้อผิดพลาด
บริบทและการอ้างอิง

Key theories

การรวมเสียงพูดและท่าทาง: ระบบ 'Put-that-there' ของ Bolt แสดงให้เห็นว่าการรวมคำสั่งเสียงกับการชี้ช่วยให้ผู้ใช้สามารถแก้ไขการอ้างอิงได้อย่างเป็นธรรมชาติ เช่น การพูดว่า 'วางตรงนั้น' พร้อมกับการชี้ ซึ่งเป็นตัวอย่างแรกเริ่มของรูปแบบเสริม
หลักการของปฏิสัมพันธ์หลายรูปแบบ: Oviatt โต้แย้งข้อสันนิษฐานทั่วไปเกี่ยวกับการใช้หลายรูปแบบ โดยแสดงให้เห็นว่าผู้ใช้ไม่ได้เพียงแค่ทำซ้ำข้อมูลนำเข้าในรูปแบบต่างๆ และการหลอมรวมรูปแบบเสริมที่ออกแบบมาอย่างดีสามารถปรับปรุงความทนทานและประสิทธิภาพได้
การออกแบบอินเทอร์เฟซเชิงสนทนา: อินเทอร์เฟซเชิงสนทนาจำลองปฏิสัมพันธ์เป็นบทสนทนา ซึ่งต้องให้ความสนใจกับการผลัดกันพูด การอ้างอิง การกู้คืนข้อผิดพลาด และการจัดการบริบท เพื่อให้การแลกเปลี่ยนด้วยเสียงพูดหรือข้อความยังคงสอดคล้องกันและมีประโยชน์

Clinical relevance

อินเทอร์เฟซเสียงและอินเทอร์เฟซเชิงสนทนาขับเคลื่อนลำโพงอัจฉริยะ ผู้ช่วยเสมือน และระบบในรถยนต์ ซึ่งรองรับการใช้งานแบบแฮนด์ฟรีและไม่ต้องใช้สายตา การออกแบบหลายรูปแบบสามารถทำให้ระบบมีความทนทานและเข้าถึงได้มากขึ้น รวมถึงสำหรับผู้ใช้ที่ไม่สามารถใช้อินพุตทั่วไปได้ แม้ว่าจะก่อให้เกิดข้อผิดพลาดและข้อควรพิจารณาด้านความเป็นส่วนตัวที่แตกต่างกัน

History

ระบบ 'Put-that-there' ของ Bolt ในปี 1980 เป็นผู้บุกเบิกการรวมปฏิสัมพันธ์ด้วยเสียงและท่าทาง การวิจัยตลอดทศวรรษ 1990 รวมถึงระบบต่างๆ เช่น QuickSet ได้พัฒนาการหลอมรวมหลายรูปแบบ และงานของ Oviatt ได้แก้ไขความเข้าใจผิดเกี่ยวกับวิธีที่ผู้คนใช้รูปแบบต่างๆ ความก้าวหน้าในการรู้จำเสียงพูดนำไปสู่ผู้ช่วยเสียงและอินเทอร์เฟซเชิงสนทนาที่แพร่หลายในทศวรรษ 2010

Key figures

Richard A. Bolt
Sharon Oviatt
Philip R. Cohen
Michael McTear

Seminal works

bolt1980
oviatt1999
cohen1997

Frequently asked questions

ปฏิสัมพันธ์หลายรูปแบบเป็นเพียงการเสนอทางเลือกในการป้อนข้อมูลหลายอย่างใช่หรือไม่?: ไม่เชิงทีเดียว การเสนอทางเลือกในการป้อนข้อมูลเป็นประโยชน์อย่างหนึ่ง แต่ปฏิสัมพันธ์หลายรูปแบบที่แท้จริงสามารถตีความรูปแบบต่างๆ ร่วมกันได้ ดังนั้นเสียงพูดและท่าทางการชี้จะระบุคำสั่งร่วมกัน สิ่งนี้สามารถแก้ไขความกำกวมและปรับปรุงความทนทานในลักษณะที่ข้อมูลนำเข้าที่แยกจากกันและเป็นอิสระไม่สามารถทำได้
เหตุใดอินเทอร์เฟซเสียงจึงยังคงประสบปัญหาในบางสถานการณ์?: เสียงขึ้นอยู่กับการรู้จำเสียงพูดที่แม่นยำและการแก้ไขคำขอที่กำกวมหรือขึ้นอยู่กับบริบท ซึ่งเป็นเรื่องยากในสภาพแวดล้อมที่มีเสียงดังหรืองานที่เปิดกว้าง เสียงยังขาดการตอบสนองทางสายตาที่ต่อเนื่องของหน้าจอ ดังนั้นนักออกแบบจึงต้องจัดการการยืนยัน การกู้คืนข้อผิดพลาด และสิ่งที่ระบบทำได้และทำไม่ได้อย่างรอบคอบ