การประเมินผู้ใช้และออนไลน์
การประเมินผู้ใช้และออนไลน์เป็นการวัดคุณภาพการดึงข้อมูลผ่านการโต้ตอบของผู้ใช้จริงหรือจำลอง โดยใช้การศึกษา ข้อมูลการคลิก การทดสอบ A/B และการสลับลำดับ (interleaving) แทนการตัดสินความเกี่ยวข้องที่ตายตัว
Definition
การประเมินผู้ใช้และออนไลน์ประกอบด้วยวิธีการที่ประเมินระบบการดึงข้อมูลผ่านการโต้ตอบของผู้ใช้ ตั้งแต่การศึกษาในห้องปฏิบัติการที่มีการควบคุมเกี่ยวกับประสิทธิภาพของงานและความพึงพอใจ ไปจนถึงการทดลองออนไลน์ขนาดใหญ่ เช่น การทดสอบ A/B และการสลับลำดับ ที่เปรียบเทียบระบบโดยการสังเกตพฤติกรรมของผู้ใช้จริง
Scope
หัวข้อนี้ครอบคลุมการประเมินที่เน้นผู้ใช้และพฤติกรรมของพวกเขา: การศึกษาผู้ใช้แบบโต้ตอบเกี่ยวกับความสำเร็จของงานและความพึงพอใจ การใช้สัญญาณโดยนัย เช่น การคลิกและเวลาที่ใช้บนหน้าเว็บ โมเดลการคลิกที่ตีความพฤติกรรม และการทดลองออนไลน์ที่มีการควบคุม รวมถึงการทดสอบ A/B และการสลับลำดับ โดยจะกล่าวถึงวิธีการวัดประโยชน์ของผู้ใช้จริง อคติของสัญญาณพฤติกรรม และการออกแบบและการวิเคราะห์การทดลองออนไลน์ ซึ่งเสริมการประเมินชุดทดสอบแบบออฟไลน์ที่ครอบคลุมในหัวข้อที่เกี่ยวข้อง
Core questions
- จะวัดความพึงพอใจของผู้ใช้จริงและความสำเร็จของงานได้อย่างไร แทนที่จะวัดเพียงความเกี่ยวข้องกับการตัดสิน?
- ผู้ใช้ให้สัญญาณโดยนัยอะไรบ้าง และสัญญาณเหล่านั้นน่าเชื่อถือเพียงใด?
- โมเดลการคลิกอธิบายอคติของตำแหน่งและการนำเสนอได้อย่างไร?
- การทดสอบ A/B และการสลับลำดับเปรียบเทียบระบบออนไลน์ได้อย่างไร?
- เหตุใดการสลับลำดับจึงมักมีความไวมากกว่าการทดสอบ A/B สำหรับการเปรียบเทียบการจัดอันดับ?
Key concepts
- การศึกษาผู้ใช้แบบโต้ตอบ
- ความสำเร็จของงานและความพึงพอใจ
- ข้อเสนอแนะโดยนัย (การคลิก, เวลาที่ใช้บนหน้าเว็บ)
- โมเดลการคลิก (ตำแหน่ง, cascade)
- อคติของตำแหน่งและการนำเสนอ
- การทดสอบ A/B
- การสลับลำดับ
- เมตริกออนไลน์และความไว
Key theories
- ข้อเสนอแนะโดยนัยและโมเดลการคลิก
- การคลิกของผู้ใช้และการโต้ตอบอื่นๆ ให้สัญญาณความเกี่ยวข้องที่มากมายแต่มีอคติ โมเดลการคลิก เช่น โมเดลตำแหน่งและ cascade จะกำหนดรูปแบบว่าผู้ใช้ตรวจสอบผลลัพธ์อย่างไร เพื่อให้สามารถตีความการคลิกเป็นหลักฐานของความเกี่ยวข้องได้
- การทดลองออนไลน์ที่มีการควบคุม
- การทดสอบ A/B จะสุ่มกำหนดผู้ใช้ให้กับระบบที่แตกต่างกันและเปรียบเทียบเมตริกผลลัพธ์ ในขณะที่การสลับลำดับจะรวมการจัดอันดับสองรายการเข้าเป็นรายการเดียวที่แสดงให้ผู้ใช้แต่ละคน และระบุการคลิกไปยังระบบใดก็ตามที่ส่งผลให้เกิดการคลิกนั้น ซึ่งมักจะให้การเปรียบเทียบคุณภาพการจัดอันดับภายในผู้ใช้ที่มีความไวมากกว่า
Clinical relevance
การประเมินออนไลน์เป็นวิธีหลักที่ระบบการค้นหา ระบบแนะนำ และระบบอีคอมเมิร์ซขนาดใหญ่ใช้ในการตัดสินใจว่าจะนำการเปลี่ยนแปลงใดไปใช้ เนื่องจากเป็นการวัดผลกระทบต่อผู้ใช้จริง การทดสอบ A/B และการสลับลำดับ ซึ่งตีความผ่านโมเดลการคลิกที่แก้ไขอคติ จะช่วยขับเคลื่อนการปรับปรุงอย่างต่อเนื่องของการจัดอันดับในการผลิตในวงกว้าง
History
การประเมิน IR ที่เน้นผู้ใช้ได้ศึกษาพฤติกรรมการค้นหาแบบโต้ตอบมานานแล้ว แต่การเพิ่มขึ้นของการค้นหาบนเว็บทำให้การประเมินออนไลน์ขนาดใหญ่เป็นไปได้ งานของ Joachims ในปี 2002 ได้กำหนดให้ข้อมูลการคลิกผ่านเป็นสัญญาณความเกี่ยวข้องและแนะนำการสลับลำดับ การทดลองบนเว็บที่มีการควบคุมได้พัฒนาในอุตสาหกรรมตลอดช่วงปี 2000 และการสำรวจในปี 2016 ได้รวบรวมวิธีการประเมินออนไลน์
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- การสลับลำดับคืออะไรและเหตุใดจึงถูกนำมาใช้?
- การสลับลำดับเป็นการรวมผลลัพธ์จากระบบการจัดอันดับสองระบบเข้าเป็นรายการเดียวที่แสดงให้ผู้ใช้แต่ละคน และระบุการคลิกไปยังระบบใดก็ตามที่ส่งผลให้เกิดการคลิกนั้น เนื่องจากผู้ใช้แต่ละคนเปรียบเทียบทั้งสองระบบพร้อมกัน การสลับลำดับจึงมักมีความไวมากกว่าการทดสอบ A/B ในการตรวจจับการปรับปรุงการจัดอันดับ
- เหตุใดจึงไม่สามารถตีความการคลิกตามมูลค่าที่แท้จริงว่าเป็นความเกี่ยวข้องได้?
- ผู้ใช้มักจะคลิกผลลัพธ์ที่จัดอันดับสูงกว่าโดยไม่คำนึงถึงความเกี่ยวข้องที่แท้จริง (อคติของตำแหน่ง) และได้รับอิทธิพลจากวิธีการนำเสนอผลลัพธ์ โมเดลการคลิกจะแก้ไขอคติเหล่านี้เพื่อให้สามารถตีความการคลิกเป็นหลักฐานของความเกี่ยวข้องที่น่าเชื่อถือมากขึ้น