ความแตกต่างระหว่างการเรียนรู้เพื่อจัดอันดับแบบจุด แบบคู่ และแบบรายการคืออะไร?

วิธีการแบบจุดจะทำนายคะแนนความเกี่ยวข้องสำหรับแต่ละเอกสารอย่างอิสระ; วิธีการแบบคู่จะเรียนรู้ว่าเอกสารสองฉบับใดควรมีอันดับสูงกว่า; วิธีการแบบรายการจะเพิ่มประสิทธิภาพการสูญเสียที่กำหนดไว้สำหรับรายการที่จัดอันดับทั้งหมด แนวทางแบบรายการจะสอดคล้องกับเมตริกระดับรายการที่ผู้ใช้ให้ความสำคัญมากที่สุด

เหตุใดจึงใช้ข้อมูลการคลิกในเมื่อมีอคติ?

การคลิกมีราคาถูกกว่าและมีจำนวนมากกว่าการตัดสินความเกี่ยวข้องด้วยตนเองมาก จึงช่วยให้สามารถฝึกฝนในขนาดใหญ่ได้ ข้อเสียคืออคติจากตำแหน่งและการนำเสนอ ซึ่งเป็นเหตุผลว่าทำไมวิธีการต่างๆ จึงพิจารณาการคลิกเป็นความชอบสัมพัทธ์ และมีการนำการแก้ไขการเรียนรู้แบบไม่อคติหรือแบบเชิงโต้แย้ง (unbiased or counterfactual learning corrections) มาใช้มากขึ้นเรื่อยๆ

การเรียนรู้เพื่อจัดอันดับ (Learning to Rank)

การเรียนรู้เพื่อจัดอันดับเป็นการประยุกต์ใช้แมชชีนเลิร์นนิงเพื่อสร้างฟังก์ชันการจัดอันดับที่รวมคุณลักษณะหลายอย่างเข้าด้วยกัน โดยฝึกฝนจากข้อมูลความเกี่ยวข้องที่มีป้ายกำกับหรือข้อมูลป้อนกลับจากผู้ใช้ เพื่อจัดเรียงเอกสารได้ดีกว่าสูตรที่ปรับแต่งด้วยมือเพียงสูตรเดียว

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การเรียนรู้เพื่อจัดอันดับคือการใช้วิธีการแมชชีนเลิร์นนิงเพื่อสร้างฟังก์ชันที่จัดเรียงชุดเอกสารสำหรับข้อความค้นหาตามความเกี่ยวข้อง โดยฝึกฝนจากตัวอย่างที่ทราบความเกี่ยวข้องสัมพัทธ์หรือสัมบูรณ์ของเอกสาร ซึ่งกำหนดเป็นรูปแบบการถดถอยหรือการจำแนกประเภทแบบจุด (pointwise regression or classification) การเรียนรู้ความชอบแบบคู่ (pairwise preference learning) หรือการเพิ่มประสิทธิภาพแบบรายการโดยตรง (direct listwise optimization)

Scope

หัวข้อนี้ครอบคลุมแนวทางแบบมีผู้สอนและแบบขับเคลื่อนด้วยข้อมูลป้อนกลับสำหรับการเรียนรู้ฟังก์ชันการจัดอันดับสำหรับการเรียกค้นข้อมูล โดยกล่าวถึงการกำหนดรูปแบบแบบจุด (pointwise), แบบคู่ (pairwise) และแบบรายการ (listwise) การใช้ป้ายกำกับความเกี่ยวข้องและข้อมูลการคลิกผ่าน วิธีการที่เป็นตัวแทน เช่น RankNet และต้นไม้จัดอันดับที่เพิ่มประสิทธิภาพด้วยการไล่ระดับ (gradient-boosted ranking trees) และการเพิ่มประสิทธิภาพของเมตริกที่อิงตามอันดับ นอกจากนี้ยังกล่าวถึงวิธีการเรียนรู้และประเมินตัวจัดอันดับในฐานะแบบจำลอง ในขณะที่การรวบรวมคุณลักษณะและไปป์ไลน์การให้บริการที่กว้างขึ้นจะครอบคลุมภายใต้การจัดอันดับการค้นหาบนเว็บ

Core questions

ปัญหาการจัดอันดับถูกกำหนดให้เป็นการเรียนรู้แบบจุด แบบคู่ หรือแบบรายการได้อย่างไร?
สัญญาณการฝึกฝนใดบ้าง เช่น ป้ายกำกับความเกี่ยวข้องหรือข้อมูลการคลิกผ่าน ที่ขับเคลื่อนการเรียนรู้?
จะเพิ่มประสิทธิภาพเมตริกการประเมินที่อิงตามอันดับซึ่งไม่สามารถหาอนุพันธ์ได้ (non-differentiable) ได้อย่างไร?
คุณลักษณะที่แตกต่างกันจำนวนมากถูกรวมเข้ากับตัวจัดอันดับที่เรียนรู้เพียงตัวเดียวได้อย่างไร?
ข้อมูลการคลิกทำให้เกิดอคติได้อย่างไร และจะแก้ไขได้อย่างไร?

Key concepts

ฟังก์ชันการจัดอันดับ
การเรียนรู้แบบจุด / แบบคู่ / แบบรายการ
ป้ายกำกับความเกี่ยวข้องและความเกี่ยวข้องแบบมีระดับ
การคลิกผ่านและข้อมูลป้อนกลับโดยนัย
RankNet และต้นไม้ที่เพิ่มประสิทธิภาพด้วยการไล่ระดับ
การสูญเสียที่อิงตามอันดับและการเพิ่มประสิทธิภาพเมตริก
การรวมคุณลักษณะ
อคติจากตำแหน่ง

Key theories

การกำหนดรูปแบบแบบจุด แบบคู่ และแบบรายการ: การจัดอันดับสามารถเรียนรู้ได้โดยการทำนายความเกี่ยวข้องของแต่ละเอกสารอย่างอิสระ (แบบจุด) โดยการเรียนรู้ลำดับที่ถูกต้องของคู่เอกสาร (แบบคู่) หรือโดยการเพิ่มประสิทธิภาพการสูญเสียจากรายการผลลัพธ์ทั้งหมด (แบบรายการ) โดยวิธีหลังจะสอดคล้องกับเมตริกที่อิงตามอันดับโดยตรงที่สุด
การเรียนรู้จากข้อมูลการคลิกผ่าน: การคลิกของผู้ใช้ให้ข้อมูลป้อนกลับความเกี่ยวข้องโดยนัยที่อุดมสมบูรณ์แต่มีอคติ การพิจารณาการคลิกเป็นความชอบสัมพัทธ์ภายในรายการผลลัพธ์ช่วยให้ฟังก์ชันการจัดอันดับสามารถฝึกฝนได้จากบันทึกการโต้ตอบ แทนที่จะใช้เพียงป้ายกำกับที่ทำด้วยมือซึ่งมีค่าใช้จ่ายสูง

Clinical relevance

การเรียนรู้เพื่อจัดอันดับเป็นวิธีมาตรฐานที่ระบบค้นหาและระบบแนะนำสมัยใหม่ใช้ในการรวมสัญญาณต่างๆ เข้าด้วยกัน และตัวจัดอันดับที่เรียนรู้ด้วยเครื่องซึ่งอิงตามต้นไม้ที่เพิ่มประสิทธิภาพด้วยการไล่ระดับและแบบจำลองโครงข่ายประสาทเทียมเป็นตัวขับเคลื่อนการจัดเรียงผลลัพธ์ของเครื่องมือค้นหาบนเว็บหลักๆ การค้นหาอีคอมเมิร์ซ และการจัดอันดับโฆษณา

History

เมื่อการค้นหาบนเว็บสะสมสัญญาณการจัดอันดับจำนวนมาก การปรับแต่งด้วยมือก็เริ่มไม่สามารถทำได้จริง ซึ่งกระตุ้นให้เกิดการจัดอันดับที่เรียนรู้ด้วยเครื่อง งานวิจัยของ Joachims ในปี 2002 แสดงให้เห็นว่าข้อมูลการคลิกผ่านสามารถฝึกตัวจัดอันดับได้; RankNet ของ Burges และคณะ (2005) ได้นำเสนอการจัดอันดับแบบคู่ด้วยโครงข่ายประสาทเทียมและรุ่นต่อยอดอย่าง LambdaRank และ LambdaMART; และการสำรวจของ Liu ในปี 2009 ได้รวมสาขาวิชานี้เข้ากับกระบวนทัศน์แบบจุด แบบคู่ และแบบรายการ

Key figures

Tie-Yan Liu
Christopher Burges
Thorsten Joachims

Seminal works

liu2009
burges2005
joachims2002

Frequently asked questions

ความแตกต่างระหว่างการเรียนรู้เพื่อจัดอันดับแบบจุด แบบคู่ และแบบรายการคืออะไร?: วิธีการแบบจุดจะทำนายคะแนนความเกี่ยวข้องสำหรับแต่ละเอกสารอย่างอิสระ; วิธีการแบบคู่จะเรียนรู้ว่าเอกสารสองฉบับใดควรมีอันดับสูงกว่า; วิธีการแบบรายการจะเพิ่มประสิทธิภาพการสูญเสียที่กำหนดไว้สำหรับรายการที่จัดอันดับทั้งหมด แนวทางแบบรายการจะสอดคล้องกับเมตริกระดับรายการที่ผู้ใช้ให้ความสำคัญมากที่สุด
เหตุใดจึงใช้ข้อมูลการคลิกในเมื่อมีอคติ?: การคลิกมีราคาถูกกว่าและมีจำนวนมากกว่าการตัดสินความเกี่ยวข้องด้วยตนเองมาก จึงช่วยให้สามารถฝึกฝนในขนาดใหญ่ได้ ข้อเสียคืออคติจากตำแหน่งและการนำเสนอ ซึ่งเป็นเหตุผลว่าทำไมวิธีการต่างๆ จึงพิจารณาการคลิกเป็นความชอบสัมพัทธ์ และมีการนำการแก้ไขการเรียนรู้แบบไม่อคติหรือแบบเชิงโต้แย้ง (unbiased or counterfactual learning corrections) มาใช้มากขึ้นเรื่อยๆ