แบบจำลองสามารถเรียนรู้อะไรได้บ้างโดยไม่มีป้ายกำกับ?

วิธีการแบบไม่มีผู้สอนใช้ประโยชน์จากโครงสร้างที่มีอยู่ในข้อมูลอยู่แล้ว เช่น จุดใดอยู่ใกล้กัน ทิศทางใดมีความแปรปรวนมากที่สุด หรือปัจจัยแฝงใดที่อาจสร้างการสังเกตการณ์ขึ้นมา ความสม่ำเสมอของข้อมูลเองเป็นตัวให้สัญญาณ

เหตุใดการเรียนรู้แบบไม่มีผู้สอนจึงประเมินได้ยาก?

ไม่มีเป้าหมายที่เป็นความจริงพื้นฐานให้เปรียบเทียบ ดังนั้นความสำเร็จจึงถูกตัดสินทางอ้อม เช่น โดยความสามารถในการตีความของกลุ่ม หรือว่าการนำเสนอที่เรียนรู้ช่วยงานที่มีผู้สอนในภายหลังได้ดีเพียงใด เกณฑ์ที่แตกต่างกันสามารถจัดอันดับผลลัพธ์เดียวกันได้แตกต่างกัน

การเรียนรู้แบบไม่มีผู้สอน

การเรียนรู้แบบไม่มีผู้สอน (Unsupervised learning) ค้นพบโครงสร้างในข้อมูลที่ไม่มีป้ายกำกับ โดยการหากลุ่ม การนำเสนอในมิติที่ต่ำ และปัจจัยแฝง โดยไม่มีผลลัพธ์เป้าหมายให้เลียนแบบ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การเรียนรู้แบบไม่มีผู้สอนคือการอนุมานโครงสร้างจากข้อมูลนำเข้าเพียงอย่างเดียว โดยไม่มีค่าเป้าหมายที่เกี่ยวข้อง อัลกอริทึมจะแสวงหาคำอธิบายที่กระชับของข้อมูล เช่น การกำหนดกลุ่ม พิกัดมิติที่ต่ำ หรือตัวแปรแฝงเชิงกำเนิดที่อธิบายว่าข้อมูลที่สังเกตได้เกิดขึ้นได้อย่างไร

Scope

สาขานี้ครอบคลุมการเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับ: การจัดกลุ่ม (clustering) การลดมิติและการเรียนรู้แมนิโฟลด์ (manifold learning) แบบจำลองตัวแปรแฝงและแบบจำลองผสม (mixture models) ที่ปรับให้เหมาะสมด้วยอัลกอริทึมการคาดการณ์-การทำให้สูงสุด (expectation-maximization algorithm) การประมาณความหนาแน่น (density estimation) และการเรียนรู้แบบกำกับตนเอง (self-supervised) และการเรียนรู้การนำเสนอ (representation learning) สมัยใหม่ที่สร้างสัญญาณการฝึกอบรมจากข้อมูลเอง

Sub-topics

Core questions

โครงสร้างใดที่สามารถกู้คืนได้จากข้อมูลที่ไม่มีป้ายกำกับ?
การจัดกลุ่มหรือกลุ่มธรรมชาติถูกกำหนดและค้นพบได้อย่างไร?
ข้อมูลมิติสูงสามารถสรุปได้ด้วยพิกัดเพียงไม่กี่พิกัดได้อย่างไร?
แบบจำลองตัวแปรแฝงอธิบายการสังเกตการณ์ผ่านสาเหตุที่ซ่อนอยู่ได้อย่างไร?

Key theories

แบบจำลองตัวแปรแฝงและ EM: แบบจำลองแบบไม่มีผู้สอนจำนวนมากตั้งสมมติฐานว่ามีตัวแปรที่ซ่อนอยู่ที่สร้างข้อมูลขึ้น และอัลกอริทึมการคาดการณ์-การทำให้สูงสุดจะปรับให้เหมาะสมโดยการสลับระหว่างการอนุมานตัวแปรแฝงและการปรับปรุงพารามิเตอร์เพื่อเพิ่มความเป็นไปได้
การลดมิติ: วิธีการต่างๆ เช่น การวิเคราะห์องค์ประกอบหลัก (principal component analysis) และการเรียนรู้แมนิโฟลด์ (manifold learning) ค้นหาการนำเสนอในมิติที่ต่ำที่รักษาความแปรปรวนที่สำคัญที่สุดไว้ ทำให้สามารถแสดงภาพ การบีบอัด และการลดสัญญาณรบกวนได้
โครงสร้างการจัดกลุ่ม: การจัดกลุ่มแบ่งข้อมูลออกเป็นกลุ่มของรายการที่คล้ายกัน ซึ่งถูกกำหนดอย่างเป็นทางการในรูปแบบต่างๆ ผ่านระยะห่างภายในกลุ่ม การผสมผสานเชิงความน่าจะเป็น หรือความหนาแน่น โดยไม่มีคำจำกัดความเดียวของจำนวนหรือรูปร่างของกลุ่มที่ถูกต้อง

Clinical relevance

การเรียนรู้แบบไม่มีผู้สอนมีความสำคัญอย่างยิ่งในกรณีที่ป้ายกำกับหายากหรือไม่มีอยู่เลย โดยสนับสนุนการแบ่งส่วนลูกค้า การตรวจจับความผิดปกติ การวิเคราะห์ข้อมูลเชิงสำรวจ และการฝึกอบรมล่วงหน้าของการนำเสนอที่ขับเคลื่อนระบบการกำกับดูแลและระบบภาษาที่ทันสมัย เนื่องจากไม่มีเป้าหมายที่เป็นความจริงพื้นฐาน การประเมินผลลัพธ์แบบไม่มีผู้สอนจึงเป็นปัญหาที่ละเอียดอ่อนและสำคัญในตัวมันเอง

History

การเรียนรู้แบบไม่มีผู้สอนมีรากฐานมาจากการจัดกลุ่มและการวิเคราะห์ปัจจัยทางสถิติ และในโครงข่ายประสาทเทียมที่จัดระเบียบตนเอง อัลกอริทึมการคาดการณ์-การทำให้สูงสุด ซึ่งถูกกำหนดอย่างเป็นทางการในปี 1977 ได้รวมการปรับแบบจำลองตัวแปรแฝงเข้าด้วยกัน และในช่วงไม่กี่ปีที่ผ่านมา การเรียนรู้การนำเสนอแบบกำกับตนเองได้กลายเป็นกระบวนทัศน์ที่โดดเด่นสำหรับการฝึกอบรมล่วงหน้าของแบบจำลองขนาดใหญ่บนข้อมูลที่ไม่มีป้ายกำกับ

Debates

วิธีการประเมินผลลัพธ์แบบไม่มีผู้สอน: หากไม่มีป้ายกำกับจะไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว ดังนั้นการตัดสินการจัดกลุ่มหรือการนำเสนอที่เรียนรู้จึงอาศัยเกณฑ์ทางอ้อม ประสิทธิภาพของงานปลายน้ำ หรือการตีความของมนุษย์ และมาตรวัดความถูกต้องที่แตกต่างกันอาจไม่เห็นด้วยกัน

Key figures

Arthur Dempster
Donald Rubin
Geoffrey Hinton
Christopher Bishop

Seminal works

bishop2006
hastie2009
dempster1977

Frequently asked questions

แบบจำลองสามารถเรียนรู้อะไรได้บ้างโดยไม่มีป้ายกำกับ?: วิธีการแบบไม่มีผู้สอนใช้ประโยชน์จากโครงสร้างที่มีอยู่ในข้อมูลอยู่แล้ว เช่น จุดใดอยู่ใกล้กัน ทิศทางใดมีความแปรปรวนมากที่สุด หรือปัจจัยแฝงใดที่อาจสร้างการสังเกตการณ์ขึ้นมา ความสม่ำเสมอของข้อมูลเองเป็นตัวให้สัญญาณ
เหตุใดการเรียนรู้แบบไม่มีผู้สอนจึงประเมินได้ยาก?: ไม่มีเป้าหมายที่เป็นความจริงพื้นฐานให้เปรียบเทียบ ดังนั้นความสำเร็จจึงถูกตัดสินทางอ้อม เช่น โดยความสามารถในการตีความของกลุ่ม หรือว่าการนำเสนอที่เรียนรู้ช่วยงานที่มีผู้สอนในภายหลังได้ดีเพียงใด เกณฑ์ที่แตกต่างกันสามารถจัดอันดับผลลัพธ์เดียวกันได้แตกต่างกัน