การเรียนรู้แบบเสริมกำลังแตกต่างจากการเรียนรู้แบบมีผู้สอนอย่างไร?

การเรียนรู้แบบมีผู้สอนจะได้รับข้อมูลผลลัพธ์ที่ถูกต้องสำหรับแต่ละอินพุต ตัวแทนการเรียนรู้แบบเสริมกำลังจะได้รับเพียงสัญญาณรางวัลที่ประเมินผลลัพธ์ของการกระทำของตนเอง ต้องค้นพบพฤติกรรมที่ดีโดยการลองผิดลองถูก และต้องรับมือกับรางวัลที่มาถึงนานหลังจากที่การกระทำที่ได้รับรางวัลนั้นเกิดขึ้น

การแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์คืออะไร?

ตัวแทนต้องเลือกระหว่างการใช้ประโยชน์จากการกระทำที่ทราบว่าให้รางวัลที่ดี และการสำรวจการกระทำที่ยังไม่ได้ลองซึ่งอาจจะดีกว่า การสำรวจที่น้อยเกินไปอาจทำให้ติดอยู่ในกลยุทธ์ที่ไม่เหมาะสม ในขณะที่การสำรวจที่มากเกินไปจะทำให้เสียโอกาส ดังนั้นการสร้างสมดุลระหว่างสองสิ่งนี้จึงเป็นหัวใจสำคัญของการเรียนรู้แบบเสริมกำลัง

การเรียนรู้แบบเสริมกำลัง

การเรียนรู้แบบเสริมกำลังเป็นการฝึกตัวแทนให้ตัดสินใจต่อเนื่องกันโดยการลองผิดลองถูก เพื่อเพิ่มรางวัลสะสมสูงสุดผ่านการโต้ตอบกับสภาพแวดล้อม

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การเรียนรู้แบบเสริมกำลังคือปัญหาของการเรียนรู้นโยบาย ซึ่งเป็นการจับคู่จากสถานการณ์สู่การกระทำ ที่เพิ่มรางวัลสะสมที่คาดหวังสูงสุด โดยที่ตัวแทนเรียนรู้จากผลลัพธ์ของการกระทำของตนเอง แทนที่จะเรียนรู้จากตัวอย่างพฤติกรรมที่ถูกต้องที่มีป้ายกำกับ

Scope

สาขานี้ครอบคลุมการเรียนรู้เพื่อการกระทำ: กรอบการทำงานของกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process) ที่ประกอบด้วยสถานะ การกระทำ รางวัล และการเปลี่ยนผ่าน; ฟังก์ชันค่า (value functions) และสมการเบลล์แมน (Bellman equations); วิธีการที่อิงตามค่า เช่น การเรียนรู้แบบผลต่างเชิงเวลา (temporal-difference learning) และ Q-learning; วิธีการไล่ระดับนโยบาย (policy-gradient methods) ที่ปรับปรุงนโยบายโดยตรง; และการรวมแนวคิดเหล่านี้เข้ากับโครงข่ายประสาทเทียมเชิงลึก (deep neural networks) โดยจะกล่าวถึงการแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์ (exploration-exploitation trade-off) และความท้าทายของรางวัลที่ล่าช้า

Sub-topics

Core questions

ตัวแทนจะเรียนรู้พฤติกรรมที่ดีจากสัญญาณรางวัลเพียงอย่างเดียวได้อย่างไร?
คุณค่าระยะยาวและรางวัลทันทีมีความสัมพันธ์กันอย่างไรผ่านสมการเบลล์แมน?
ตัวแทนควรสร้างสมดุลระหว่างการสำรวจการกระทำใหม่กับการใช้ประโยชน์จากการกระทำที่ดีที่ทราบแล้วอย่างไร?
มีการกำหนดความน่าเชื่อถือให้กับการกระทำก่อนหน้าสำหรับรางวัลในภายหลังได้อย่างไร?

Key theories

กระบวนการตัดสินใจแบบมาร์คอฟและฟังก์ชันค่า: การโต้ตอบถูกจำลองเป็นกระบวนการตัดสินใจแบบมาร์คอฟ และฟังก์ชันค่าจะสรุปรางวัลในอนาคตที่คาดหวัง โดยเป็นไปตามสมการเบลล์แมนซึ่งเป็นรากฐานของอัลกอริทึมการเรียนรู้แบบเสริมกำลังเกือบทั้งหมด
การเรียนรู้แบบผลต่างเชิงเวลา: ตัวแทนสามารถเรียนรู้การประมาณค่าได้โดยการบูตสแตรป (bootstrapping) โดยการอัปเดตการคาดการณ์ไปสู่การคาดการณ์ในภายหลังบวกกับรางวัลที่สังเกตได้ ซึ่งช่วยให้สามารถเรียนรู้จากตอนที่ไม่สมบูรณ์และประสบการณ์ออนไลน์ได้
การเรียนรู้แบบเสริมกำลังเชิงลึก: การใช้โครงข่ายประสาทเทียมเชิงลึกเพื่อประมาณฟังก์ชันค่าหรือนโยบายช่วยให้การเรียนรู้แบบเสริมกำลังสามารถปรับขนาดไปยังอินพุตที่มีมิติสูงได้ ดังที่แสดงให้เห็นโดยตัวแทนที่เรียนรู้การเล่นเกม Atari และเกม Go

Clinical relevance

การเรียนรู้แบบเสริมกำลังกล่าวถึงการตัดสินใจต่อเนื่องภายใต้ความไม่แน่นอน และได้ขับเคลื่อนความก้าวหน้าในการเล่นเกม หุ่นยนต์ การแนะนำ และการควบคุม รวมถึงการจัดแนวแบบจำลองภาษาขนาดใหญ่ผ่านการเรียนรู้จากข้อเสนอแนะ; ลักษณะการลองผิดลองถูกและความยากลำบากในการระบุรางวัลทำให้การเรียนรู้ที่ปลอดภัยและมีประสิทธิภาพในการใช้ตัวอย่างเป็นข้อกังวลที่สำคัญ

History

การเรียนรู้แบบเสริมกำลังได้รวมแนวคิดจากการควบคุมที่เหมาะสมที่สุด (optimal control) การเขียนโปรแกรมเชิงพลวัต (dynamic programming) และการเรียนรู้ของสัตว์ การเรียนรู้แบบผลต่างเชิงเวลาและ Q-learning เกิดขึ้นในช่วงทศวรรษ 1980 และต้นทศวรรษ 1990 และตำราของ Sutton และ Barto ได้วางรากฐานของสาขาวิชานี้ การรวมเข้ากับการเรียนรู้เชิงลึกในช่วงทศวรรษ 2010 ทำให้เกิดตัวแทนที่สามารถเล่นเกม Atari ได้ในระดับมนุษย์และเล่นเกม Go ได้ในระดับเหนือมนุษย์

Debates

ประสิทธิภาพของตัวอย่างและการออกแบบรางวัล: การเรียนรู้แบบเสริมกำลังอาจต้องใช้การโต้ตอบจำนวนมากและมีความอ่อนไหวต่อวิธีการระบุรางวัล ซึ่งนำไปสู่การถกเถียงเกี่ยวกับวิธีการทำให้มีประสิทธิภาพด้านข้อมูลมากขึ้น และวิธีการหลีกเลี่ยงไม่ให้ตัวแทนใช้ประโยชน์จากรางวัลที่ระบุผิดพลาด

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

การเรียนรู้แบบเสริมกำลังแตกต่างจากการเรียนรู้แบบมีผู้สอนอย่างไร?: การเรียนรู้แบบมีผู้สอนจะได้รับข้อมูลผลลัพธ์ที่ถูกต้องสำหรับแต่ละอินพุต ตัวแทนการเรียนรู้แบบเสริมกำลังจะได้รับเพียงสัญญาณรางวัลที่ประเมินผลลัพธ์ของการกระทำของตนเอง ต้องค้นพบพฤติกรรมที่ดีโดยการลองผิดลองถูก และต้องรับมือกับรางวัลที่มาถึงนานหลังจากที่การกระทำที่ได้รับรางวัลนั้นเกิดขึ้น
การแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์คืออะไร?: ตัวแทนต้องเลือกระหว่างการใช้ประโยชน์จากการกระทำที่ทราบว่าให้รางวัลที่ดี และการสำรวจการกระทำที่ยังไม่ได้ลองซึ่งอาจจะดีกว่า การสำรวจที่น้อยเกินไปอาจทำให้ติดอยู่ในกลยุทธ์ที่ไม่เหมาะสม ในขณะที่การสำรวจที่มากเกินไปจะทำให้เสียโอกาส ดังนั้นการสร้างสมดุลระหว่างสองสิ่งนี้จึงเป็นหัวใจสำคัญของการเรียนรู้แบบเสริมกำลัง