การเรียนรู้แบบเสริมกำลัง
การเรียนรู้แบบเสริมกำลังเป็นการฝึกตัวแทนให้ตัดสินใจต่อเนื่องกันโดยการลองผิดลองถูก เพื่อเพิ่มรางวัลสะสมสูงสุดผ่านการโต้ตอบกับสภาพแวดล้อม
Definition
การเรียนรู้แบบเสริมกำลังคือปัญหาของการเรียนรู้นโยบาย ซึ่งเป็นการจับคู่จากสถานการณ์สู่การกระทำ ที่เพิ่มรางวัลสะสมที่คาดหวังสูงสุด โดยที่ตัวแทนเรียนรู้จากผลลัพธ์ของการกระทำของตนเอง แทนที่จะเรียนรู้จากตัวอย่างพฤติกรรมที่ถูกต้องที่มีป้ายกำกับ
Scope
สาขานี้ครอบคลุมการเรียนรู้เพื่อการกระทำ: กรอบการทำงานของกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process) ที่ประกอบด้วยสถานะ การกระทำ รางวัล และการเปลี่ยนผ่าน; ฟังก์ชันค่า (value functions) และสมการเบลล์แมน (Bellman equations); วิธีการที่อิงตามค่า เช่น การเรียนรู้แบบผลต่างเชิงเวลา (temporal-difference learning) และ Q-learning; วิธีการไล่ระดับนโยบาย (policy-gradient methods) ที่ปรับปรุงนโยบายโดยตรง; และการรวมแนวคิดเหล่านี้เข้ากับโครงข่ายประสาทเทียมเชิงลึก (deep neural networks) โดยจะกล่าวถึงการแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์ (exploration-exploitation trade-off) และความท้าทายของรางวัลที่ล่าช้า
Sub-topics
Core questions
- ตัวแทนจะเรียนรู้พฤติกรรมที่ดีจากสัญญาณรางวัลเพียงอย่างเดียวได้อย่างไร?
- คุณค่าระยะยาวและรางวัลทันทีมีความสัมพันธ์กันอย่างไรผ่านสมการเบลล์แมน?
- ตัวแทนควรสร้างสมดุลระหว่างการสำรวจการกระทำใหม่กับการใช้ประโยชน์จากการกระทำที่ดีที่ทราบแล้วอย่างไร?
- มีการกำหนดความน่าเชื่อถือให้กับการกระทำก่อนหน้าสำหรับรางวัลในภายหลังได้อย่างไร?
Key theories
- กระบวนการตัดสินใจแบบมาร์คอฟและฟังก์ชันค่า
- การโต้ตอบถูกจำลองเป็นกระบวนการตัดสินใจแบบมาร์คอฟ และฟังก์ชันค่าจะสรุปรางวัลในอนาคตที่คาดหวัง โดยเป็นไปตามสมการเบลล์แมนซึ่งเป็นรากฐานของอัลกอริทึมการเรียนรู้แบบเสริมกำลังเกือบทั้งหมด
- การเรียนรู้แบบผลต่างเชิงเวลา
- ตัวแทนสามารถเรียนรู้การประมาณค่าได้โดยการบูตสแตรป (bootstrapping) โดยการอัปเดตการคาดการณ์ไปสู่การคาดการณ์ในภายหลังบวกกับรางวัลที่สังเกตได้ ซึ่งช่วยให้สามารถเรียนรู้จากตอนที่ไม่สมบูรณ์และประสบการณ์ออนไลน์ได้
- การเรียนรู้แบบเสริมกำลังเชิงลึก
- การใช้โครงข่ายประสาทเทียมเชิงลึกเพื่อประมาณฟังก์ชันค่าหรือนโยบายช่วยให้การเรียนรู้แบบเสริมกำลังสามารถปรับขนาดไปยังอินพุตที่มีมิติสูงได้ ดังที่แสดงให้เห็นโดยตัวแทนที่เรียนรู้การเล่นเกม Atari และเกม Go
Clinical relevance
การเรียนรู้แบบเสริมกำลังกล่าวถึงการตัดสินใจต่อเนื่องภายใต้ความไม่แน่นอน และได้ขับเคลื่อนความก้าวหน้าในการเล่นเกม หุ่นยนต์ การแนะนำ และการควบคุม รวมถึงการจัดแนวแบบจำลองภาษาขนาดใหญ่ผ่านการเรียนรู้จากข้อเสนอแนะ; ลักษณะการลองผิดลองถูกและความยากลำบากในการระบุรางวัลทำให้การเรียนรู้ที่ปลอดภัยและมีประสิทธิภาพในการใช้ตัวอย่างเป็นข้อกังวลที่สำคัญ
History
การเรียนรู้แบบเสริมกำลังได้รวมแนวคิดจากการควบคุมที่เหมาะสมที่สุด (optimal control) การเขียนโปรแกรมเชิงพลวัต (dynamic programming) และการเรียนรู้ของสัตว์ การเรียนรู้แบบผลต่างเชิงเวลาและ Q-learning เกิดขึ้นในช่วงทศวรรษ 1980 และต้นทศวรรษ 1990 และตำราของ Sutton และ Barto ได้วางรากฐานของสาขาวิชานี้ การรวมเข้ากับการเรียนรู้เชิงลึกในช่วงทศวรรษ 2010 ทำให้เกิดตัวแทนที่สามารถเล่นเกม Atari ได้ในระดับมนุษย์และเล่นเกม Go ได้ในระดับเหนือมนุษย์
Debates
- ประสิทธิภาพของตัวอย่างและการออกแบบรางวัล
- การเรียนรู้แบบเสริมกำลังอาจต้องใช้การโต้ตอบจำนวนมากและมีความอ่อนไหวต่อวิธีการระบุรางวัล ซึ่งนำไปสู่การถกเถียงเกี่ยวกับวิธีการทำให้มีประสิทธิภาพด้านข้อมูลมากขึ้น และวิธีการหลีกเลี่ยงไม่ให้ตัวแทนใช้ประโยชน์จากรางวัลที่ระบุผิดพลาด
Key figures
- Richard Sutton
- Andrew Barto
- Christopher Watkins
- David Silver
Related topics
Seminal works
- sutton2018
- mnih2015
- silver2016
Frequently asked questions
- การเรียนรู้แบบเสริมกำลังแตกต่างจากการเรียนรู้แบบมีผู้สอนอย่างไร?
- การเรียนรู้แบบมีผู้สอนจะได้รับข้อมูลผลลัพธ์ที่ถูกต้องสำหรับแต่ละอินพุต ตัวแทนการเรียนรู้แบบเสริมกำลังจะได้รับเพียงสัญญาณรางวัลที่ประเมินผลลัพธ์ของการกระทำของตนเอง ต้องค้นพบพฤติกรรมที่ดีโดยการลองผิดลองถูก และต้องรับมือกับรางวัลที่มาถึงนานหลังจากที่การกระทำที่ได้รับรางวัลนั้นเกิดขึ้น
- การแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์คืออะไร?
- ตัวแทนต้องเลือกระหว่างการใช้ประโยชน์จากการกระทำที่ทราบว่าให้รางวัลที่ดี และการสำรวจการกระทำที่ยังไม่ได้ลองซึ่งอาจจะดีกว่า การสำรวจที่น้อยเกินไปอาจทำให้ติดอยู่ในกลยุทธ์ที่ไม่เหมาะสม ในขณะที่การสำรวจที่มากเกินไปจะทำให้เสียโอกาส ดังนั้นการสร้างสมดุลระหว่างสองสิ่งนี้จึงเป็นหัวใจสำคัญของการเรียนรู้แบบเสริมกำลัง