การเรียนรู้แบบเสริมกำลังแบบปรับละเอียด
การเรียนรู้แบบเสริมกำลังแบบปรับละเอียด (Fine-Tuned Reinforcement Learning) เป็นการปรับนโยบายหรือแบบจำลองที่ได้รับการฝึกฝนล่วงหน้าแล้วให้เข้ากับงานใหม่หรือวัตถุประสงค์เชิงพฤติกรรมใหม่ โดยใช้สัญญาณการเสริมกำลัง ซึ่งรวมถึงการป้อนกลับจากมนุษย์ แทนที่จะฝึกใหม่ตั้งแต่ต้น เทคนิคนี้ซึ่งได้รับความนิยมจาก RLHF เป็นเทคนิคหลักในการปรับแบบจำลองภาษาขนาดใหญ่ให้สอดคล้อง และปรับเอเจนต์ Deep RL ให้เข้ากับสภาพแวดล้อมเฉพาะทางโดยใช้ข้อมูลเพิ่มเติมเพียงเล็กน้อย
อ่านวิธีฉบับเต็ม
เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้
Method map
The neighbourhood of related methods — select a node to explore.
แหล่งอ้างอิง
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
วิธีอ้างอิงหน้านี้
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/th/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- การจำแนกประเภทโดยใช้ BERT ที่ปรับละเอียดการเรียนรู้เชิงลึก↔ compare
- การปรับจูนทรานส์ฟอร์มเมอร์ (Fine-Tuned Transformer)การเรียนรู้เชิงลึก↔ compare
- การเรียนรู้แบบเสริมกำลังการเรียนรู้เชิงลึก↔ compare
- การเรียนรู้แบบเสริมกำลังด้วยการกำกับดูแลตนเองการเรียนรู้เชิงลึก↔ compare
- Transfer Learning with Reinforcement Learningการเรียนรู้เชิงลึก↔ compare