फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग
फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग एक पूर्व-प्रशिक्षित नीति या मॉडल को रीइन्फोर्समेंट संकेतों का उपयोग करके — जिसमें मानव प्रतिक्रिया भी शामिल है — खरोंच से पुनः प्रशिक्षित करने के बजाय एक नए कार्य या व्यवहारिक उद्देश्य के लिए अनुकूलित करता है। आरएलएचएफ द्वारा लोकप्रिय, यह बड़े भाषा मॉडल को संरेखित करने और न्यूनतम अतिरिक्त डेटा के साथ विशेष वातावरण के लिए डीप आरएल एजेंटों को अनुकूलित करने के पीछे की मुख्य तकनीक है।
पूरी विधि पढ़ें
यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।
पद्धति मानचित्र
सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।
स्रोत
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
इस पृष्ठ का उद्धरण कैसे दें
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/hi/deep-learning/fine-tuned-reinforcement-learning
कौन-सी पद्धति?
इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।
- फाइन-ट्यून्ड BERT-आधारित वर्गीकरणगहन अधिगम↔ तुलना करें
- फाइन-ट्यून्ड ट्रांसफार्मरगहन अधिगम↔ तुलना करें
- पुनर्बलन अधिगमगहन अधिगम↔ तुलना करें
- Self-supervised Reinforcement Learningगहन अधिगम↔ तुलना करें
- प्रबलन शिक्षण के साथ स्थानांतरण शिक्षणगहन अधिगम↔ तुलना करें