Machine learningDeep learning / NLP / CV

फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग

फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग एक पूर्व-प्रशिक्षित नीति या मॉडल को रीइन्फोर्समेंट संकेतों का उपयोग करके — जिसमें मानव प्रतिक्रिया भी शामिल है — खरोंच से पुनः प्रशिक्षित करने के बजाय एक नए कार्य या व्यवहारिक उद्देश्य के लिए अनुकूलित करता है। आरएलएचएफ द्वारा लोकप्रिय, यह बड़े भाषा मॉडल को संरेखित करने और न्यूनतम अतिरिक्त डेटा के साथ विशेष वातावरण के लिए डीप आरएल एजेंटों को अनुकूलित करने के पीछे की मुख्य तकनीक है।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीस्लाइड डाउनलोड करें

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

पद्धति मानचित्र

सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।

फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग

फाइन-ट्यून्ड BERT-आधारित…फाइन-ट्यून्ड ट्रांसफार्मर पुनर्बलन अधिगम Self-supervised Reinforc…प्रबलन शिक्षण के साथ स्थ…बहुभाषी सुदृढीकरण अधिगम…

स्रोत

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/hi/deep-learning/fine-tuned-reinforcement-learning

कौन-सी पद्धति?

इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।

फाइन-ट्यून्ड BERT-आधारित वर्गीकरणगहन अधिगम↔ तुलना करें
फाइन-ट्यून्ड ट्रांसफार्मरगहन अधिगम↔ तुलना करें
पुनर्बलन अधिगमगहन अधिगम↔ तुलना करें
Self-supervised Reinforcement Learningगहन अधिगम↔ तुलना करें
प्रबलन शिक्षण के साथ स्थानांतरण शिक्षणगहन अधिगम↔ तुलना करें

साथ-साथ तुलना करें →

इनमें संदर्भित

बहुभाषी सुदृढीकरण अधिगम (Multilingual Reinforcement Learning)प्रबलन शिक्षण के साथ स्थानांतरण शिक्षण

इस पृष्ठ पर कोई त्रुटि दिखी? सूचित करें या सुधार सुझाएँ →