ScholarGate
सहायक
Machine learningDeep learning / NLP / CV

फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग

फाइन-ट्यून्ड रीइन्फोर्समेंट लर्निंग एक पूर्व-प्रशिक्षित नीति या मॉडल को रीइन्फोर्समेंट संकेतों का उपयोग करके — जिसमें मानव प्रतिक्रिया भी शामिल है — खरोंच से पुनः प्रशिक्षित करने के बजाय एक नए कार्य या व्यवहारिक उद्देश्य के लिए अनुकूलित करता है। आरएलएचएफ द्वारा लोकप्रिय, यह बड़े भाषा मॉडल को संरेखित करने और न्यूनतम अतिरिक्त डेटा के साथ विशेष वातावरण के लिए डीप आरएल एजेंटों को अनुकूलित करने के पीछे की मुख्य तकनीक है।

MethodMind में खोलेंजल्द हीवीडियोजल्द हीस्लाइड डाउनलोड करें

पूरी विधि पढ़ें

केवल सदस्यों के लिए

यह खंड पढ़ने के लिए निःशुल्क खाते से साइन इन करें।

साइन इन करें

पद्धति मानचित्र

सम्बन्धित पद्धतियों का परिवेश — अन्वेषण हेतु किसी नोड का चयन करें।

स्रोत

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

इस पृष्ठ का उद्धरण कैसे दें

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/hi/deep-learning/fine-tuned-reinforcement-learning

कौन-सी पद्धति?

इस पद्धति को उसकी निकटतम सजातीय पद्धतियों के साथ रखकर उन्हें साथ-साथ पढ़ें — पुस्तकालय पुस्तकें मेज़ पर रख देता है; चुनाव आपका है।

साथ-साथ तुलना करें

इनमें संदर्भित

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). 2026-06-15 को यहाँ से प्राप्त https://scholargate.app/hi/deep-learning/fine-tuned-reinforcement-learning · डेटासेट: https://doi.org/10.5281/zenodo.20539026