Apprentissage par renforcement affiné
L'apprentissage par renforcement affiné adapte une politique ou un modèle pré-entraîné à une nouvelle tâche ou à un nouvel objectif comportemental en utilisant des signaux de renforcement — y compris le feedback humain — plutôt qu'un réentraînement à partir de zéro. Popularisée par RLHF, c'est la technique principale derrière l'alignement des grands modèles de langage et l'adaptation des agents d'apprentissage par renforcement profond (Deep RL) à des environnements spécialisés avec un minimum de données supplémentaires.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Comment citer cette page
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/fr/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Classification par BERT affinéApprentissage profond↔ compare
- Transformer affinéApprentissage profond↔ compare
- Apprentissage par renforcementApprentissage profond↔ compare
- Apprentissage par renforcement auto-superviséApprentissage profond↔ compare
- Apprentissage par transfert avec apprentissage par renforcementApprentissage profond↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →