Dostrajanie uczenia przez wzmacnianie
Dostrajanie uczenia przez wzmacnianie (Fine-Tuned Reinforcement Learning) adaptuje wstępnie wytrenowaną strategię lub model do nowego zadania lub celu behawioralnego, wykorzystując sygnały wzmacniające — w tym informację zwrotną od człowieka — zamiast ponownego trenowania od zera. Spopularyzowana przez RLHF, jest to podstawowa technika stojąca za dostosowywaniem dużych modeli językowych i adaptacją agentów głębokiego uczenia przez wzmacnianie do wyspecjalizowanych środowisk przy minimalnej ilości dodatkowych danych.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Mapa metod
Sąsiedztwo pokrewnych metod — wybierz węzeł, aby je zgłębić.
Źródła
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Jak cytować tę stronę
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/pl/deep-learning/fine-tuned-reinforcement-learning
Która metoda?
Zestaw tę metodę z najbliższymi jej krewnymi i czytaj je obok siebie — biblioteka kładzie księgi na stole; wybór należy do Ciebie.
- Klasyfikacja oparta na dostrojonym modelu BERTUczenie głębokie↔ porównaj
- Dostrojony TransformerUczenie głębokie↔ porównaj
- Uczenie ze wzmocnieniemUczenie głębokie↔ porównaj
- Uczenie ze wzmocnieniem z samonadzoremUczenie głębokie↔ porównaj
- Uczenie transferowe z uczeniem przez wzmacnianieUczenie głębokie↔ porównaj
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →