Machine learningDeep learning / NLP / CV

Доопрацьоване навчання з підкріпленням

Доопрацьоване навчання з підкріпленням адаптує попередньо навчену політику або модель до нового завдання чи поведінкової мети за допомогою сигналів підкріплення — включно з людським зворотним зв'язком — замість перенавчання з нуля. Популяризоване RLHF, це основний метод вирівнювання великих мовних моделей та адаптації агентів глибокого навчання з підкріпленням до спеціалізованих середовищ з мінімальною кількістю додаткових даних.

Відкрити у MethodMindНезабаромВідеоНезабаромDownload slides

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Method map

The neighbourhood of related methods — select a node to explore.

Доопрацьоване навчання з підкріпленням

Класифікація на основі д…Трансформер з доналаштув…Навчання з підкріпленням Навчання з підкріпленням…Навчання з перенесенням…Багатомовне навчання з п…

Джерела

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/uk/deep-learning/fine-tuned-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Класифікація на основі доналаштованого BERTГлибоке навчання↔ compare
Трансформер з доналаштуваннямГлибоке навчання↔ compare
Навчання з підкріпленнямГлибоке навчання↔ compare
Навчання з підкріпленням на основі самонавчанняГлибоке навчання↔ compare
Навчання з перенесенням на основі навчання з підкріпленнямГлибоке навчання↔ compare

Compare side by side →

Згадується в

Багатомовне навчання з підкріпленням Навчання з перенесенням на основі навчання з підкріпленням

Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →

Читати метод повністю

Method map

Джерела

Як цитувати цю сторінку

Пов'язані методи

Which method?

Згадується в