Machine learningDeep learning / NLP / CV

Фино настроено обучение с подкрепление

Фино настроеното обучение с подкрепление адаптира предварително обучен модел или политика към нова задача или поведенческа цел, използвайки сигнали за подкрепление — включително човешка обратна връзка — вместо преобучение от нулата. Популяризирано от RLHF, то е основната техника зад привеждането в съответствие на големи езикови модели и адаптирането на дълбоки RL агенти към специализирани среди с минимални допълнителни данни.

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

Фино настроено обучение с подкрепление

Класификация, базирана н…Фино настройване на Тран…Обучение с подкрепление Самообучаващо се подсилв…Трансферно обучение с об…Многоезиково подсилващо…

Източници

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Как да цитирате тази страница

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/bg/deep-learning/fine-tuned-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Класификация, базирана на фино настроен BERTДълбоко обучение↔ compare
Фино настройване на ТрансформърДълбоко обучение↔ compare
Обучение с подкреплениеДълбоко обучение↔ compare
Самообучаващо се подсилващо обучениеДълбоко обучение↔ compare
Трансферно обучение с обучение с подсилванеДълбоко обучение↔ compare

Compare side by side →

Цитиран в

Многоезиково подсилващо обучение Трансферно обучение с обучение с подсилване

Забелязахте ли проблем на тази страница? Съобщете или предложете поправка →

Прочетете целия метод

Method map

Източници

Как да цитирате тази страница

Свързани методи

Which method?

Цитиран в