ScholarGate
Asistent
Machine learningDeep learning / NLP / CV

Jemne doladené učenie s posilňovaním

Jemne doladené učenie s posilňovaním adaptuje predtrénovanú politiku alebo model na novú úlohu alebo behaviorálny cieľ pomocou signálov posilňovania — vrátane spätnej väzby od ľudí — namiesto opätovného trénovania od začiatku. Popularizované RLHF, je to základná technika, ktorá stojí za zosúladením rozsiahlych jazykových modelov a adaptáciou hlbokých RL agentov na špecializované prostredia s minimálnym dodatočným množstvom údajov.

Otvoriť v MethodMindČoskoroVideoČoskoroDownload slides

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Method map

The neighbourhood of related methods — select a node to explore.

Zdroje

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Ako citovať túto stránku

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/sk/deep-learning/fine-tuned-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Odkazujú sem

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Získané 2026-06-15 z https://scholargate.app/sk/deep-learning/fine-tuned-reinforcement-learning · Dátová sada: https://doi.org/10.5281/zenodo.20539026