Machine learningDeep learning / NLP / CV

Finjustert forsterkningslæring

Finjustert forsterkningslæring tilpasser en forhåndstrent policy eller modell til en ny oppgave eller atferdsmål ved hjelp av forsterkningssignaler — inkludert menneskelig tilbakemelding — i stedet for å trene på nytt fra bunnen av. Popularisert av RLHF, er det kjerneteknikken bak justering av store språkmodeller og tilpasning av dype RL-agenter til spesialiserte miljøer med minimalt med tilleggsdata.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Finjustert forsterkningslæring

Finputilpasset BERT-base…Finetunet transformator Forsterkningslæring Selv-overvåket forsterkn…Overføringslæring med fo…Fler-språklig forsterkni…

Kilder

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Slik siterer du denne siden

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/no/deep-learning/fine-tuned-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Finputilpasset BERT-basert klassifiseringDyp læring↔ compare
Finetunet transformatorDyp læring↔ compare
ForsterkningslæringDyp læring↔ compare
Selv-overvåket forsterkningslæringDyp læring↔ compare
Overføringslæring med forsterkningslæringDyp læring↔ compare

Compare side by side →

Referert av

Fler-språklig forsterkningslæring Overføringslæring med forsterkningslæring

Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →

Les hele metoden

Method map

Kilder

Slik siterer du denne siden

Relaterte metoder

Which method?

Referert av