Fino podešeno pojačano učenje
Fino podešeno pojačano učenje prilagođava prethodno uvježbanu politiku ili model novom zadatku ili cilju ponašanja koristeći pojačane signale — uključujući povratne informacije od ljudi — umjesto ponovnog uvježbavanja od početka. Popularizirano od strane RLHF-a, to je temeljna tehnika iza usklađivanja velikih jezičnih modela i prilagođavanja dubokih RL agenata specijaliziranim okruženjima s minimalnim dodatnim podacima.
Pročitajte cijelu metodu
Prijavite se besplatnim računom kako biste pročitali ovaj odjeljak.
Karta metoda
Okruženje srodnih metoda — odaberite čvor za istraživanje.
Izvori
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Kako citirati ovu stranicu
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/hr/deep-learning/fine-tuned-reinforcement-learning
Koja metoda?
Postavite ovu metodu uz njoj najsrodnije i pročitajte ih jednu uz drugu — knjižnica vam knjige stavlja na stol; izbor je na vama.
- Fino podešena klasifikacija temeljena na BERT-uDuboko učenje↔ usporedi
- Fino podešeni TransformerDuboko učenje↔ usporedi
- Potkrepljivačko učenjeDuboko učenje↔ usporedi
- Samonadzorirano pojačano učenjeDuboko učenje↔ usporedi
- Prenosno učenje s potkrepljenim učenjemDuboko učenje↔ usporedi
Citirana u
Uočili ste pogrešku na ovoj stranici? Prijavite je ili predložite ispravak →