Προσαρμοσμένη Ενισχυτική Μάθηση
Η Ενισχυτική Μάθηση Λεπτομερούς Ρύθμισης προσαρμόζει μια προεκπαιδευμένη πολιτική ή μοντέλο σε μια νέα εργασία ή στόχο συμπεριφοράς χρησιμοποιώντας σήματα ενίσχυσης — συμπεριλαμβανομένης της ανθρώπινης ανατροφοδότησης — αντί για επανεκπαίδευση από την αρχή. Δημοφιλής λόγω του RLHF, αποτελεί την κύρια τεχνική πίσω από την ευθυγράμμιση μεγάλων γλωσσικών μοντέλων και την προσαρμογή πρακτόρων βαθιάς ενισχυτικής μάθησης σε εξειδικευμένα περιβάλλοντα με ελάχιστα επιπλέον δεδομένα.
Διαβάστε ολόκληρη τη μέθοδο
Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.
Method map
The neighbourhood of related methods — select a node to explore.
Πηγές
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Πώς να παραπέμψετε σε αυτή τη σελίδα
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/el/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Προσαρμοσμένη Ταξινόμηση Βασισμένη σε BERTΒαθιά Μάθηση↔ compare
- Προσαρμοσμένος Μετασχηματιστής (Fine-Tuned Transformer)Βαθιά Μάθηση↔ compare
- Ενισχυτική ΜάθησηΒαθιά Μάθηση↔ compare
- Ενισχυτική Μάθηση με Αυτο-εποπτείαΒαθιά Μάθηση↔ compare
- Εκμάθηση Μεταφοράς με Ενισχυτική ΜάθησηΒαθιά Μάθηση↔ compare
Αναφέρεται από
Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →