Πολυτροπικές Ενσωματώσεις Προτάσεων
Οι πολυτροπικές ενσωματώσεις προτάσεων χαρτογραφούν κείμενο και εικόνες (και μερικές φορές ήχο ή βίντεο) σε έναν κοινό συνεχή διανυσματικό χώρο, έτσι ώστε σημασιολογικά σχετιζόμενα ζεύγη από διαφορετικές τροπικότητες να καταλήγουν κοντά το ένα στο άλλο. Εκπαιδευμένες με αντιθετικούς στόχους σε μεγάλα ζευγαρωμένα σώματα κειμένων, αυτές οι αναπαραστάσεις τροφοδοτούν διατροπική ανάκτηση, ταξινόμηση μηδενικού πυροβολισμού (zero-shot classification) και συλλογισμό όρασης-γλώσσας.
Διαβάστε ολόκληρη τη μέθοδο
Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.
Χάρτης μεθόδων
Η γειτονιά των σχετιζόμενων μεθόδων — επιλέξτε έναν κόμβο για εξερεύνηση.
Πηγές
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Πώς να παραπέμψετε σε αυτή τη σελίδα
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/el/deep-learning/multimodal-sentence-embeddings
Ποια μέθοδος;
Τοποθετήστε αυτή τη μέθοδο δίπλα στις πιο συγγενείς της και διαβάστε τις παράλληλα — η βιβλιοθήκη απλώνει τα βιβλία στο τραπέζι· η επιλογή είναι δική σας.
- CLIPΒαθιά Μάθηση↔ σύγκριση
Αναφέρεται από
Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →