ScholarGate
Βοηθός
Machine learningDeep learning / NLP / CV

Πολυτροπικός Μετασχηματιστής

Ένας Πολυτροπικός Μετασχηματιστής επεκτείνει την τυπική αρχιτεκτονική του Μετασχηματιστή για να επεξεργάζεται και να συλλογίζεται από κοινού δύο ή περισσότερες εισόδους τροπικότητας — συνηθέστερα κείμενο και εικόνες, αλλά και ήχο, βίντεο ή δομημένα δεδομένα. Τα επίπεδα διατροπικής προσοχής επιτρέπουν σε πληροφορίες από μία τροπικότητα να ενημερώνουν αναπαραστάσεις σε άλλη, επιτρέποντας εργασίες όπως η απάντηση ερωτήσεων για εικόνες, η περιγραφή εικόνων και η πολυτροπική ανάλυση συναισθήματος.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

+15 more

Πηγές

  1. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/el/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Αναφέρεται από

ScholarGateMultimodal Transformer (Multimodal Transformer (Cross-Modal Attention-Based Architecture)). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/deep-learning/multimodal-transformer · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026