Machine learningDeep learning / NLP / CV

Πολυτροπικός Μετασχηματιστής

Ένας Πολυτροπικός Μετασχηματιστής επεκτείνει την τυπική αρχιτεκτονική του Μετασχηματιστή για να επεξεργάζεται και να συλλογίζεται από κοινού δύο ή περισσότερες εισόδους τροπικότητας — συνηθέστερα κείμενο και εικόνες, αλλά και ήχο, βίντεο ή δομημένα δεδομένα. Τα επίπεδα διατροπικής προσοχής επιτρέπουν σε πληροφορίες από μία τροπικότητα να ενημερώνουν αναπαραστάσεις σε άλλη, επιτρέποντας εργασίες όπως η απάντηση ερωτήσεων για εικόνες, η περιγραφή εικόνων και η πολυτροπική ανάλυση συναισθήματος.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

Πολυτροπικός Μετασχηματιστής

Ταξινόμηση Βασισμένη σε…Κατηγοριοποίηση Εικόνων Ταξινόμηση Βασισμένη σε…Ενσωματώσεις Προτάσεων Vision Transformer Επεξηγήσιμος Μετασχηματι…Συνελικτικό Νευρωνικό Δί…Πολυτροπικό Μοντέλο Διάχ…Multimodal Doc2Vec Πολυτροπικό GAN

+15 more

Πηγές

Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. Advances in Neural Information Processing Systems (NeurIPS), 32. link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 3). Multimodal Transformer (Cross-Modal Attention-Based Architecture). ScholarGate. https://scholargate.app/el/deep-learning/multimodal-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Ταξινόμηση Βασισμένη σε BERTΒαθιά Μάθηση↔ compare
Κατηγοριοποίηση ΕικόνωνΒαθιά Μάθηση↔ compare
Ταξινόμηση Βασισμένη σε Πολυτροπικό BERTΒαθιά Μάθηση↔ compare
Ενσωματώσεις ΠροτάσεωνΒαθιά Μάθηση↔ compare
Vision TransformerΒαθιά Μάθηση↔ compare

Compare side by side →

Αναφέρεται από

Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →