ScholarGate
Βοηθός
Machine learningDeep learning / NLP / CV

Πολυτροπική Ταξινόμηση Εικόνων

Η πολυτροπική ταξινόμηση εικόνων επεκτείνει την τυπική οπτική ταξινόμηση ενσωματώνοντας επιπρόσθετες τροπικότητες — όπως λεζάντες κειμένου, ήχο ή δομημένα μεταδεδομένα — παράλληλα με τα χαρακτηριστικά της εικόνας. Ξεχωριστοί κωδικοποιητές επεξεργάζονται κάθε τροπικότητα, οι αναπαραστάσεις τους συγχωνεύονται και ένας κοινός ταξινομητής αποδίδει την ετικέτα-στόχο. Μοντέλα όπως το CLIP αποδεικνύουν ότι η ευθυγράμμιση εικόνας-κειμένου επιτρέπει ταξινόμηση εικόνων μηδενικών δειγμάτων (zero-shot) και λίγων δειγμάτων (few-shot) σε μεγάλη κλίμακα.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

Πηγές

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/el/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Αναφέρεται από

ScholarGateMultimodal Image Classification (Multimodal Image Classification (Vision + Auxiliary Modality Fusion)). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/deep-learning/multimodal-image-classification · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026