ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodal bildeklassifisering

Multimodal bildeklassifisering utvider standard visuell klassifisering ved å inkorporere tilleggsmodaliteter – som tekstbeskrivelser, lyd eller strukturert metadata – sammen med bildeegenskaper. Separate kodere behandler hver modalitet, deres representasjoner fusjoneres, og en felles klassifikator tildeler måletiketten. Modeller som CLIP demonstrerer at bilde-tekst-justering muliggjør nullskudds- og fåskudds bildeklassifisering i stor skala.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Kilder

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Slik siterer du denne siden

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referert av

ScholarGateMultimodal Image Classification (Multimodal Image Classification (Vision + Auxiliary Modality Fusion)). Hentet 2026-06-15 fra https://scholargate.app/no/deep-learning/multimodal-image-classification · Datasett: https://doi.org/10.5281/zenodo.20539026