ScholarGate
Βοηθός
Process / pipeline

Πολυτροπική Επεξεργασία Φυσικής Γλώσσας (NLP) — Κατανόηση Όρασης-Γλώσσας

Η Πολυτροπική Επεξεργασία Φυσικής Γλώσσας (Multimodal NLP) είναι μια οικογένεια διοχετεύσεων επεξεργασίας φυσικής γλώσσας που συνδυάζουν κείμενο με μία ή περισσότερες πρόσθετες τροπικότητες δεδομένων — συνηθέστερα εικόνες, αλλά και ήχο και βίντεο — για την εκτέλεση εργασιών κατανόησης και παραγωγής, όπως η οπτική απάντηση σε ερωτήσεις, η λεζάντα εικόνων και η πολυτροπική αναγνώριση συναισθήματος. Το πεδίο απέκτησε τη σύγχρονη μορφή του με το CLIP (Radford et al., 2021) και έκτοτε έχει προοδεύσει μέσω αρχιτεκτονικών όπως το BLIP-2 (Li et al., 2023) που γεφυρώνουν παγωμένους κωδικοποιητές εικόνας και μεγάλα γλωσσικά μοντέλα.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

Πηγές

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/el/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/text-mining/multimodal-nlp · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026