Process / pipeline
다중 양식 자연어 처리 — 시각-언어 이해
다중 양식 자연어 처리(Multimodal NLP)는 텍스트와 하나 이상의 추가 데이터 양식(가장 흔하게는 이미지, 하지만 오디오 및 비디오도 포함)을 결합하여 시각적 질의응답, 이미지 캡셔닝, 다중 양식 감성 인식과 같은 이해 및 생성 작업을 수행하는 자연어 처리 파이프라인의 한 종류입니다. 이 분야는 CLIP(Radford 등, 2021)과 함께 현대적인 형태를 갖추게 되었으며, 이후 고정된 이미지 인코더와 대규모 언어 모델을 연결하는 BLIP-2(Li 등, 2023)와 같은 아키텍처를 통해 발전해 왔습니다.
방법 전문 읽기
회원 전용
로그인무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.
Method map
The neighbourhood of related methods — select a node to explore.
출처
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
이 페이지 인용 방법
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ko/text-mining/multimodal-nlp
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
Compare side by side →