ScholarGate
어시스턴트
Process / pipeline

다중 양식 자연어 처리 — 시각-언어 이해

다중 양식 자연어 처리(Multimodal NLP)는 텍스트와 하나 이상의 추가 데이터 양식(가장 흔하게는 이미지, 하지만 오디오 및 비디오도 포함)을 결합하여 시각적 질의응답, 이미지 캡셔닝, 다중 양식 감성 인식과 같은 이해 및 생성 작업을 수행하는 자연어 처리 파이프라인의 한 종류입니다. 이 분야는 CLIP(Radford 등, 2021)과 함께 현대적인 형태를 갖추게 되었으며, 이후 고정된 이미지 인코더와 대규모 언어 모델을 연결하는 BLIP-2(Li 등, 2023)와 같은 아키텍처를 통해 발전해 왔습니다.

MethodMind에서 열기곧 제공동영상곧 제공Download slides

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

Method map

The neighbourhood of related methods — select a node to explore.

출처

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

이 페이지 인용 방법

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ko/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). 2026-06-15에 다음에서 검색함: https://scholargate.app/ko/text-mining/multimodal-nlp · 데이터셋: https://doi.org/10.5281/zenodo.20539026