신경망 언어 모델 및 단어 임베딩
단어2vec 임베딩부터 BERT와 같은 문맥적 표현에 이르기까지, 원시 텍스트에서 단어와 문맥의 밀집 벡터 표현을 학습하여 의미를 기하학적으로 인코딩합니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
단어 임베딩은 단어의 의미를 나타내는 밀집된 실수 값 벡터로, 분포적 유사성이 벡터 공간 근접성에 반영되도록 학습됩니다. 문맥적 임베딩은 이를 주변 텍스트에 따라 달라지는 표현으로 확장합니다.
Scope
언어의 분포적 및 신경망 표현을 다룹니다: 분포 가설, word2vec 및 GloVe와 같은 정적 단어 임베딩, 신경망 언어 모델, 그리고 BERT와 같은 사전 훈련된 트랜스포머의 문맥적 임베딩. 표현이 어떻게 훈련되고, 평가되며, 다운스트림 작업으로 전이되는지를 다룹니다. 트랜스포머 아키텍처 세부 사항 및 생성은 관련 주제에서 다룹니다.
Core questions
- 분포 가설이란 무엇이며 임베딩은 이를 어떻게 구현합니까?
- word2vec은 동시 발생으로부터 단어 벡터를 어떻게 학습합니까?
- 문맥적 임베딩은 정적 임베딩과 어떻게 다릅니까?
- 사전 훈련과 전이 학습이 자연어 처리(NLP)를 어떻게 변화시켰습니까?
Key concepts
- 분포 가설
- 단어 임베딩
- word2vec
- 스킵-그램
- 문맥적 임베딩
- 사전 훈련 및 미세 조정
- 전이 학습
- 마스크드 언어 모델링
Key theories
- 분포 가설
- 유사한 문맥에서 발생하는 단어는 유사한 의미를 가진다는 개념으로, 동시 발생 통계에서 의미를 도출함으로써 모든 임베딩 방법의 기반이 됩니다.
- 문맥적 사전 훈련
- BERT에서와 같이 대규모 레이블 없는 텍스트에 대해 깊은 양방향 모델을 사전 훈련하여, 적은 미세 조정으로 많은 다운스트림 작업으로 전이되는 문맥 감지 표현을 생성합니다.
History
Harris의 분포 가설은 처음에는 카운트 기반 벡터 공간 모델에 의해, 그 다음에는 Bengio의 신경망 언어 모델(2003)과 Mikolov의 효율적인 word2vec(2013)에 의해 구현되었습니다. 2018-2019년에 ELMo 및 BERT와 같은 문맥 모델의 등장은 사전 훈련-미세 조정 패러다임을 지배적으로 만들었습니다.
Debates
- 임베딩은 실제로 무엇을 인코딩합니까?
- 학습된 표현이 진정한 의미론적 및 구문론적 구조를 포착하는지, 아니면 훈련 데이터에 존재하는 동시 발생 규칙성과 편향만을 포착하는지에 대한 논쟁은 해석 가능성에 대한 핵심 질문입니다.
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- 정적 임베딩과 문맥적 임베딩의 차이점은 무엇입니까?
- 정적 임베딩은 문맥에 관계없이 단어에 하나의 고정된 벡터를 부여하므로 'bank'는 단일 표현을 가집니다. 문맥적 임베딩은 각 발생에 대해 다른 벡터를 생성하여 강둑(river bank)과 금융 은행(financial bank)을 구별합니다.