ニューラル言語モデルと単語埋め込み
単語の意味を幾何学的に符号化する、word2vec埋め込みからBERTのような文脈表現に至るまで、生テキストから単語と文脈の密なベクトル表現を学習する。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
単語埋め込みとは、単語の意味を表す密な実数値ベクトルであり、分布類似性がベクトル空間の近接性に反映されるように学習される。文脈埋め込みは、これを周囲のテキストに依存する表現に拡張する。
Scope
言語の分散表現とニューラル表現を対象とする:分布仮説、word2vecやGloVeのような静的単語埋め込み、ニューラル言語モデル、BERTのような事前学習済みトランスフォーマーからの文脈埋め込み。表現がどのように学習され、評価され、下流タスクに転移されるかについて扱う。トランスフォーマーアーキテクチャの詳細と生成については、関連トピックでカバーされる。
Core questions
- 分布仮説とは何か、そして埋め込みはそれをどのように操作化するのか?
- word2vecは共起から単語ベクトルをどのように学習するのか?
- 文脈埋め込みは静的埋め込みとどう異なるのか?
- なぜ事前学習と転移学習はNLPを変革したのか?
Key concepts
- 分布仮説
- 単語埋め込み
- word2vec
- スキップグラム
- 文脈埋め込み
- 事前学習とファインチューニング
- 転移学習
- マスク化言語モデリング
Key theories
- 分布仮説
- 類似した文脈で出現する単語は類似した意味を持つという考え方であり、共起統計から意味を導き出すことで、すべての埋め込み手法の基礎となっている。
- 文脈事前学習
- BERTのように、大規模なラベルなしテキストで深層双方向モデルを事前学習し、ファインチューニングをほとんど行わずに多くの下流タスクに転移できる文脈依存の表現を生成すること。
History
ハリスの分布仮説は、まずカウントベースのベクトル空間モデルによって操作化され、次にベンジオのニューラル言語モデル(2003年)とミコロフの効率的なword2vec(2013年)によって操作化された。2018年から2019年にかけてELMoやBERTのような文脈モデルが登場し、事前学習とファインチューニングが主要なパラダイムとなった。
Debates
- 埋め込みは実際に何を符号化しているのか?
- 学習された表現が真の意味的および統語的構造を捉えているのか、それとも訓練データに存在する共起の規則性やバイアスを単に捉えているのかという、解釈可能性の中心的な問題。
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- 静的埋め込みと文脈埋め込みの違いは何ですか?
- 静的埋め込みは、文脈に関係なく単語に固定された1つのベクトルを与えるため、「bank」は単一の表現を持ちます。文脈埋め込みは、各出現に対して異なるベクトルを生成し、川岸と金融機関の「bank」を区別します。