Sự khác biệt giữa nhúng tĩnh và nhúng theo ngữ cảnh là gì?

Nhúng tĩnh gán cho một từ một vector cố định bất kể ngữ cảnh, vì vậy 'bank' có một biểu diễn duy nhất. Nhúng theo ngữ cảnh tạo ra một vector khác cho mỗi lần xuất hiện, phân biệt bờ sông (river bank) với ngân hàng (financial bank).

Mô hình ngôn ngữ thần kinh và nhúng từ

Học các biểu diễn vector dày đặc của từ và ngữ cảnh từ văn bản thô — từ nhúng word2vec đến các biểu diễn theo ngữ cảnh như BERT — mã hóa ý nghĩa dưới dạng hình học.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Nhúng từ là một vector giá trị thực dày đặc biểu thị ý nghĩa của một từ, được học sao cho sự tương đồng phân bố được phản ánh trong sự gần gũi của không gian vector; nhúng theo ngữ cảnh mở rộng điều này thành các biểu diễn phụ thuộc vào văn bản xung quanh.

Scope

Bao gồm các biểu diễn ngôn ngữ phân tán và thần kinh: giả thuyết phân bố, nhúng từ tĩnh như word2vec và GloVe, mô hình ngôn ngữ thần kinh và nhúng theo ngữ cảnh từ các mô hình transformer được huấn luyện trước như BERT. Nó đề cập đến cách các biểu diễn được huấn luyện, đánh giá và chuyển giao cho các tác vụ hạ nguồn. Chi tiết kiến trúc transformer và sinh văn bản được đề cập trong một chủ đề liên quan.

Core questions

Giả thuyết phân bố là gì và cách nhúng vận hành nó như thế nào?
Word2vec học các vector từ từ sự đồng xuất hiện như thế nào?
Nhúng theo ngữ cảnh khác với nhúng tĩnh như thế nào?
Tại sao huấn luyện trước và học chuyển giao lại thay đổi NLP?

Key concepts

giả thuyết phân bố
nhúng từ
word2vec
skip-gram
nhúng theo ngữ cảnh
huấn luyện trước và tinh chỉnh
học chuyển giao
mô hình ngôn ngữ che mặt

Key theories

Giả thuyết phân bố: Ý tưởng rằng các từ xuất hiện trong các ngữ cảnh tương tự có ý nghĩa tương tự, điều này làm nền tảng cho tất cả các phương pháp nhúng bằng cách suy ra ý nghĩa từ thống kê đồng xuất hiện.
Huấn luyện trước theo ngữ cảnh: Huấn luyện trước các mô hình hai chiều sâu trên văn bản không gắn nhãn lớn, như trong BERT, để tạo ra các biểu diễn nhạy cảm với ngữ cảnh có thể chuyển giao cho nhiều tác vụ hạ nguồn với ít tinh chỉnh.

History

Giả thuyết phân bố của Harris lần đầu tiên được vận hành bởi các mô hình không gian vector dựa trên số lượng, sau đó là mô hình ngôn ngữ thần kinh của Bengio (2003) và word2vec hiệu quả của Mikolov (2013). Sự xuất hiện của các mô hình theo ngữ cảnh như ELMo và BERT vào năm 2018–2019 đã biến việc huấn luyện trước và tinh chỉnh thành mô hình chủ đạo.

Debates

Nhúng thực sự mã hóa điều gì?: Liệu các biểu diễn đã học có nắm bắt được cấu trúc ngữ nghĩa và cú pháp thực sự hay chỉ là các quy tắc đồng xuất hiện và các thành kiến có trong dữ liệu huấn luyện, một câu hỏi trung tâm cho khả năng giải thích.

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

Sự khác biệt giữa nhúng tĩnh và nhúng theo ngữ cảnh là gì?: Nhúng tĩnh gán cho một từ một vector cố định bất kể ngữ cảnh, vì vậy 'bank' có một biểu diễn duy nhất. Nhúng theo ngữ cảnh tạo ra một vector khác cho mỗi lần xuất hiện, phân biệt bờ sông (river bank) với ngân hàng (financial bank).