Xử lý ngôn ngữ tự nhiên thống kê và thần kinh (Statistical and Neural NLP)
Cốt lõi dựa trên dữ liệu của ngôn ngữ học tính toán hiện đại: các phương pháp học máy học hỏi từ văn bản, từ bộ phân loại thống kê và nhúng từ đến mạng thần kinh dựa trên transformer và các mô hình ngôn ngữ lớn.
Definition
Xử lý ngôn ngữ tự nhiên thống kê và thần kinh (Statistical and neural NLP) là tập hợp các phương pháp học máy suy luận khả năng xử lý ngôn ngữ từ dữ liệu thay vì từ các quy tắc được viết thủ công.
Scope
Bao gồm các phương pháp dựa trên học tập chiếm ưu thế trong NLP đương đại — phân loại văn bản có giám sát, biểu diễn từ phân tán và mô hình ngôn ngữ thần kinh, kiến trúc tuần tự-tuần tự (sequence-to-sequence) và transformer, và dịch máy như một ứng dụng hàng đầu. Nó đặt cuộc cách mạng thống kê của những năm 1990 và cuộc cách mạng thần kinh của những năm 2010 như một quỹ đạo liên tục. Biểu diễn ngôn ngữ và các ứng dụng được đề cập trong các lĩnh vực liền kề.
Sub-topics
Core questions
- Các tác vụ ngôn ngữ được xây dựng như các bài toán học có giám sát như thế nào?
- Các biểu diễn phân tán nắm bắt ý nghĩa của từ và câu như thế nào?
- Điều gì đã làm cho kiến trúc transformer trở nên hiệu quả như vậy đối với ngôn ngữ?
- Các phương pháp thống kê và sau đó là thần kinh đã trở nên thống trị lĩnh vực này như thế nào?
Key concepts
- học có giám sát
- biểu diễn đặc trưng
- nhúng từ
- mạng thần kinh
- tự chú ý (self-attention)
- transformer
- học chuyển giao (transfer learning)
- mô hình ngôn ngữ lớn
Key theories
- Học biểu diễn phân phối (Distributional representation learning)
- Biểu diễn các từ và văn bản dưới dạng các vectơ dày đặc được học từ sự đồng xuất hiện trong các ngữ liệu lớn, sao cho sự tương đồng ngữ nghĩa trở thành sự gần gũi về mặt hình học.
- Tự chú ý và transformer (Self-attention and transformers)
- Một kiến trúc mô hình hóa mối quan hệ giữa tất cả các mã thông báo (tokens) trong một chuỗi thông qua cơ chế chú ý (attention), cho phép huấn luyện song song cao và là nền tảng của các mô hình ngôn ngữ lớn hiện đại.
History
Cuộc cách mạng thống kê những năm 1990 đã thay thế các quy tắc được xây dựng thủ công bằng các mô hình xác suất được ước tính từ các ngữ liệu. Nhúng từ (word embeddings) và mạng hồi quy (recurrent networks) vào đầu những năm 2010, tiếp theo là transformer năm 2017 và các mô hình tiền huấn luyện lớn, đã tạo ra những bước tiến nhanh chóng trên hầu hết mọi tác vụ và định hình lại lĩnh vực này xung quanh các biểu diễn đã học.
Debates
- Các mô hình thần kinh có hiểu ngôn ngữ không?
- Việc các mô hình thần kinh lớn có nắm bắt được năng lực ngôn ngữ và ý nghĩa thực sự hay chỉ khai thác các thống kê bề mặt; câu hỏi này thúc đẩy công việc đang diễn ra về khả năng giải thích và đánh giá.
Key figures
- Christopher Manning
- Yoshua Bengio
- Ashish Vaswani
- Tomas Mikolov
Related topics
Seminal works
- manning1999
- vaswani2017
- jurafsky2025
Frequently asked questions
- Xử lý ngôn ngữ tự nhiên thống kê (statistical NLP) có lỗi thời không khi các mô hình thần kinh đã xuất hiện?
- Không. Xử lý ngôn ngữ tự nhiên thần kinh (neural NLP) dựa trên cùng một nền tảng thống kê — xác suất, ước lượng và đánh giá — và nhiều ý tưởng như làm mịn (smoothing), phân loại và mô hình hóa ngôn ngữ được chuyển trực tiếp vào môi trường thần kinh.