Gán nhãn từ loại và Gán nhãn chuỗi
Gán một nhãn cho mỗi mã thông báo (token) trong một câu — từ loại, loại thực thể được đặt tên hoặc thẻ phân đoạn — bằng cách sử dụng các mô hình chuỗi xác suất như mô hình Markov ẩn và trường ngẫu nhiên có điều kiện.
Definition
Gán nhãn chuỗi là nhiệm vụ gán một nhãn phân loại cho mỗi phần tử của một chuỗi đầu vào, với việc gán nhãn từ loại là trường hợp điển hình.
Scope
Bao gồm các nhiệm vụ gán nhãn chuỗi trọng tâm trong phân tích nông: gán nhãn từ loại, nhận dạng thực thể được đặt tên và phân đoạn. Nó bao gồm các mô hình tiêu chuẩn — mô hình Markov ẩn, mô hình Markov entropy cực đại, trường ngẫu nhiên có điều kiện và bộ gắn nhãn chuỗi thần kinh — và các bộ thẻ như Penn Treebank và Universal POS. Phân tích cú pháp đầy đủ được đề cập trong các chủ đề liên quan.
Core questions
- Làm thế nào các mô hình Markov ẩn gán chuỗi thẻ có khả năng nhất?
- Tại sao các trường ngẫu nhiên có điều kiện hoạt động tốt hơn các mô hình được chuẩn hóa cục bộ?
- Các bộ thẻ được thiết kế và chuẩn hóa giữa các ngôn ngữ như thế nào?
- Gán nhãn chuỗi hỗ trợ phân tích cú pháp và trích xuất tiếp theo như thế nào?
Key concepts
- thẻ từ loại
- mô hình Markov ẩn
- thuật toán Viterbi
- trường ngẫu nhiên có điều kiện
- nhận dạng thực thể được đặt tên
- phân đoạn
- bộ thẻ
- mã hóa BIO
Key theories
- Gán nhãn mô hình Markov ẩn
- Mô hình hóa một chuỗi thẻ như một chuỗi Markov phát ra các từ được quan sát, với thuật toán Viterbi khôi phục chuỗi thẻ có khả năng nhất một cách hiệu quả.
- Trường ngẫu nhiên có điều kiện
- Các mô hình phân biệt được chuẩn hóa toàn cục để gán nhãn chuỗi dựa trên toàn bộ đầu vào và tránh sai lệch nhãn của các mô hình được chuẩn hóa cục bộ.
History
Gán nhãn POS là một thành công ban đầu của NLP thống kê khi Penn Treebank (1993) cung cấp dữ liệu được chú thích lớn. Các bộ gắn nhãn mô hình Markov ẩn đã nhường chỗ cho các mô hình entropy cực đại phân biệt và trường ngẫu nhiên có điều kiện vào khoảng năm 2001, sau đó được tích hợp vào các bộ gắn nhãn chuỗi thần kinh vào những năm 2010.
Debates
- Mô hình chuỗi sinh thành so với phân biệt
- Liệu có nên mô hình hóa phân phối chung của từ và thẻ (HMMs) hay điều kiện nhãn trực tiếp trên đầu vào (CRFs); các mô hình phân biệt thường vượt trội về độ chính xác khi có sẵn các đặc trưng phong phú.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- Tại sao việc gán nhãn từ loại không phải là điều tầm thường?
- Nhiều từ có tính mơ hồ — 'book' có thể là danh từ hoặc động từ — vì vậy thẻ chính xác phụ thuộc vào ngữ cảnh. Các mô hình chuỗi giải quyết vấn đề này bằng cách xem xét các từ và thẻ xung quanh một cách đồng thời.