Tại sao việc gán nhãn từ loại không phải là điều tầm thường?

Nhiều từ có tính mơ hồ — 'book' có thể là danh từ hoặc động từ — vì vậy thẻ chính xác phụ thuộc vào ngữ cảnh. Các mô hình chuỗi giải quyết vấn đề này bằng cách xem xét các từ và thẻ xung quanh một cách đồng thời.

Gán nhãn từ loại và Gán nhãn chuỗi

Gán một nhãn cho mỗi mã thông báo (token) trong một câu — từ loại, loại thực thể được đặt tên hoặc thẻ phân đoạn — bằng cách sử dụng các mô hình chuỗi xác suất như mô hình Markov ẩn và trường ngẫu nhiên có điều kiện.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Gán nhãn chuỗi là nhiệm vụ gán một nhãn phân loại cho mỗi phần tử của một chuỗi đầu vào, với việc gán nhãn từ loại là trường hợp điển hình.

Scope

Bao gồm các nhiệm vụ gán nhãn chuỗi trọng tâm trong phân tích nông: gán nhãn từ loại, nhận dạng thực thể được đặt tên và phân đoạn. Nó bao gồm các mô hình tiêu chuẩn — mô hình Markov ẩn, mô hình Markov entropy cực đại, trường ngẫu nhiên có điều kiện và bộ gắn nhãn chuỗi thần kinh — và các bộ thẻ như Penn Treebank và Universal POS. Phân tích cú pháp đầy đủ được đề cập trong các chủ đề liên quan.

Core questions

Làm thế nào các mô hình Markov ẩn gán chuỗi thẻ có khả năng nhất?
Tại sao các trường ngẫu nhiên có điều kiện hoạt động tốt hơn các mô hình được chuẩn hóa cục bộ?
Các bộ thẻ được thiết kế và chuẩn hóa giữa các ngôn ngữ như thế nào?
Gán nhãn chuỗi hỗ trợ phân tích cú pháp và trích xuất tiếp theo như thế nào?

Key concepts

thẻ từ loại
mô hình Markov ẩn
thuật toán Viterbi
trường ngẫu nhiên có điều kiện
nhận dạng thực thể được đặt tên
phân đoạn
bộ thẻ
mã hóa BIO

Key theories

Gán nhãn mô hình Markov ẩn: Mô hình hóa một chuỗi thẻ như một chuỗi Markov phát ra các từ được quan sát, với thuật toán Viterbi khôi phục chuỗi thẻ có khả năng nhất một cách hiệu quả.
Trường ngẫu nhiên có điều kiện: Các mô hình phân biệt được chuẩn hóa toàn cục để gán nhãn chuỗi dựa trên toàn bộ đầu vào và tránh sai lệch nhãn của các mô hình được chuẩn hóa cục bộ.

History

Gán nhãn POS là một thành công ban đầu của NLP thống kê khi Penn Treebank (1993) cung cấp dữ liệu được chú thích lớn. Các bộ gắn nhãn mô hình Markov ẩn đã nhường chỗ cho các mô hình entropy cực đại phân biệt và trường ngẫu nhiên có điều kiện vào khoảng năm 2001, sau đó được tích hợp vào các bộ gắn nhãn chuỗi thần kinh vào những năm 2010.

Debates

Mô hình chuỗi sinh thành so với phân biệt: Liệu có nên mô hình hóa phân phối chung của từ và thẻ (HMMs) hay điều kiện nhãn trực tiếp trên đầu vào (CRFs); các mô hình phân biệt thường vượt trội về độ chính xác khi có sẵn các đặc trưng phong phú.

Key figures

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

Seminal works

marcus1993
lafferty2001

Frequently asked questions

Tại sao việc gán nhãn từ loại không phải là điều tầm thường?: Nhiều từ có tính mơ hồ — 'book' có thể là danh từ hoặc động từ — vì vậy thẻ chính xác phụ thuộc vào ngữ cảnh. Các mô hình chuỗi giải quyết vấn đề này bằng cách xem xét các từ và thẻ xung quanh một cách đồng thời.