Treebank và Ngữ liệu chú thích
Các ngữ liệu được chú thích thủ công với cấu trúc ngôn ngữ — cây cú pháp, phần phụ thuộc, nghĩa và thực thể — đóng vai trò là dữ liệu huấn luyện và tiêu chuẩn vàng cho ngôn ngữ học tính toán.
Definition
Một treebank là một ngữ liệu trong đó mỗi câu được chú thích với cấu trúc cú pháp của nó; rộng hơn, một ngữ liệu được chú thích mang các nhãn ngôn ngữ rõ ràng được thêm vào bởi con người.
Scope
Đề cập đến việc thiết kế và xây dựng các ngữ liệu được chú thích, đặc biệt là các treebank mang cú pháp thành phần hoặc phụ thuộc, cũng như các quy trình chú thích, hướng dẫn và kiểm soát chất lượng đằng sau chúng. Nó bao gồm truyền thống Penn Treebank và nỗ lực Phụ thuộc Phổ quát (Universal Dependencies) đa ngôn ngữ, cùng với vai trò của sự đồng thuận giữa những người chú thích. Thiết kế ngữ liệu chung và các tài nguyên từ vựng được đề cập trong các chủ đề liên quan.
Core questions
- Các treebank được thiết kế như thế nào và chúng sử dụng các lược đồ chú thích nào?
- Tại sao các ngữ liệu được chú thích lại không thể thiếu cho học có giám sát?
- Chất lượng chú thích được đảm bảo và đo lường như thế nào?
- Chú thích đa ngôn ngữ như Phụ thuộc Phổ quát đạt được tính nhất quán như thế nào?
Key concepts
- treebank
- lược đồ chú thích
- hướng dẫn chú thích
- tiêu chuẩn vàng
- sự đồng thuận giữa những người chú thích
- Penn Treebank
- Phụ thuộc Phổ quát
- phán quyết
Key theories
- Học có giám sát dựa trên Treebank
- Các ngữ liệu cú pháp được chú thích thủ công cung cấp tín hiệu giám sát giúp phân tích cú pháp thống kê, gắn thẻ và nhiều tác vụ Xử lý ngôn ngữ tự nhiên (NLP) trở nên khả thi.
- Chú thích hài hòa đa ngôn ngữ
- Phụ thuộc Phổ quát áp dụng một lược đồ chú thích duy nhất trên nhiều ngôn ngữ, cho phép các treebank có thể so sánh và chuyển giao các mô hình.
History
Penn Treebank (1993) là ngữ liệu lớn đầu tiên được chú thích cú pháp và đã thúc đẩy quá trình phân tích cú pháp thống kê. Các treebank tiếp theo đã bổ sung các lớp ngữ nghĩa và diễn ngôn, và dự án Phụ thuộc Phổ quát đã chuẩn hóa chú thích trên các ngôn ngữ, trở thành tài nguyên treebank đa ngôn ngữ trên thực tế.
Debates
- Độ sâu chú thích so với tính nhất quán
- Chú thích phong phú hơn nắm bắt nhiều chi tiết ngôn ngữ hơn nhưng khó áp dụng một cách nhất quán; các dự án phải cân bằng sự tinh vi về lý thuyết với chú thích đáng tin cậy, có thể mở rộng.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- Tại sao phải xây dựng treebank thủ công nếu đã có các bộ phân tích cú pháp?
- Các bộ phân tích cú pháp được huấn luyện và đánh giá dựa trên các treebank được chú thích thủ công, đóng vai trò là tiêu chuẩn vàng. Nếu không có chú thích thủ công đáng tin cậy, sẽ không có gì để học hỏi hoặc để đo lường độ chính xác.