Phân tích cú pháp
Phân tích cú pháp là nhiệm vụ khôi phục cấu trúc ngữ pháp của một câu, gán cho nó một cây thành phần hoặc một cấu trúc phụ thuộc cho thấy cách các từ kết hợp và liên quan với nhau.
Definition
Phân tích cú pháp ánh xạ một câu đến một biểu diễn cấu trúc ngữ pháp của nó—thường là một cây thành phần (cấu trúc cụm từ) hoặc một đồ thị phụ thuộc—theo một ngữ pháp hoặc một mô hình được học từ dữ liệu đã được chú thích.
Scope
Chủ đề này bao gồm phân tích cấu trúc câu: ngữ pháp phi ngữ cảnh và ngữ pháp phong phú hơn, phân tích thành phần (cây cấu trúc cụm từ) và phân tích phụ thuộc (quan hệ chủ-phụ), các thuật toán phân tích biểu đồ cổ điển như CKY và Earley, cũng như phân tích xác suất và dựa trên dữ liệu được huấn luyện trên các ngân hàng cây cú pháp (treebanks). Nó đề cập đến cách biểu diễn và giải quyết sự mơ hồ về cú pháp. Việc sử dụng cấu trúc cú pháp để tính toán ý nghĩa được đề cập trong ngữ nghĩa tính toán.
Core questions
- Cấu trúc ngữ pháp của một câu được biểu diễn như thế nào, dưới dạng các thành phần hay các phụ thuộc?
- Các thuật toán phân tích biểu đồ khám phá nhiều phân tích có thể có của một câu một cách hiệu quả như thế nào?
- Sự mơ hồ về cú pháp được xử lý như thế nào, và các mô hình xác suất chọn giữa các phân tích cú pháp như thế nào?
- Các bộ phân tích được huấn luyện và đánh giá như thế nào bằng cách sử dụng các ngữ liệu được chú thích (treebanks)?
Key concepts
- cây thành phần (cấu trúc cụm từ)
- cấu trúc phụ thuộc
- ngữ pháp phi ngữ cảnh
- phân tích cú pháp CKY và Earley
- ngữ pháp phi ngữ cảnh xác suất
- sự mơ hồ về cú pháp
- ngân hàng cây cú pháp (treebanks)
- thẻ từ loại (part-of-speech tags)
Key theories
- Ngữ pháp phi ngữ cảnh và phân tích biểu đồ
- Ngữ pháp phi ngữ cảnh mô hình cấu trúc cụm từ, và các bộ phân tích biểu đồ lập trình động như thuật toán CKY và Earley khôi phục tất cả các phân tích hợp lệ trong thời gian đa thức bằng cách tái sử dụng các phân tích của các đoạn con.
- Phân tích cú pháp xác suất
- Việc gán xác suất cho các quy tắc ngữ pháp (như trong ngữ pháp phi ngữ cảnh xác suất) cho phép bộ phân tích xếp hạng các phân tích cạnh tranh và chọn cấu trúc có khả năng nhất, giải quyết sự mơ hồ phổ biến của cú pháp ngôn ngữ tự nhiên.
- Ngân hàng cây cú pháp và phân tích cú pháp dựa trên dữ liệu
- Các ngữ liệu được chú thích lớn như Penn Treebank đã cung cấp dữ liệu huấn luyện và đánh giá biến phân tích cú pháp thành một nhiệm vụ dựa trên dữ liệu, cho phép các bộ phân tích thống kê và sau này là mạng nơ-ron được học từ các cấu trúc do con người chú thích.
Clinical relevance
Phân tích cú pháp hỗ trợ kiểm tra ngữ pháp, trích xuất thông tin, trả lời câu hỏi và dịch máy, bằng cách làm rõ cách các từ nhóm lại và liên quan; cấu trúc phụ thuộc đặc biệt được sử dụng rộng rãi làm đầu vào cho các hệ thống ngữ nghĩa và trích xuất tiếp theo.
History
Phân tích cú pháp được xây dựng dựa trên ngữ pháp hình thức của Chomsky; các thuật toán CKY (những năm 1960) và Earley (1970) đã cung cấp khả năng phân tích phi ngữ cảnh hiệu quả. Penn Treebank (1993) đã thúc đẩy phân tích thống kê, và các bộ phân tích xác suất và sau này là mạng nơ-ron đã dần cải thiện độ chính xác và độ bền trên văn bản thực.
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- Sự khác biệt giữa phân tích thành phần và phân tích phụ thuộc là gì?
- Phân tích thành phần nhóm các từ thành các cụm từ lồng nhau (như cụm danh từ và cụm động từ), tạo ra một cây các thành phần. Phân tích phụ thuộc thay vào đó liên kết mỗi từ với từ mà nó phụ thuộc vào (đầu của nó), tạo ra một đồ thị các quan hệ ngữ pháp. Cả hai đều nắm bắt cấu trúc cú pháp nhưng nhấn mạnh các khía cạnh khác nhau.
- Tại sao phân tích cú pháp lại khó mặc dù ngữ pháp được định nghĩa rõ ràng?
- Các câu ngôn ngữ tự nhiên rất mơ hồ: một câu có thể có nhiều cấu trúc ngữ pháp hợp lệ, và số lượng có thể tăng nhanh theo độ dài câu. Việc chọn phân tích dự định đòi hỏi các ưu tiên thống kê hoặc được học, chứ không chỉ là một ngữ pháp, đó là điều làm cho việc phân tích cú pháp trở nên thách thức.