Hình thái học tính toán
Mô hình hóa cấu trúc bên trong của từ bằng máy móc — phân tích, tạo từ, tách gốc từ, chuẩn hóa từ và phân đoạn từ phụ — từ hình thái học trạng thái hữu hạn đến mã hóa cặp byte được sử dụng bởi các hệ thống thần kinh hiện đại.
Definition
Hình thái học tính toán là phân tích và tạo ra các dạng từ theo thuật toán dựa trên các hình vị cấu thành và các đặc điểm hình thái của chúng.
Scope
Bao gồm việc xử lý tính toán cấu trúc từ: phân tích và tạo hình thái học bằng bộ chuyển đổi trạng thái hữu hạn, hình thái học hai cấp độ, tách gốc từ và chuẩn hóa từ, và phân đoạn từ phụ dựa trên dữ liệu như mã hóa cặp byte. Nó đề cập đến biến tố, cấu tạo từ và ghép từ trên các ngôn ngữ đa dạng về loại hình. Cơ chế trạng thái hữu hạn cơ bản được trình bày chi tiết trong lĩnh vực nền tảng.
Core questions
- Các biến đổi hình thái học được mô hình hóa bằng bộ chuyển đổi trạng thái hữu hạn như thế nào?
- Sự khác biệt giữa tách gốc từ và chuẩn hóa từ là gì?
- Phân đoạn từ phụ xử lý các từ hiếm và chưa từng thấy trong các mô hình thần kinh như thế nào?
- Tại sao hình thái học khó hơn đối với các ngôn ngữ chắp dính và khuôn mẫu?
Key concepts
- hình vị
- biến tố và cấu tạo từ
- hình thái học hai cấp độ
- bộ chuyển đổi trạng thái hữu hạn
- tách gốc từ
- chuẩn hóa từ
- mã hóa cặp byte
- chắp dính
Key theories
- Hình thái học hai cấp độ
- Mô hình của Koskenniemi liên hệ các dạng từ bề mặt và từ vựng thông qua các quy tắc trạng thái hữu hạn song song, cho phép một ngữ pháp duy nhất vừa phân tích vừa tạo ra các dạng từ.
- Phân đoạn từ phụ dựa trên dữ liệu
- Học một bộ từ vựng các chuỗi ký tự thường xuyên, như trong mã hóa cặp byte, để các mô hình thần kinh có thể biểu diễn bất kỳ từ nào dưới dạng một chuỗi các đơn vị từ phụ.
History
Hình thái học hai cấp độ của Koskenniemi năm 1983 đã thiết lập các phương pháp trạng thái hữu hạn làm tiêu chuẩn cho xử lý hình thái học, được củng cố trong cẩm nang của Beesley và Karttunen. Khi các mô hình thần kinh phát triển, các bộ phân tích hình thái học được xây dựng thủ công đã được bổ sung bằng phân đoạn từ phụ học được như mã hóa cặp byte, bỏ qua hình thái học rõ ràng trong khi xử lý các từ hiếm.
Debates
- Hình thái học rõ ràng so với các đơn vị từ phụ
- Liệu các hệ thống thần kinh có cần phân tích hình thái học có thông tin ngôn ngữ hay phân đoạn từ phụ thống kê là đủ; câu trả lời dường như phụ thuộc vào loại ngôn ngữ và quy mô dữ liệu.
Key figures
- Kimmo Koskenniemi
- Lauri Karttunen
- Kenneth Beesley
- Rico Sennrich
Related topics
Seminal works
- koskenniemi1983
- beesley2003
- sennrich2016
Frequently asked questions
- Sự khác biệt giữa tách gốc từ và chuẩn hóa từ là gì?
- Tách gốc từ cắt bỏ các phụ tố một cách thô sơ để tạo ra một gốc chung (ví dụ: 'studies' thành 'studi'), trong khi chuẩn hóa từ ánh xạ một từ về dạng từ điển của nó bằng cách sử dụng kiến thức hình thái học (ví dụ: 'studies' thành 'study').