Cơ sở dữ liệu và Bản thể học từ vựng
Các kho dữ liệu về ý nghĩa từ và mối quan hệ của chúng có thể đọc được bằng máy — WordNet, FrameNet và các bản thể học liên quan — cung cấp cho các hệ thống tính toán quyền truy cập có cấu trúc vào ngữ nghĩa từ vựng.
Definition
Cơ sở dữ liệu hoặc bản thể học từ vựng là một tài nguyên có cấu trúc ghi lại các nghĩa của từ và các mối quan hệ ngữ nghĩa giữa chúng dưới dạng có thể sử dụng được bởi các chương trình máy tính.
Scope
Bao gồm thiết kế và sử dụng các tài nguyên ngữ nghĩa từ vựng: các synset và quan hệ phân cấp của WordNet, các khung ngữ nghĩa và vai trò của FrameNet, cũng như các bản thể học tính toán rộng hơn. Nó đề cập đến cách các tài nguyên này mã hóa tính đồng nghĩa, tính siêu nghĩa và cấu trúc vị từ-đối số, cũng như cách chúng hỗ trợ việc giải quyết đa nghĩa và suy luận. Ngữ nghĩa từ vựng phân phối và mạng nơ-ron được đề cập trong ngữ nghĩa tính toán.
Core questions
- WordNet tổ chức các nghĩa thành các synset được liên kết bởi các quan hệ từ vựng như thế nào?
- FrameNet biểu diễn ý nghĩa theo các khung và vai trò như thế nào?
- Các tài nguyên này được sử dụng để giải quyết đa nghĩa và xác định sự tương đồng của từ như thế nào?
- Những hạn chế của các bản thể học từ vựng được xây dựng thủ công là gì?
Key concepts
- synset
- hypernymy và hyponymy
- meronymy
- khung ngữ nghĩa
- yếu tố khung
- giải quyết đa nghĩa của từ
- bản thể học từ vựng
- cấu trúc vị từ-đối số
Key theories
- Tổ chức từ vựng dựa trên Synset
- Mô hình hóa từ vựng dưới dạng các tập hợp từ đồng nghĩa (synset) được kết nối bởi các quan hệ như hypernymy và meronymy, như trong WordNet, tạo ra một cấu trúc đồ thị cho ý nghĩa từ.
- Ngữ nghĩa khung
- Biểu diễn ý nghĩa từ thông qua các tình huống (khung) mà nó gợi lên và các vai trò tham gia trong đó, được triển khai như một tài nguyên từ vựng trong FrameNet.
History
WordNet, được nhóm của George Miller bắt đầu vào những năm 1980 và được ghi lại vào năm 1995 và 1998, đã trở thành tài nguyên từ vựng được sử dụng rộng rãi nhất trong ngôn ngữ học tính toán. Ngữ nghĩa khung của Fillmore đã được triển khai thành FrameNet vào cuối những năm 1990, bổ sung cho WordNet bằng cấu trúc vị từ-đối số rõ ràng.
Debates
- Tài nguyên được xây dựng thủ công so với các biểu diễn được học
- Liệu các cơ sở dữ liệu từ vựng được quản lý vẫn còn giá trị trong kỷ nguyên của các biểu diễn nhúng được học; nhiều người cho rằng chúng vẫn cung cấp cấu trúc có thể diễn giải và sự thật cơ bản mà các mô hình phân phối còn thiếu.
Key figures
- George Miller
- Christiane Fellbaum
- Charles Fillmore
- Collin Baker
Related topics
Seminal works
- miller1995
- fellbaum1998
- baker1998
Frequently asked questions
- Synset trong WordNet là gì?
- Synset là một tập hợp các từ có thể thay thế cho nhau trong một số ngữ cảnh nhất định — các từ đồng nghĩa — được nhóm lại thành một khái niệm duy nhất và được liên kết với các synset khác bằng các quan hệ như 'là-một' và 'là-một-phần-của'.