ScholarGate
Trợ lý

Tài nguyên Từ vựng và Ngữ liệu

Các cơ sở dữ liệu và tri thức mà ngôn ngữ học tính toán thực nghiệm phụ thuộc vào: ngữ liệu văn bản, cơ sở dữ liệu từ vựng và bản thể học, các phương pháp xử lý cấu trúc từ bằng máy tính, và các ngân hàng cây cú pháp được chú thích phong phú.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Tài nguyên từ vựng và ngữ liệu là các tập hợp dữ liệu ngôn ngữ có cấu trúc — văn bản, từ vựng và chú thích — được xây dựng để hỗ trợ phân tích thực nghiệm và huấn luyện các hệ thống xử lý ngôn ngữ.

Scope

Bao gồm việc xây dựng, quản lý và sử dụng các tài nguyên ngôn ngữ — ngữ liệu cân bằng và ngữ liệu web, các cơ sở dữ liệu từ vựng-ngữ nghĩa như WordNet, hình thái học tính toán và từ điển, và các ngân hàng cây cú pháp được chú thích. Nó đề cập đến thiết kế ngữ liệu, tính đại diện, tiêu chuẩn chú thích, và vai trò của tài nguyên trong việc huấn luyện và đánh giá hệ thống. Mô hình hóa thuật toán sử dụng các tài nguyên này được đề cập ở các lĩnh vực khác.

Sub-topics

Core questions

  • Ngữ liệu được thiết kế như thế nào để có tính đại diện và cân bằng?
  • Làm thế nào để tổ chức ý nghĩa từ thành các cơ sở dữ liệu từ vựng có thể đọc được bằng máy?
  • Cấu trúc từ được biểu diễn bằng máy tính như thế nào trong các ngôn ngữ giàu hình thái?
  • Tại sao các ngân hàng cây cú pháp được chú thích lại là trung tâm của ngôn ngữ học dựa trên dữ liệu?

Key concepts

  • ngữ liệu
  • tính đại diện
  • cơ sở dữ liệu từ vựng
  • WordNet
  • tập hợp từ đồng nghĩa (synset)
  • từ điển hình thái
  • ngân hàng cây cú pháp (treebank)
  • tiêu chuẩn chú thích

Key theories

Chủ nghĩa kinh nghiệm dựa trên ngữ liệu
Quan điểm phương pháp luận cho rằng các khái quát hóa ngôn ngữ và các tham số hệ thống nên được dựa trên các mẫu lớn của cách sử dụng đã được chứng thực hơn là chỉ dựa vào sự nội quan.
Mạng lưới từ vựng-ngữ nghĩa
Tổ chức từ vựng như một đồ thị các nghĩa được liên kết bởi các quan hệ như đồng nghĩa và siêu nghĩa, như trong WordNet, hỗ trợ các tác vụ từ phân giải nghĩa đến độ tương đồng ngữ nghĩa.

History

Sự chuyển đổi sang các phương pháp thực nghiệm vào những năm 1990 đã biến ngữ liệu và tài nguyên từ vựng thành nền tảng. WordNet cung cấp một cơ sở dữ liệu từ vựng-ngữ nghĩa có thể tái sử dụng, các ngữ liệu cân bằng như British National Corpus đã thiết lập các tiêu chuẩn thiết kế, và công trình của Kilgarriff và Grefenstette đã hợp pháp hóa chính Web như một ngữ liệu khổng lồ cho nghiên cứu ngôn ngữ học.

Debates

Ngữ liệu cân bằng so với Web như một ngữ liệu
Liệu các ngữ liệu được cân bằng cẩn thận hay Web rộng lớn nhưng lộn xộn phục vụ tốt hơn cho nghiên cứu ngôn ngữ học; lĩnh vực này ngày càng sử dụng cả hai, cân nhắc tính đại diện so với quy mô.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

Điều gì tạo nên một ngữ liệu tốt?
Một ngữ liệu tốt đủ lớn để có được thống kê đáng tin cậy và đại diện cho biến thể ngôn ngữ đang được nghiên cứu, với tài liệu rõ ràng về nguồn gốc, cách lấy mẫu và bất kỳ chú thích nào để kết quả có thể được giải thích và tái tạo.

Methods for this concept

Related concepts