ScholarGate
Trợ lý

Ngôn ngữ học ngữ liệu và Ngữ liệu web

Nghiên cứu ngôn ngữ thông qua các mẫu văn bản xác thực lớn: xây dựng và truy vấn ngữ liệu, đo lường các kết hợp từ và tần suất, và khai thác Web như một nguồn tài nguyên ngôn ngữ rộng lớn.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Ngôn ngữ học ngữ liệu là nghiên cứu thực nghiệm về ngôn ngữ dựa trên các bộ sưu tập có hệ thống các văn bản tự nhiên, được phân tích bằng các phép đo tần suất, đối chiếu và liên kết.

Scope

Bao gồm thiết kế, biên soạn và phân tích các ngữ liệu văn bản — lấy mẫu và cân bằng, lập bảng đối chiếu và phân tích từ khóa, thống kê tần suất và kết hợp từ như thông tin tương hỗ, và sử dụng Web như một ngữ liệu. Nó đề cập đến cả ngôn ngữ học ngữ liệu mô tả và việc cung cấp dữ liệu cho các hệ thống tính toán. Các lược đồ chú thích và cây cú pháp được đề cập trong một chủ đề liên quan.

Core questions

  • Các ngữ liệu được lấy mẫu như thế nào để đại diện công bằng cho một biến thể ngôn ngữ?
  • Các phép đo liên kết như thông tin tương hỗ tiết lộ các kết hợp từ như thế nào?
  • Những lợi ích và cạm bẫy của việc sử dụng Web làm ngữ liệu là gì?
  • Các bảng đối chiếu hỗ trợ phân tích ngôn ngữ và từ điển học như thế nào?

Key concepts

  • thiết kế ngữ liệu
  • bảng đối chiếu
  • kết hợp từ
  • thông tin tương hỗ điểm
  • phân bố tần suất
  • phân tích từ khóa
  • Web như ngữ liệu
  • ngữ liệu cân bằng

Key theories

Các phép đo liên kết cho kết hợp từ
Sử dụng các thống kê như thông tin tương hỗ điểm để phát hiện các cặp từ cùng xuất hiện nhiều hơn ngẫu nhiên, tiết lộ các kết hợp từ và hỗ trợ từ điển học.
Web như ngữ liệu
Coi Web như một ngữ liệu khổng lồ, mặc dù không được kiểm soát, cho phép nghiên cứu các hiện tượng hiếm và các biến thể tài nguyên thấp đồng thời đặt ra các câu hỏi về tính đại diện.

History

Ngôn ngữ học ngữ liệu phát triển từ các dự án từ điển học của Sinclair và việc xây dựng các ngữ liệu cân bằng, trong khi công trình năm 1989 của Church và Hanks về thông tin tương hỗ đã đưa các phép đo liên kết thống kê vào dòng chính. Kilgarriff và Grefenstette sau đó đã thiết lập Web như một ngữ liệu hợp pháp, mặc dù nhiễu, với quy mô chưa từng có.

Debates

Tính đại diện của dữ liệu Web
Các ngữ liệu Web rất lớn nhưng không cân bằng và khó mô tả đặc điểm, gây ra tranh luận về mức độ khái quát hóa của các kết luận rút ra từ chúng đối với toàn bộ ngôn ngữ.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

Kết hợp từ là gì?
Kết hợp từ là một cặp hoặc nhóm từ thường xuyên xuất hiện cùng nhau nhiều hơn mức ngẫu nhiên dự đoán, chẳng hạn như 'trà đặc' thay vì 'trà mạnh'. Các phép đo liên kết giúp phát hiện chúng tự động.

Methods for this concept

Related concepts