ScholarGate
Trợ lý

Nền tảng của Ngôn ngữ học Tính toán

Nền tảng toán học và phương pháp luận của ngôn ngữ học tính toán: ngữ pháp hình thức, automata, kỹ thuật trạng thái hữu hạn, mô hình ngôn ngữ xác suất và các phương pháp đánh giá cho phép so sánh các hệ thống một cách chặt chẽ.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Nền tảng của ngôn ngữ học tính toán là nghiên cứu về các nguyên tắc cơ bản hình thức, thuật toán và thống kê được sử dụng để biểu diễn và xử lý ngôn ngữ tự nhiên bằng máy.

Scope

Lĩnh vực này bao gồm các khái niệm trừu tượng mà trên đó các phương pháp xử lý ngôn ngữ bằng máy tính được xây dựng. Nó bao gồm hệ thống phân cấp Chomsky về ngôn ngữ hình thức và các automata nhận dạng chúng, biểu thức chính quy và bộ chuyển đổi trạng thái hữu hạn như các công cụ thực tế cho việc phân tách từ (tokenization) và hình thái học, mô hình n-gram và mô hình ngôn ngữ xác suất, cũng như bộ máy thực nghiệm — ngữ liệu, chú thích, phân tách tập huấn luyện/kiểm tra và các chỉ số đánh giá — làm nền tảng cho công việc thực nghiệm. Nó không bao gồm các ứng dụng hạ nguồn cụ thể và phân tích cú pháp sâu, những lĩnh vực này được xử lý trong các phần riêng.

Sub-topics

Core questions

  • Tồn tại những lớp ngôn ngữ hình thức nào, và automata nào nhận dạng chúng?
  • Làm thế nào các phương pháp trạng thái hữu hạn có thể mô hình hóa việc phân tách từ, chính tả và hình thái học một cách hiệu quả?
  • Làm thế nào chúng ta gán xác suất cho các chuỗi từ, và tại sao điều đó lại hữu ích?
  • Các hệ thống xử lý ngôn ngữ nên được đánh giá như thế nào để kết quả có thể so sánh và tái tạo được?

Key concepts

  • Hệ thống phân cấp Chomsky
  • automata trạng thái hữu hạn
  • biểu thức chính quy
  • ngữ pháp phi ngữ cảnh
  • mô hình n-gram
  • làm mịn (smoothing)
  • độ phức tạp (perplexity)
  • ngữ liệu và chú thích

Key theories

Hệ thống phân cấp Chomsky
Một hệ thống phân cấp bao gồm các lớp ngôn ngữ hình thức (chính quy, phi ngữ cảnh, ngữ cảnh, đệ quy đếm được), mỗi lớp gắn liền với một loại ngữ pháp và một máy trừu tượng, định hình mức độ sức mạnh tính toán cần thiết để mô tả các hiện tượng ngôn ngữ tự nhiên.
Mô hình ngôn ngữ xác suất
Xử lý ngôn ngữ như một quá trình ngẫu nhiên và ước tính xác suất của các chuỗi từ, theo cách cổ điển thông qua các mô hình n-gram với làm mịn, cung cấp nền tảng cho nhận dạng giọng nói, sửa lỗi chính tả và tạo ngôn ngữ.

History

Ngôn ngữ học tính toán kế thừa cốt lõi hình thức của nó từ công trình những năm 1950 về lý thuyết ngôn ngữ hình thức (Chomsky) và lý thuyết thông tin (Shannon), cùng nhau gợi ý cả ngữ pháp ký hiệu và mô hình ngôn ngữ xác suất. Các phương pháp trạng thái hữu hạn phát triển mạnh mẽ trong những năm 1980 như các công cụ hiệu quả cho hình thái học và ngữ âm học, trong khi cuộc cách mạng thống kê của những năm 1990, được Manning và Schütze ghi lại, đã biến mô hình xác suất dựa trên ngữ liệu thành mô hình thực nghiệm thống trị.

Debates

Ngữ pháp ký hiệu so với mô hình thống kê
Liệu ngôn ngữ tự nhiên được nắm bắt tốt nhất bằng các quy tắc hình thức được xây dựng thủ công hay bằng các phân phối xác suất được ước tính từ dữ liệu; lĩnh vực này phần lớn đã hội tụ vào các phương pháp lai và dựa trên dữ liệu trong khi vẫn giữ ngữ pháp hình thức như các công cụ phân tích.

Key figures

  • Noam Chomsky
  • Claude Shannon
  • Daniel Jurafsky
  • James H. Martin
  • Christopher Manning

Related topics

Seminal works

  • chomsky1956
  • manning1999
  • jurafsky2025

Frequently asked questions

Tại sao các nhà ngôn ngữ học tính toán quan tâm đến hệ thống phân cấp Chomsky?
Nó cho bạn biết bộ máy tính toán tối thiểu mà một hiện tượng yêu cầu: các mẫu chính quy có thể được xử lý bằng các công cụ trạng thái hữu hạn nhanh chóng, trong khi các hiện tượng như mệnh đề lồng nhau cần ít nhất sức mạnh phi ngữ cảnh. Việc chọn đúng cấp độ giúp các hệ thống vừa đầy đủ vừa hiệu quả.
Mô hình ngôn ngữ có giống với mô hình ngôn ngữ lớn không?
Chúng chia sẻ cùng một nhiệm vụ cốt lõi — gán xác suất cho các chuỗi từ — nhưng các mô hình ngôn ngữ cổ điển là bộ đếm n-gram, trong khi các mô hình ngôn ngữ lớn hiện đại sử dụng mạng nơ-ron. Ý tưởng nền tảng là giống hệt nhau; phương pháp ước tính khác nhau.

Methods for this concept

Related concepts