Các Ứng dụng Ngôn ngữ và Giọng nói
Mặt ứng dụng của ngôn ngữ học tính toán: chuyển đổi giữa lời nói và văn bản, trích xuất thông tin có cấu trúc từ tài liệu và xây dựng các hệ thống trả lời câu hỏi và duy trì hội thoại.
Definition
Các ứng dụng ngôn ngữ và giọng nói là các hệ thống người dùng cuối có khả năng nhận thức, hiểu hoặc tạo ra ngôn ngữ của con người, được xây dựng bằng cách kết hợp các phương pháp của ngôn ngữ học tính toán.
Scope
Bao gồm các lĩnh vực ứng dụng chính của công nghệ ngôn ngữ và giọng nói — nhận dạng giọng nói tự động, tổng hợp văn bản thành giọng nói, trích xuất thông tin, và các hệ thống hỏi đáp và đối thoại. Nó đặt những lĩnh vực này như các nhiệm vụ tích hợp kết hợp các nền tảng của lĩnh vực, phân tích cú pháp, ngữ nghĩa và các phương pháp học. Các kỹ thuật thành phần được đề cập trong các lĩnh vực tương ứng của chúng.
Sub-topics
Core questions
- Làm thế nào để chuyển đổi ngôn ngữ nói thành văn bản và ngược lại?
- Làm thế nào để trích xuất thông tin có cấu trúc từ các tài liệu không có cấu trúc?
- Làm thế nào để các hệ thống trả lời các câu hỏi ngôn ngữ tự nhiên và duy trì đối thoại?
- Làm thế nào để đánh giá các hệ thống ứng dụng cho việc sử dụng trong thế giới thực?
Key concepts
- nhận dạng giọng nói tự động
- chuyển văn bản thành giọng nói
- trích xuất thông tin
- nhận dạng thực thể có tên
- hỏi đáp
- hệ thống đối thoại
- mô hình âm học
- đánh giá
Key theories
- Nhận dạng giọng nói kênh nhiễu
- Định khung nhận dạng như việc khôi phục chuỗi từ có khả năng nhất dựa trên tín hiệu âm thanh bằng cách kết hợp mô hình âm học và mô hình ngôn ngữ.
- Quy trình hiểu ngôn ngữ
- Các ứng dụng kết hợp việc phân tách từ, phân tích cú pháp, ngữ nghĩa và truy xuất thành các quy trình hoặc mô hình đầu cuối để ánh xạ đầu vào của người dùng thành các phản hồi hữu ích.
History
Nhận dạng giọng nói đã thúc đẩy phần lớn NLP thống kê ban đầu, với các kho ngữ liệu chung như bộ sưu tập Wall Street Journal cho phép so sánh chặt chẽ. Trích xuất thông tin và hỏi đáp phát triển thông qua các chiến dịch đánh giá vào những năm 1990 và 2000, và các hệ thống đối thoại trở thành sản phẩm tiêu dùng khi các phương pháp mạng nơ-ron và các mô hình ngôn ngữ lớn trưởng thành.
Debates
- Các quy trình so với các hệ thống đầu cuối
- Nên xây dựng các ứng dụng từ các thành phần ngôn ngữ mô-đun hay huấn luyện các hệ thống mạng nơ-ron đầu cuối; các phương pháp đầu cuối chiếm ưu thế khi dữ liệu dồi dào nhưng ít khả năng giải thích hơn.
Key figures
- Daniel Jurafsky
- James H. Martin
- Frederick Jelinek
- Janet Baker
Related topics
Seminal works
- paul1992
- manning1999
- jurafsky2025
Frequently asked questions
- Tại sao lại nhóm các ứng dụng giọng nói và văn bản lại với nhau?
- Chúng chia sẻ cùng một nền tảng xác suất và mạng nơ-ron — các mô hình ngôn ngữ, mô hình hóa chuỗi và đánh giá — do đó, các kỹ thuật được phát triển cho một lĩnh vực, chẳng hạn như mô hình ngôn ngữ trong nhận dạng giọng nói, dễ dàng chuyển giao sang lĩnh vực khác.