Tại sao lại nhóm các ứng dụng giọng nói và văn bản lại với nhau?

Chúng chia sẻ cùng một nền tảng xác suất và mạng nơ-ron — các mô hình ngôn ngữ, mô hình hóa chuỗi và đánh giá — do đó, các kỹ thuật được phát triển cho một lĩnh vực, chẳng hạn như mô hình ngôn ngữ trong nhận dạng giọng nói, dễ dàng chuyển giao sang lĩnh vực khác.

Các Ứng dụng Ngôn ngữ và Giọng nói

Mặt ứng dụng của ngôn ngữ học tính toán: chuyển đổi giữa lời nói và văn bản, trích xuất thông tin có cấu trúc từ tài liệu và xây dựng các hệ thống trả lời câu hỏi và duy trì hội thoại.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Các ứng dụng ngôn ngữ và giọng nói là các hệ thống người dùng cuối có khả năng nhận thức, hiểu hoặc tạo ra ngôn ngữ của con người, được xây dựng bằng cách kết hợp các phương pháp của ngôn ngữ học tính toán.

Scope

Bao gồm các lĩnh vực ứng dụng chính của công nghệ ngôn ngữ và giọng nói — nhận dạng giọng nói tự động, tổng hợp văn bản thành giọng nói, trích xuất thông tin, và các hệ thống hỏi đáp và đối thoại. Nó đặt những lĩnh vực này như các nhiệm vụ tích hợp kết hợp các nền tảng của lĩnh vực, phân tích cú pháp, ngữ nghĩa và các phương pháp học. Các kỹ thuật thành phần được đề cập trong các lĩnh vực tương ứng của chúng.

Sub-topics

Core questions

Làm thế nào để chuyển đổi ngôn ngữ nói thành văn bản và ngược lại?
Làm thế nào để trích xuất thông tin có cấu trúc từ các tài liệu không có cấu trúc?
Làm thế nào để các hệ thống trả lời các câu hỏi ngôn ngữ tự nhiên và duy trì đối thoại?
Làm thế nào để đánh giá các hệ thống ứng dụng cho việc sử dụng trong thế giới thực?

Key concepts

nhận dạng giọng nói tự động
chuyển văn bản thành giọng nói
trích xuất thông tin
nhận dạng thực thể có tên
hỏi đáp
hệ thống đối thoại
mô hình âm học
đánh giá

Key theories

Nhận dạng giọng nói kênh nhiễu: Định khung nhận dạng như việc khôi phục chuỗi từ có khả năng nhất dựa trên tín hiệu âm thanh bằng cách kết hợp mô hình âm học và mô hình ngôn ngữ.
Quy trình hiểu ngôn ngữ: Các ứng dụng kết hợp việc phân tách từ, phân tích cú pháp, ngữ nghĩa và truy xuất thành các quy trình hoặc mô hình đầu cuối để ánh xạ đầu vào của người dùng thành các phản hồi hữu ích.

History

Nhận dạng giọng nói đã thúc đẩy phần lớn NLP thống kê ban đầu, với các kho ngữ liệu chung như bộ sưu tập Wall Street Journal cho phép so sánh chặt chẽ. Trích xuất thông tin và hỏi đáp phát triển thông qua các chiến dịch đánh giá vào những năm 1990 và 2000, và các hệ thống đối thoại trở thành sản phẩm tiêu dùng khi các phương pháp mạng nơ-ron và các mô hình ngôn ngữ lớn trưởng thành.

Debates

Các quy trình so với các hệ thống đầu cuối: Nên xây dựng các ứng dụng từ các thành phần ngôn ngữ mô-đun hay huấn luyện các hệ thống mạng nơ-ron đầu cuối; các phương pháp đầu cuối chiếm ưu thế khi dữ liệu dồi dào nhưng ít khả năng giải thích hơn.

Key figures

Daniel Jurafsky
James H. Martin
Frederick Jelinek
Janet Baker

Seminal works

paul1992
manning1999
jurafsky2025

Frequently asked questions

Tại sao lại nhóm các ứng dụng giọng nói và văn bản lại với nhau?: Chúng chia sẻ cùng một nền tảng xác suất và mạng nơ-ron — các mô hình ngôn ngữ, mô hình hóa chuỗi và đánh giá — do đó, các kỹ thuật được phát triển cho một lĩnh vực, chẳng hạn như mô hình ngôn ngữ trong nhận dạng giọng nói, dễ dàng chuyển giao sang lĩnh vực khác.