Nhận dạng giọng nói tự động
Chuyển đổi ngôn ngữ nói thành văn bản bằng cách kết hợp các mô hình âm học của tín hiệu giọng nói với các mô hình ngôn ngữ của chuỗi từ, từ các hệ thống mô hình Markov ẩn đến các bộ nhận dạng thần kinh đầu cuối.
Definition
Nhận dạng giọng nói tự động là nhiệm vụ tính toán chuyển đổi tín hiệu giọng nói âm học thành một chuỗi từ.
Scope
Bao gồm việc chuyển đổi âm thanh thành văn bản: trích xuất đặc trưng âm học, mô hình hóa âm học và phát âm, vai trò của mô hình ngôn ngữ, giải mã và sự chuyển đổi từ các hệ thống mô hình Markov ẩn sang nhận dạng thần kinh đầu cuối. Nó đề cập đến việc đánh giá bằng tỷ lệ lỗi từ và tầm quan trọng của các kho ngữ liệu chung. Tổng hợp giọng nói và hiểu biết hạ nguồn được đề cập trong các chủ đề liên quan.
Core questions
- Tín hiệu âm học được ánh xạ tới các từ ứng cử viên như thế nào?
- Các mô hình âm học và ngôn ngữ kết hợp trong nhận dạng như thế nào?
- Tại sao các mô hình thần kinh và đầu cuối lại thay thế các hệ thống dựa trên HMM?
- Độ chính xác nhận dạng được đo bằng tỷ lệ lỗi từ như thế nào?
Key concepts
- mô hình âm học
- mô hình ngôn ngữ
- trích xuất đặc trưng
- mô hình Markov ẩn
- giải mã
- nhận dạng đầu cuối
- tỷ lệ lỗi từ
- mô hình phát âm
Key theories
- Kết hợp mô hình âm học và ngôn ngữ
- Nhận dạng chọn chuỗi từ tối đa hóa tích của khả năng xảy ra của mô hình âm học và tiên nghiệm của mô hình ngôn ngữ, công thức kênh nhiễu của nhận dạng giọng nói.
- Mô hình hóa chuỗi thần kinh cho giọng nói
- Các mạng lặp lại và dựa trên sự chú ý mô hình hóa trực tiếp cấu trúc thời gian của giọng nói, cho phép nhận dạng đầu cuối học các mẫu âm học và ngôn ngữ một cách đồng thời.
History
Nhận dạng giọng nói là động lực chính của các phương pháp thống kê, với các hệ thống dựa trên HMM của IBM và các kho ngữ liệu chung như bộ sưu tập Wall Street Journal (1992) cho phép tiến bộ ổn định, có thể đo lường được. Các mô hình âm học thần kinh sâu khoảng năm 2010 và các kiến trúc đầu cuối tiếp theo đã giảm mạnh tỷ lệ lỗi và đưa nhận dạng vào các thiết bị hàng ngày.
Debates
- Nhận dạng mô-đun so với nhận dạng đầu cuối
- Liệu có nên giữ các mô hình âm học, phát âm và ngôn ngữ riêng biệt hay đào tạo một mạng đầu cuối duy nhất; các hệ thống đầu cuối hiện dẫn đầu với đủ dữ liệu nhưng có thể khó thích ứng hơn.
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- Tỷ lệ lỗi từ là gì?
- Tỷ lệ lỗi từ đo lường chất lượng nhận dạng dưới dạng tỷ lệ các từ bị thay thế, xóa hoặc chèn so với bản ghi tham chiếu, do đó giá trị thấp hơn cho thấy bản ghi chính xác hơn.