Cảm nhận và Độ rõ lời nói
Cảm nhận lời nói là quá trình người nghe phục hồi các đơn vị ngôn ngữ, từ ngữ và ý nghĩa từ tín hiệu âm thanh lời nói biến đổi nhanh chóng. Độ rõ lời nói là mức độ lời nói được hiểu đúng, và nó phụ thuộc vào tài liệu lời nói, người nghe và điều kiện nghe, đặc biệt là tiếng ồn xung quanh. Chủ đề này bao gồm các tín hiệu âm học phân biệt các âm thanh lời nói, cách người nghe phân loại chúng, và cách đo lường và dự đoán độ rõ lời nói.
Definition
Cảm nhận lời nói là quá trình thính giác và nhận thức ánh xạ tín hiệu âm thanh lời nói vào các phạm trù ngôn ngữ như âm vị và từ ngữ, và độ rõ lời nói là thước đo mức độ chính xác mà người nghe phục hồi lời nói dự định.
Scope
Chủ đề này bao gồm các tín hiệu âm học của nguyên âm và phụ âm, cảm nhận phân loại âm vị, khả năng chịu đựng của lời nói đối với sự suy giảm và tiếng ồn, cũng như việc đo lường và dự đoán độ rõ lời nói. Đây là tài liệu tham khảo và giáo dục về cảm nhận thính giác và lời nói, không phải hướng dẫn lâm sàng.
Core questions
- Những tín hiệu âm học nào phân biệt âm thanh lời nói này với âm thanh lời nói khác?
- Người nghe ánh xạ tín hiệu biến đổi liên tục thành các âm vị rời rạc như thế nào?
- Bao nhiêu phần của tín hiệu lời nói có thể bị suy giảm trước khi độ rõ lời nói thất bại?
- Độ rõ lời nói được đo lường và dự đoán như thế nào trong các điều kiện nghe khác nhau?
Key concepts
- Formant và nhận dạng nguyên âm
- Thời gian khởi phát giọng nói và tín hiệu phụ âm
- Cảm nhận phân loại
- Ngưỡng tiếp nhận lời nói
- Chỉ số độ rõ lời nói
- Tín hiệu bao và cấu trúc tinh tế
- Lời nói trong tiếng ồn và che khuất thông tin
Key theories
- Cảm nhận phân loại lời nói
- Người nghe có xu hướng phân chia các chuỗi âm thanh lời nói liên tục, chẳng hạn như một chuỗi thay đổi về thời gian khởi phát giọng nói, thành các phạm trù âm vị rời rạc, phân biệt các cặp nằm ở ranh giới phạm trù tốt hơn nhiều so với các cặp cách đều nhau trong cùng một phạm trù.
- Phân bố thông tin lời nói qua các dải tần số
- Độ rõ lời nói có thể được dự đoán bằng cách trọng số hóa khả năng nghe của lời nói qua các dải tần số, cơ sở của chỉ số phát âm và chỉ số độ rõ lời nói, định lượng lượng thông tin lời nói hữu ích đến được người nghe.
Mechanisms
Các nguyên âm phần lớn được xác định bởi tần số của các formant của chúng, tức là các cộng hưởng của đường thanh âm, trong khi các phụ âm được báo hiệu bởi các chuyển tiếp phổ nhanh, các tiếng nổ, và các tín hiệu thời gian như thời gian khởi phát giọng nói (voice onset time). Hệ thống thính giác trích xuất các mẫu phổ và thời gian này và các cấp độ xử lý cao hơn ánh xạ chúng vào các phạm trù âm vị và từ ngữ, dựa trên ngữ cảnh và kiến thức ngôn ngữ. Lời nói có tính dư thừa cao, do đó nó vẫn dễ hiểu khi bị suy giảm đáng kể; các thí nghiệm thay thế chi tiết phổ tinh tế bằng một vài dải nhiễu điều biến biên độ cho thấy rằng chỉ riêng bao thời gian chậm có thể hỗ trợ nhận dạng tốt trong môi trường yên tĩnh, một nguyên tắc liên quan đến mã hóa cấy ghép ốc tai.
Clinical relevance
Khó khăn trong việc hiểu lời nói, đặc biệt là trong môi trường ồn ào, là một trong những hậu quả phổ biến và gây suy nhược nhất của mất thính lực, và nó có thể vượt quá những gì ngưỡng âm thuần dự đoán vì khả năng chọn lọc tần số và mã hóa thời gian giảm sút làm suy giảm các tín hiệu mà người nghe dựa vào. Do đó, các phép đo cảm nhận lời nói bổ sung cho thính lực đồ trong việc mô tả thính giác chức năng. Tài liệu này giải thích lý do tại sao việc hiểu lời nói được kiểm tra và không phải là cơ sở để chẩn đoán hoặc điều trị cá nhân.
Evidence & guidelines
Cơ sở âm học của nguyên âm và phụ âm đã được lập bản đồ trong các nghiên cứu kinh điển của Peterson và Barney (1952) và Miller và Nicely (1955), và cảm nhận phân loại đã được thiết lập bởi Liberman và các đồng nghiệp (1957). Việc dự đoán độ rõ lời nói từ khả năng nghe dải tần được chuẩn hóa thành Chỉ số Độ rõ Lời nói (Speech Intelligibility Index) trong ANSI S3.5-1997, và sự đầy đủ của các tín hiệu bao thời gian đã được chứng minh bởi Shannon và các đồng nghiệp (1995).
History
Công trình thời chiến và hậu chiến tại Bell Laboratories về sự phát âm của lời nói qua điện thoại đã tạo ra chỉ số phát âm và các nghiên cứu chi tiết về âm học phụ âm và nguyên âm. Liberman và các đồng nghiệp tại Haskins Laboratories đã thiết lập cảm nhận phân loại vào những năm 1950 và phát triển các lý thuyết có ảnh hưởng về lời nói. Công trình sau này, bao gồm các nghiên cứu bộ mã hóa dải tần (band-vocoder) của Shannon và các đồng nghiệp, đã làm rõ vai trò tương đối của chi tiết phổ và bao thời gian, đồng thời cung cấp thông tin cho quá trình xử lý tín hiệu cấy ghép ốc tai.
Debates
- Lời nói được cảm nhận bằng các cơ chế chuyên biệt hay bằng các quá trình thính giác tổng quát?
- Các lý thuyết khác nhau về việc liệu lời nói có sử dụng một chế độ cảm nhận chuyên biệt gắn liền với sự phát âm hay được xử lý bằng các quá trình thính giác và học tập tổng quát; cả hai quan điểm đều giải thích một phần bằng chứng và câu hỏi này vẫn còn gây tranh cãi.
Key figures
- George A. Miller
- Gordon Peterson
- Alvin Liberman
- Robert Shannon
- Harvey Fletcher
Related topics
Seminal works
- peterson-barney-1952
- miller-nicely-1955
- liberman-1957
- shannon-1995
Frequently asked questions
- Tại sao mất thính lực có thể khiến lời nói khó hiểu ngay cả khi âm thanh vẫn nghe được?
- Khả năng nghe phục hồi khả năng phát hiện nhưng không phục hồi độ phân giải tần số và thời gian tinh tế mà lời nói dựa vào. Khả năng chọn lọc ốc tai và mã hóa thời gian giảm sút làm mờ các tín hiệu phân biệt âm thanh lời nói, do đó khả năng hiểu, đặc biệt là trong môi trường ồn ào, có thể vẫn kém ngay cả khi âm thanh đủ lớn để nghe.
- Độ rõ lời nói được đo lường như thế nào?
- Nó thường được đo lường bằng hành vi dưới dạng phần trăm số từ hoặc câu được xác định đúng ở một mức độ hoặc tỷ lệ tín hiệu trên nhiễu nhất định, đôi khi được tóm tắt là ngưỡng tiếp nhận lời nói. Nó cũng có thể được dự đoán từ khả năng nghe của lời nói qua các dải tần số bằng cách sử dụng các chỉ số như Chỉ số Độ rõ Lời nói (Speech Intelligibility Index).