Sintesis Ucapan
Menghasilkan ucapan yang terdengar alami dari teks, menggabungkan analisis linguistik front-end — normalisasi, pelafalan, dan prosodi — dengan generasi bentuk gelombang dari metode konkatenatif hingga neural.
Definition
Sintesis ucapan, atau teks-ke-ucapan, adalah generasi komputasional sinyal ucapan yang dapat dimengerti dan alami dari teks masukan.
Scope
Mencakup sintesis teks-ke-ucapan: front-end yang menormalisasi teks dan memprediksi pelafalan serta prosodi, dan back-end yang menghasilkan bentuk gelombang, meliputi pendekatan konkatenatif, parametrik, dan neural. Ini membahas konversi grafem-ke-fonem dan pemodelan prosodi. Pengenalan ucapan dibahas dalam topik terkait.
Core questions
- Bagaimana teks tertulis dinormalisasi dan diubah menjadi pelafalan?
- Bagaimana prosodi — ritme, tekanan, dan intonasi — diprediksi dan dirender?
- Bagaimana sintesis konkatenatif, parametrik, dan neural berbeda?
- Bagaimana ucapan yang disintesis dievaluasi untuk kejelasan dan kealamiannya?
Key concepts
- normalisasi teks
- konversi grafem-ke-fonem
- prosodi
- sintesis konkatenatif
- sintesis parametrik
- vocoder neural
- kejelasan
- kealamian
Key theories
- Pemrosesan linguistik front-end
- Mengubah teks mentah menjadi spesifikasi linguistik melalui normalisasi, konversi grafem-ke-fonem, dan prediksi prosodi sebelum bentuk gelombang apa pun dihasilkan.
- Paradigma generasi bentuk gelombang
- Menghasilkan audio dengan menggabungkan unit-unit yang direkam, dengan model parametrik statistik, atau dengan jaringan neural yang menghasilkan bentuk gelombang secara langsung untuk kealamian yang tinggi.
History
Sintesis awal menggunakan metode formant berbasis aturan dan kemudian konkatenatif yang menyatukan unit-unit yang direkam, yang telah disurvei secara menyeluruh oleh Taylor. Sintesis parametrik statistik meningkatkan fleksibilitas pada tahun 2000-an, dan model bentuk gelombang neural pada akhir 2010-an menghasilkan ucapan yang mendekati kealamian manusia.
Debates
- Kealamian versus kemampuan kontrol
- Sintesis neural sangat alami tetapi mungkin lebih sulit dikendalikan untuk prosodi atau ciri-ciri pembicara tertentu dibandingkan metode parametrik sebelumnya, sehingga menimbulkan pertukaran untuk aplikasi ekspresif.
Key figures
- Paul Taylor
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- taylor2009
- jurafsky2025
Frequently asked questions
- Apa itu konversi grafem-ke-fonem?
- Ini adalah langkah yang memprediksi bagaimana kata-kata tertulis dilafalkan, memetakan huruf ke simbol fonetik. Ini penting karena ejaan adalah panduan yang tidak sempurna untuk pelafalan, terutama untuk nama dan kata-kata yang tidak dikenal.