Apa itu konversi grafem-ke-fonem?

Ini adalah langkah yang memprediksi bagaimana kata-kata tertulis dilafalkan, memetakan huruf ke simbol fonetik. Ini penting karena ejaan adalah panduan yang tidak sempurna untuk pelafalan, terutama untuk nama dan kata-kata yang tidak dikenal.

Sintesis Ucapan

Menghasilkan ucapan yang terdengar alami dari teks, menggabungkan analisis linguistik front-end — normalisasi, pelafalan, dan prosodi — dengan generasi bentuk gelombang dari metode konkatenatif hingga neural.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Sintesis ucapan, atau teks-ke-ucapan, adalah generasi komputasional sinyal ucapan yang dapat dimengerti dan alami dari teks masukan.

Scope

Mencakup sintesis teks-ke-ucapan: front-end yang menormalisasi teks dan memprediksi pelafalan serta prosodi, dan back-end yang menghasilkan bentuk gelombang, meliputi pendekatan konkatenatif, parametrik, dan neural. Ini membahas konversi grafem-ke-fonem dan pemodelan prosodi. Pengenalan ucapan dibahas dalam topik terkait.

Core questions

Bagaimana teks tertulis dinormalisasi dan diubah menjadi pelafalan?
Bagaimana prosodi — ritme, tekanan, dan intonasi — diprediksi dan dirender?
Bagaimana sintesis konkatenatif, parametrik, dan neural berbeda?
Bagaimana ucapan yang disintesis dievaluasi untuk kejelasan dan kealamiannya?

Key concepts

normalisasi teks
konversi grafem-ke-fonem
prosodi
sintesis konkatenatif
sintesis parametrik
vocoder neural
kejelasan
kealamian

Key theories

Pemrosesan linguistik front-end: Mengubah teks mentah menjadi spesifikasi linguistik melalui normalisasi, konversi grafem-ke-fonem, dan prediksi prosodi sebelum bentuk gelombang apa pun dihasilkan.
Paradigma generasi bentuk gelombang: Menghasilkan audio dengan menggabungkan unit-unit yang direkam, dengan model parametrik statistik, atau dengan jaringan neural yang menghasilkan bentuk gelombang secara langsung untuk kealamian yang tinggi.

History

Sintesis awal menggunakan metode formant berbasis aturan dan kemudian konkatenatif yang menyatukan unit-unit yang direkam, yang telah disurvei secara menyeluruh oleh Taylor. Sintesis parametrik statistik meningkatkan fleksibilitas pada tahun 2000-an, dan model bentuk gelombang neural pada akhir 2010-an menghasilkan ucapan yang mendekati kealamian manusia.

Debates

Kealamian versus kemampuan kontrol: Sintesis neural sangat alami tetapi mungkin lebih sulit dikendalikan untuk prosodi atau ciri-ciri pembicara tertentu dibandingkan metode parametrik sebelumnya, sehingga menimbulkan pertukaran untuk aplikasi ekspresif.

Key figures

Paul Taylor
Daniel Jurafsky
James H. Martin

Seminal works

taylor2009
jurafsky2025

Frequently asked questions

Apa itu konversi grafem-ke-fonem?: Ini adalah langkah yang memprediksi bagaimana kata-kata tertulis dilafalkan, memetakan huruf ke simbol fonetik. Ini penting karena ejaan adalah panduan yang tidak sempurna untuk pelafalan, terutama untuk nama dan kata-kata yang tidak dikenal.