ScholarGate
Asisten

Sintesis Ucapan

Menghasilkan ucapan yang terdengar alami dari teks, menggabungkan analisis linguistik front-end — normalisasi, pelafalan, dan prosodi — dengan generasi bentuk gelombang dari metode konkatenatif hingga neural.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Sintesis ucapan, atau teks-ke-ucapan, adalah generasi komputasional sinyal ucapan yang dapat dimengerti dan alami dari teks masukan.

Scope

Mencakup sintesis teks-ke-ucapan: front-end yang menormalisasi teks dan memprediksi pelafalan serta prosodi, dan back-end yang menghasilkan bentuk gelombang, meliputi pendekatan konkatenatif, parametrik, dan neural. Ini membahas konversi grafem-ke-fonem dan pemodelan prosodi. Pengenalan ucapan dibahas dalam topik terkait.

Core questions

  • Bagaimana teks tertulis dinormalisasi dan diubah menjadi pelafalan?
  • Bagaimana prosodi — ritme, tekanan, dan intonasi — diprediksi dan dirender?
  • Bagaimana sintesis konkatenatif, parametrik, dan neural berbeda?
  • Bagaimana ucapan yang disintesis dievaluasi untuk kejelasan dan kealamiannya?

Key concepts

  • normalisasi teks
  • konversi grafem-ke-fonem
  • prosodi
  • sintesis konkatenatif
  • sintesis parametrik
  • vocoder neural
  • kejelasan
  • kealamian

Key theories

Pemrosesan linguistik front-end
Mengubah teks mentah menjadi spesifikasi linguistik melalui normalisasi, konversi grafem-ke-fonem, dan prediksi prosodi sebelum bentuk gelombang apa pun dihasilkan.
Paradigma generasi bentuk gelombang
Menghasilkan audio dengan menggabungkan unit-unit yang direkam, dengan model parametrik statistik, atau dengan jaringan neural yang menghasilkan bentuk gelombang secara langsung untuk kealamian yang tinggi.

History

Sintesis awal menggunakan metode formant berbasis aturan dan kemudian konkatenatif yang menyatukan unit-unit yang direkam, yang telah disurvei secara menyeluruh oleh Taylor. Sintesis parametrik statistik meningkatkan fleksibilitas pada tahun 2000-an, dan model bentuk gelombang neural pada akhir 2010-an menghasilkan ucapan yang mendekati kealamian manusia.

Debates

Kealamian versus kemampuan kontrol
Sintesis neural sangat alami tetapi mungkin lebih sulit dikendalikan untuk prosodi atau ciri-ciri pembicara tertentu dibandingkan metode parametrik sebelumnya, sehingga menimbulkan pertukaran untuk aplikasi ekspresif.

Key figures

  • Paul Taylor
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • taylor2009
  • jurafsky2025

Frequently asked questions

Apa itu konversi grafem-ke-fonem?
Ini adalah langkah yang memprediksi bagaimana kata-kata tertulis dilafalkan, memetakan huruf ke simbol fonetik. Ini penting karena ejaan adalah panduan yang tidak sempurna untuk pelafalan, terutama untuk nama dan kata-kata yang tidak dikenal.

Methods for this concept

Related concepts