Konuşma Sentezi
Metinden doğal sesli konuşma üretimi, dilbilimsel ön uç analizi — normalizasyon, telaffuz ve prozodi — ile birleştirmeli yöntemlerden nöral yöntemlere kadar uzanan dalga formu üretimini bir araya getirmektedir.
Tanım
Konuşma sentezi veya metin-konuşma, girdi metninden anlaşılır ve doğal bir konuşma sinyalinin hesaplamalı olarak üretilmesidir.
Kapsam
Metin-konuşma sentezini kapsamaktadır: metni normalleştiren ve telaffuz ile prozodiyi tahmin eden ön uç ile dalga formunu üreten arka uç; birleştirmeli, parametrik ve nöral yaklaşımları içermektedir. Grafem-fonem dönüşümünü ve prozodik modellemeyi ele almaktadır. Konuşma tanıma, ilgili bir başka konuda ele alınmaktadır.
Temel sorular
- Yazılı metin nasıl normalleştirilir ve telaffuzlara dönüştürülür?
- Prozodi — ritim, vurgu ve tonlama — nasıl tahmin edilir ve oluşturulur?
- Birleştirmeli, parametrik ve nöral sentez nasıl farklılık gösterir?
- Sentezlenmiş konuşma, anlaşılırlık ve doğallık açısından nasıl değerlendirilir?
Anahtar kavramlar
- metin normalizasyonu
- grafem-fonem dönüşümü
- prozodi
- birleştirmeli sentez
- parametrik sentez
- nöral vokoder
- anlaşılırlık
- doğallık
Temel kuramlar
- Ön Uç Dilbilimsel İşleme
- Ham metnin, herhangi bir dalga formu üretilmeden önce normalizasyon, grafem-fonem dönüşümü ve prozodi tahmini yoluyla dilbilimsel bir spesifikasyona dönüştürülmesi.
- Dalga Formu Üretim Paradigmları
- Kaydedilmiş birimlerin birleştirilmesiyle, istatistiksel parametrik modellerle veya yüksek doğallık için dalga formunu doğrudan üreten nöral ağlar aracılığıyla ses üretimi.
Tarihçe
Erken dönem sentez, kural tabanlı formant ve ardından kaydedilmiş birimleri bir araya getiren birleştirmeli yöntemleri kullanmıştır; bu yöntemler Taylor tarafından kapsamlı bir şekilde incelenmiştir. İstatistiksel parametrik sentez, 2000'li yıllarda esnekliği artırmış, 2010'ların sonlarında ise nöral dalga formu modelleri, insan doğallığına yaklaşan konuşma üretmiştir.
Tartışmalar
- Doğallık ve Kontrol Edilebilirlik
- Nöral sentez oldukça doğaldır ancak belirli prozodi veya konuşmacı özelliklerini kontrol etmek, önceki parametrik yöntemlere göre daha zor olabilmektedir; bu durum, etkileyici uygulamalar için bir denge sorunu oluşturmaktadır.
Öne çıkan isimler
- Paul Taylor
- Daniel Jurafsky
- James H. Martin
İlgili konular
Temel eserler
- taylor2009
- jurafsky2025
Sıkça sorulan sorular
- Grafem-fonem dönüşümü nedir?
- Yazılı kelimelerin nasıl telaffuz edileceğini tahmin eden ve harfleri fonetik sembollere eşleyen adımdır. Yazımın telaffuz için, özellikle isimler ve yabancı kelimeler için, kusurlu bir rehber olması nedeniyle bu adım önemlidir.