سنتز گفتار
تولید گفتار طبیعی از متن، با ترکیب تحلیل زبانی بخش جلویی — نرمالسازی، تلفظ، و آهنگ — با تولید شکل موج از روشهای ترکیبی تا عصبی.
Definition
سنتز گفتار، یا تبدیل متن به گفتار، تولید محاسباتی یک سیگنال گفتاری قابل فهم و طبیعی از متن ورودی است.
Scope
سنتز گفتار از متن را پوشش میدهد: بخش جلویی که متن را نرمالسازی میکند و تلفظ و آهنگ را پیشبینی میکند، و بخش پشتی که شکل موج را تولید میکند، شامل رویکردهای ترکیبی، پارامتری، و عصبی. این موضوع به تبدیل گرام به واج و مدلسازی آهنگ میپردازد. بازشناسی گفتار در یک موضوع مرتبط پوشش داده شده است.
Core questions
- چگونه متن نوشتاری نرمالسازی شده و به تلفظ تبدیل میشود؟
- چگونه آهنگ — ریتم، تأکید، و لحن — پیشبینی و ارائه میشود؟
- سنتز ترکیبی، پارامتری، و عصبی چه تفاوتی با یکدیگر دارند؟
- گفتار سنتز شده چگونه از نظر وضوح و طبیعی بودن ارزیابی میشود؟
Key concepts
- نرمالسازی متن
- تبدیل گرام به واج
- آهنگ
- سنتز ترکیبی
- سنتز پارامتری
- ووکودر عصبی
- وضوح
- طبیعی بودن
Key theories
- پردازش زبانی بخش جلویی
- تبدیل متن خام به یک مشخصه زبانی از طریق نرمالسازی، تبدیل گرام به واج، و پیشبینی آهنگ قبل از تولید هر شکل موجی.
- پارادایمهای تولید شکل موج
- تولید صدا با ترکیب واحدهای ضبطشده، با مدلهای پارامتری آماری، یا با شبکههای عصبی که شکل موج را مستقیماً برای طبیعی بودن بالا تولید میکنند.
History
سنتز اولیه از روشهای مبتنی بر قاعده فرمانت و سپس روشهای ترکیبی استفاده میکرد که واحدهای ضبطشده را به هم متصل میکردند، که توسط تیلور به طور کامل بررسی شده است. سنتز پارامتری آماری انعطافپذیری را در دهه ۲۰۰۰ بهبود بخشید، و مدلهای شکل موج عصبی در اواخر دهه ۲۰۱۰ گفتاری تولید کردند که به طبیعی بودن انسان نزدیک بود.
Debates
- طبیعی بودن در مقابل قابلیت کنترل
- سنتز عصبی بسیار طبیعی است اما کنترل آن برای آهنگ خاص یا ویژگیهای گوینده نسبت به روشهای پارامتری قبلی دشوارتر است، که یک بدهبستان برای کاربردهای بیانی ایجاد میکند.
Key figures
- Paul Taylor
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- taylor2009
- jurafsky2025
Frequently asked questions
- تبدیل گرام به واج چیست؟
- این مرحلهای است که نحوه تلفظ کلمات نوشتاری را پیشبینی میکند و حروف را به نمادهای آوایی نگاشت میکند. این امر ضروری است زیرا املا راهنمای ناقصی برای تلفظ است، به ویژه برای نامها و کلمات ناآشنا.