Otomatik Konuşma Tanıma
Konuşulan dili metne dönüştürme işlemi, konuşma sinyalinin akustik modelleri ile kelime dizilerinin dil modellerini birleştirerek gerçekleştirilmektedir. Bu süreç, gizli Markov modeli sistemlerinden uçtan uca sinirsel tanıyıcılara kadar uzanmaktadır.
Tanım
Otomatik konuşma tanıma, akustik bir konuşma sinyalini kelime dizisine dönüştürme hesaplamalı görevidir.
Kapsam
Sesin metne dönüştürülmesini kapsamaktadır: akustik özellik çıkarımı, akustik ve telaffuz modellemesi, dil modelinin rolü, kod çözme (decoding) ve gizli Markov modeli sistemlerinden uçtan uca sinirsel tanımaya geçiş. Kelime hata oranı (word error rate) ile değerlendirmeyi ve paylaşılan korpusların önemini ele almaktadır. Konuşma sentezi ve sonraki anlama süreçleri ilgili diğer konularda incelenmektedir.
Temel sorular
- Akustik sinyal aday kelimelerle nasıl eşleştirilmektedir?
- Akustik ve dil modelleri tanıma sürecinde nasıl birleşmektedir?
- Sinirsel ve uçtan uca modeller neden HMM tabanlı sistemlerin yerini almıştır?
- Tanıma doğruluğu kelime hata oranı (word error rate) ile nasıl ölçülmektedir?
Anahtar kavramlar
- akustik model
- dil modeli
- özellik çıkarımı
- gizli Markov modeli
- kod çözme (decoding)
- uçtan uca tanıma
- kelime hata oranı (word error rate)
- telaffuz modeli
Temel kuramlar
- Akustik ve dil modeli kombinasyonu
- Tanıma, bir akustik modelin olabilirlik değeri ile bir dil modelinin öncelik değerinin çarpımını maksimize eden kelime dizisini seçmektedir; bu, konuşma tanımanın gürültülü kanal formülasyonudur.
- Konuşma için sinirsel dizi modellemesi
- Tekrarlayan ve dikkat tabanlı ağlar, konuşmanın zamansal yapısını doğrudan modelleyerek, akustik ve dilsel örüntüleri birlikte öğrenen uçtan uca tanımayı mümkün kılmaktadır.
Tarihçe
Konuşma tanıma, istatistiksel yöntemlerin önemli bir itici gücü olmuştur. IBM'in HMM tabanlı sistemleri ve Wall Street Journal koleksiyonu (1992) gibi paylaşılan korpuslar, istikrarlı ve ölçülebilir ilerlemeyi mümkün kılmıştır. 2010 civarında ortaya çıkan derin sinirsel akustik modeller ve ardından gelen uçtan uca mimariler, hata oranlarını önemli ölçüde azaltmış ve tanıma teknolojisini günlük cihazlara taşımıştır.
Tartışmalar
- Modüler ve uçtan uca tanıma
- Ayrı akustik, telaffuz ve dil modellerini korumak mı yoksa tek bir uçtan uca ağ eğitmek mi gerektiği tartışılmaktadır; uçtan uca sistemler yeterli veriyle şu anda önde gitmekle birlikte, uyarlanmaları daha zor olabilmektedir.
Öne çıkan isimler
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
İlgili konular
Temel eserler
- paul1992
- jurafsky2025
Sıkça sorulan sorular
- Kelime hata oranı (word error rate) nedir?
- Kelime hata oranı (word error rate), tanıma kalitesini, bir referans transkripte göre değiştirilen, silinen veya eklenen kelimelerin oranı olarak ölçmektedir; bu nedenle, daha düşük değerler daha doğru bir transkripsiyonu işaret etmektedir.