Çok Modlu ve Sesli Etkileşim
Çok modlu etkileşim, konuşma ve jest gibi iki veya daha fazla girdi veya çıktı kanalını bir araya getirirken, sesli etkileşim kullanıcıların sistemlerle konuşmasına olanak tanımaktadır; her ikisi de bilgisayarlarla daha doğal ve esnek bir iletişim kurmayı hedeflemektedir.
Tanım
Çok modlu etkileşim, kullanıcının birden fazla modalite aracılığıyla iletişim kurduğu ve sistemin bunları birlikte yorumlayabildiği bir etkileşim türüdür; sesli etkileşim, konuşulan dil aracılığıyla gerçekleşen etkileşimdir; diyalogsal arayüzler ise bunu kullanıcı ile sistem arasında bir diyalog olarak yapılandırmaktadır.
Kapsam
Bu kapsam, konuşma tabanlı ve çok modlu arayüzleri ele almaktadır: sesli kullanıcı arayüzleri ve diyalogsal etkileşim, konuşmanın işaret etme veya jest gibi modalitelerle birleşimi, çoklu girdilerin birleştirilmesi ve belirsizliğin giderilmesi ile bu ortamlardaki hata, bağlam ve geri bildirim tasarım sorunları incelenmektedir. Yapay zeka alanına giren temel konuşma tanıma veya doğal dil algoritmalarını kapsamamaktadır; ayrıca dokunma ve jest etkileşimi başlığı altında ele alınan tek modlu dokunma ve jest konularına da değinilmemektedir.
Temel sorular
- Konuşma ve jest gibi modaliteleri birleştirmek etkileşimi nasıl iyileştirebilir?
- Sesli ve diyalogsal arayüzlerin avantajları ve sınırlılıkları nelerdir?
- Bir sistem, farklı modalitelerden gelen girdileri nasıl birleştirir ve belirsizliklerini giderir?
- Çok modlu ve sesli arayüzler hataları ve bağlamı nasıl ele almalıdır?
Anahtar kavramlar
- sesli kullanıcı arayüzü
- diyalogsal arayüz
- çok modlu birleşim
- tamamlayıcı ve yedekli modaliteler
- konuşma ve jest birleşimi
- diyalog ve sıra alma
- hata kurtarma
- bağlam ve temellendirme
Temel kuramlar
- Ses ve jestin birleştirilmesi
- Bolt'un 'Put-that-there' çalışması, konuşulan komutları işaret etme ile birleştirmenin, kullanıcıların referansları doğal bir şekilde çözmesine olanak tanıdığını göstermiştir; örneğin, işaret ederken 'şunu şuraya koy' demek, tamamlayıcı modalitelerin erken bir örneğini sunmaktadır.
- Çok modlu etkileşim ilkeleri
- Oviatt, çok modlu kullanıma ilişkin yaygın varsayımlara karşı çıkmış, kullanıcıların girdiyi modaliteler arasında basitçe kopyalamadığını ve tamamlayıcı modalitelerin iyi tasarlanmış birleşiminin sağlamlığı ve verimliliği artırabileceğini göstermiştir.
- Diyalogsal arayüz tasarımı
- Diyalogsal arayüzler, etkileşimi bir diyalog olarak modellemektedir; bu da konuşulan veya metin tabanlı alışverişlerin tutarlı ve faydalı kalması için sıra almaya, temellendirmeye, hata kurtarmaya ve bağlam yönetimine dikkat edilmesini gerektirmektedir.
Klinik önem
Sesli ve diyalogsal arayüzler, akıllı hoparlörlere, sanal asistanlara ve araç içi sistemlere güç vererek eller serbest ve gözler serbest kullanımı desteklemektedir; çok modlu tasarımlar, geleneksel girdi yöntemlerini kullanamayan kullanıcılar da dahil olmak üzere sistemleri daha sağlam ve erişilebilir hale getirebilmektedir, ancak bu tasarımlar kendine özgü hata ve gizlilik hususlarını da beraberinde getirmektedir.
Tarihçe
Bolt'un 1980 tarihli 'Put-that-there' sistemi, ses ve jest etkileşimini birleştiren öncü bir çalışma olmuştur. QuickSet gibi sistemleri içeren 1990'lardaki araştırmalar, çok modlu birleşimi geliştirmiş ve Oviatt'ın çalışmaları, insanların birden fazla modaliteyi nasıl kullandığına dair yanlış kanıları düzeltmiştir. Konuşma tanımadaki ilerlemeler, 2010'larda yaygın sesli asistanların ve diyalogsal arayüzlerin ortaya çıkmasına yol açmıştır.
Öne çıkan isimler
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
İlgili konular
Temel eserler
- bolt1980
- oviatt1999
- cohen1997
Sıkça sorulan sorular
- Çok modlu etkileşim sadece birkaç girdi seçeneği sunmak mıdır?
- Tam olarak öyle değildir. Alternatif girdiler sunmak bir fayda olmakla birlikte, gerçek çok modlu etkileşim modaliteleri birlikte yorumlayabilir, böylece konuşma ve işaret jesti ortaklaşa bir komutu belirleyebilir. Bu durum, ayrı ve bağımsız girdilerin yapamayacağı şekillerde belirsizliği çözebilir ve sağlamlığı artırabilir.
- Sesli arayüzler neden bazı ortamlarda hala zorlanmaktadır?
- Ses, doğru konuşma tanımaya ve gürültülü ortamlarda veya ucu açık görevlerde zor olan belirsiz veya bağlama bağlı istekleri çözmeye bağlıdır. Ses ayrıca ekranların kalıcı görsel geri bildiriminden yoksundur, bu nedenle tasarımcılar onayı, hata kurtarmayı ve sistemin ne yapıp ne yapamayacağını dikkatlice yönetmelidir.