ScholarGate
Asistan

Çok Modlu ve Sesli Etkileşim

Çok modlu etkileşim, konuşma ve jest gibi iki veya daha fazla girdi veya çıktı kanalını bir araya getirirken, sesli etkileşim kullanıcıların sistemlerle konuşmasına olanak tanımaktadır; her ikisi de bilgisayarlarla daha doğal ve esnek bir iletişim kurmayı hedeflemektedir.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Çok modlu etkileşim, kullanıcının birden fazla modalite aracılığıyla iletişim kurduğu ve sistemin bunları birlikte yorumlayabildiği bir etkileşim türüdür; sesli etkileşim, konuşulan dil aracılığıyla gerçekleşen etkileşimdir; diyalogsal arayüzler ise bunu kullanıcı ile sistem arasında bir diyalog olarak yapılandırmaktadır.

Kapsam

Bu kapsam, konuşma tabanlı ve çok modlu arayüzleri ele almaktadır: sesli kullanıcı arayüzleri ve diyalogsal etkileşim, konuşmanın işaret etme veya jest gibi modalitelerle birleşimi, çoklu girdilerin birleştirilmesi ve belirsizliğin giderilmesi ile bu ortamlardaki hata, bağlam ve geri bildirim tasarım sorunları incelenmektedir. Yapay zeka alanına giren temel konuşma tanıma veya doğal dil algoritmalarını kapsamamaktadır; ayrıca dokunma ve jest etkileşimi başlığı altında ele alınan tek modlu dokunma ve jest konularına da değinilmemektedir.

Temel sorular

  • Konuşma ve jest gibi modaliteleri birleştirmek etkileşimi nasıl iyileştirebilir?
  • Sesli ve diyalogsal arayüzlerin avantajları ve sınırlılıkları nelerdir?
  • Bir sistem, farklı modalitelerden gelen girdileri nasıl birleştirir ve belirsizliklerini giderir?
  • Çok modlu ve sesli arayüzler hataları ve bağlamı nasıl ele almalıdır?

Anahtar kavramlar

  • sesli kullanıcı arayüzü
  • diyalogsal arayüz
  • çok modlu birleşim
  • tamamlayıcı ve yedekli modaliteler
  • konuşma ve jest birleşimi
  • diyalog ve sıra alma
  • hata kurtarma
  • bağlam ve temellendirme

Temel kuramlar

Ses ve jestin birleştirilmesi
Bolt'un 'Put-that-there' çalışması, konuşulan komutları işaret etme ile birleştirmenin, kullanıcıların referansları doğal bir şekilde çözmesine olanak tanıdığını göstermiştir; örneğin, işaret ederken 'şunu şuraya koy' demek, tamamlayıcı modalitelerin erken bir örneğini sunmaktadır.
Çok modlu etkileşim ilkeleri
Oviatt, çok modlu kullanıma ilişkin yaygın varsayımlara karşı çıkmış, kullanıcıların girdiyi modaliteler arasında basitçe kopyalamadığını ve tamamlayıcı modalitelerin iyi tasarlanmış birleşiminin sağlamlığı ve verimliliği artırabileceğini göstermiştir.
Diyalogsal arayüz tasarımı
Diyalogsal arayüzler, etkileşimi bir diyalog olarak modellemektedir; bu da konuşulan veya metin tabanlı alışverişlerin tutarlı ve faydalı kalması için sıra almaya, temellendirmeye, hata kurtarmaya ve bağlam yönetimine dikkat edilmesini gerektirmektedir.

Klinik önem

Sesli ve diyalogsal arayüzler, akıllı hoparlörlere, sanal asistanlara ve araç içi sistemlere güç vererek eller serbest ve gözler serbest kullanımı desteklemektedir; çok modlu tasarımlar, geleneksel girdi yöntemlerini kullanamayan kullanıcılar da dahil olmak üzere sistemleri daha sağlam ve erişilebilir hale getirebilmektedir, ancak bu tasarımlar kendine özgü hata ve gizlilik hususlarını da beraberinde getirmektedir.

Tarihçe

Bolt'un 1980 tarihli 'Put-that-there' sistemi, ses ve jest etkileşimini birleştiren öncü bir çalışma olmuştur. QuickSet gibi sistemleri içeren 1990'lardaki araştırmalar, çok modlu birleşimi geliştirmiş ve Oviatt'ın çalışmaları, insanların birden fazla modaliteyi nasıl kullandığına dair yanlış kanıları düzeltmiştir. Konuşma tanımadaki ilerlemeler, 2010'larda yaygın sesli asistanların ve diyalogsal arayüzlerin ortaya çıkmasına yol açmıştır.

Öne çıkan isimler

  • Richard A. Bolt
  • Sharon Oviatt
  • Philip R. Cohen
  • Michael McTear

İlgili konular

Temel eserler

  • bolt1980
  • oviatt1999
  • cohen1997

Sıkça sorulan sorular

Çok modlu etkileşim sadece birkaç girdi seçeneği sunmak mıdır?
Tam olarak öyle değildir. Alternatif girdiler sunmak bir fayda olmakla birlikte, gerçek çok modlu etkileşim modaliteleri birlikte yorumlayabilir, böylece konuşma ve işaret jesti ortaklaşa bir komutu belirleyebilir. Bu durum, ayrı ve bağımsız girdilerin yapamayacağı şekillerde belirsizliği çözebilir ve sağlamlığı artırabilir.
Sesli arayüzler neden bazı ortamlarda hala zorlanmaktadır?
Ses, doğru konuşma tanımaya ve gürültülü ortamlarda veya ucu açık görevlerde zor olan belirsiz veya bağlama bağlı istekleri çözmeye bağlıdır. Ses ayrıca ekranların kalıcı görsel geri bildiriminden yoksundur, bu nedenle tasarımcılar onayı, hata kurtarmayı ve sistemin ne yapıp ne yapamayacağını dikkatlice yönetmelidir.

Bu kavram için yöntemler

İlgili kavramlar