ScholarGate
دستیار

تعامل چندوجهی و صوتی

تعامل چندوجهی دو یا چند کانال ورودی یا خروجی مانند گفتار و اشاره را ترکیب می‌کند، در حالی که تعامل صوتی به کاربران امکان می‌دهد با سیستم‌ها صحبت کنند؛ هر دو با هدف ارتباط طبیعی‌تر و انعطاف‌پذیرتر با رایانه‌ها طراحی شده‌اند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

تعامل چندوجهی تعاملی است که در آن کاربر از طریق بیش از یک روش ارتباط برقرار می‌کند و سیستم ممکن است آنها را به صورت مشترک تفسیر کند؛ تعامل صوتی تعاملی است از طریق زبان گفتاری؛ رابط‌های مکالمه‌ای این را به عنوان گفتگویی بین کاربر و سیستم ساختار می‌دهند.

Scope

این موضوع رابط‌های مبتنی بر گفتار و چندوجهی را پوشش می‌دهد: رابط‌های کاربری صوتی و تعامل مکالمه‌ای، ترکیب روش‌ها مانند گفتار با اشاره یا ژست، ادغام و رفع ابهام ورودی‌های متعدد، و مسائل طراحی مربوط به خطا، زمینه، و بازخورد در این تنظیمات. این موضوع الگوریتم‌های زیربنایی تشخیص گفتار یا زبان طبیعی را که به هوش مصنوعی تعلق دارند، پوشش نمی‌دهد، و همچنین لمس و اشاره تک‌وجهی را که تحت عنوان تعامل لمسی و اشاره‌ای بررسی می‌شوند، شامل نمی‌شود.

Core questions

  • چگونه ترکیب روش‌ها مانند گفتار و اشاره می‌تواند تعامل را بهبود بخشد؟
  • رابط‌های صوتی و مکالمه‌ای چه مزایا و محدودیت‌هایی دارند؟
  • یک سیستم چگونه ورودی‌ها را از روش‌های مختلف ادغام و رفع ابهام می‌کند؟
  • رابط‌های چندوجهی و صوتی چگونه باید خطاها و زمینه را مدیریت کنند؟

Key concepts

  • رابط کاربری صوتی
  • رابط مکالمه‌ای
  • ادغام چندوجهی
  • روش‌های مکمل در مقابل روش‌های زائد
  • ترکیب گفتار و اشاره
  • گفتگو و نوبت‌گیری
  • بازیابی خطا
  • زمینه و مبنا

Key theories

ترکیب صدا و اشاره
سیستم 'Put-that-there' بولت نشان داد که ترکیب دستورات گفتاری با اشاره به کاربران امکان می‌دهد تا ارجاعات را به طور طبیعی حل کنند، به عنوان مثال گفتن 'آن را آنجا بگذار' در حالی که اشاره می‌کنند، که نمونه اولیه ای از روش‌های مکمل بود.
اصول تعامل چندوجهی
اوویات علیه فرضیات رایج در مورد استفاده چندوجهی استدلال کرد و نشان داد که کاربران به سادگی ورودی را در روش‌های مختلف تکرار نمی‌کنند و ادغام خوب طراحی شده روش‌های مکمل می‌تواند استحکام و کارایی را بهبود بخشد.
طراحی رابط مکالمه‌ای
رابط‌های مکالمه‌ای تعامل را به عنوان گفتگو مدل‌سازی می‌کنند، که نیازمند توجه به نوبت‌گیری، مبنا، بازیابی خطا، و مدیریت زمینه است تا تبادلات گفتاری یا متنی منسجم و مفید باقی بمانند.

Clinical relevance

رابط‌های صوتی و مکالمه‌ای به بلندگوهای هوشمند، دستیارهای مجازی، و سیستم‌های داخل خودرو قدرت می‌بخشند و از استفاده بدون دست و بدون چشم پشتیبانی می‌کنند؛ طراحی‌های چندوجهی می‌توانند سیستم‌ها را قوی‌تر و قابل دسترس‌تر کنند، از جمله برای کاربرانی که نمی‌توانند از ورودی‌های معمولی استفاده کنند، اگرچه ملاحظات متمایزی در مورد خطا و حریم خصوصی ایجاد می‌کنند.

History

سیستم 'Put-that-there' بولت در سال ۱۹۸۰ پیشگام تعامل ترکیبی صدا و اشاره بود. تحقیقات در طول دهه ۱۹۹۰، از جمله سیستم‌هایی مانند QuickSet، ادغام چندوجهی را توسعه دادند، و کار اوویات تصورات غلط در مورد نحوه استفاده افراد از روش‌های متعدد را اصلاح کرد. پیشرفت‌ها در تشخیص گفتار منجر به دستیارهای صوتی گسترده و رابط‌های مکالمه‌ای در دهه ۲۰۱۰ شد.

Key figures

  • Richard A. Bolt
  • Sharon Oviatt
  • Philip R. Cohen
  • Michael McTear

Related topics

Seminal works

  • bolt1980
  • oviatt1999
  • cohen1997

Frequently asked questions

آیا تعامل چندوجهی فقط ارائه چندین گزینه ورودی است؟
دقیقاً نه. ارائه ورودی‌های جایگزین یک مزیت است، اما تعامل چندوجهی واقعی می‌تواند روش‌ها را با هم تفسیر کند، بنابراین گفتار و یک ژست اشاره‌ای به طور مشترک یک فرمان را مشخص می‌کنند. این می‌تواند ابهام را برطرف کرده و استحکام را به روش‌هایی بهبود بخشد که ورودی‌های جداگانه و مستقل نمی‌توانند.
چرا رابط‌های صوتی هنوز در برخی تنظیمات با مشکل مواجه هستند؟
صدا به تشخیص دقیق گفتار و حل درخواست‌های مبهم یا وابسته به زمینه بستگی دارد، که در محیط‌های پر سر و صدا یا وظایف باز دشوار است. صدا همچنین فاقد بازخورد بصری مداوم صفحه‌نمایش است، بنابراین طراحان باید تأیید، بازیابی خطا، و آنچه سیستم می‌تواند و نمی‌تواند انجام دهد را با دقت مدیریت کنند.

Methods for this concept

Related concepts