다중 모드 및 음성 상호작용
다중 모드 상호작용은 음성 및 제스처와 같이 두 개 이상의 입력 또는 출력 채널을 결합하는 반면, 음성 상호작용은 사용자가 시스템에 말할 수 있도록 합니다. 둘 다 컴퓨터와의 보다 자연스럽고 유연한 의사소통을 목표로 합니다.
Definition
다중 모드 상호작용은 사용자가 하나 이상의 양식을 통해 의사소통하고 시스템이 이를 공동으로 해석할 수 있는 상호작용입니다. 음성 상호작용은 음성 언어를 통한 상호작용이며, 대화형 인터페이스는 이를 사용자와 시스템 간의 대화로 구성합니다.
Scope
이 주제는 음성 기반 및 다중 모드 인터페이스를 다룹니다: 음성 사용자 인터페이스 및 대화형 상호작용, 음성과 포인팅 또는 제스처와 같은 양식의 조합, 다중 입력의 융합 및 모호성 해소, 그리고 이러한 환경에서의 오류, 맥락 및 피드백에 대한 설계 문제를 포함합니다. 인공지능에 속하는 기본 음성 인식 또는 자연어 알고리즘은 다루지 않으며, 터치 및 제스처 상호작용에서 다루는 단일 모드 터치 및 제스처도 다루지 않습니다.
Core questions
- 음성 및 제스처와 같은 양식을 결합하는 것이 상호작용을 어떻게 개선할 수 있습니까?
- 음성 및 대화형 인터페이스는 어떤 장점과 한계를 가지고 있습니까?
- 시스템은 다른 양식의 입력을 어떻게 융합하고 모호성을 해소합니까?
- 다중 모드 및 음성 인터페이스는 오류 및 맥락을 어떻게 처리해야 합니까?
Key concepts
- 음성 사용자 인터페이스
- 대화형 인터페이스
- 다중 모드 융합
- 보완적 대 중복적 양식
- 음성 및 제스처 조합
- 대화 및 차례 주고받기
- 오류 복구
- 맥락 및 접지
Key theories
- 음성 및 제스처 결합
- 볼트의 'Put-that-there'는 음성 명령과 포인팅을 결합하면 사용자가 참조를 자연스럽게 해결할 수 있음을 보여주었습니다. 예를 들어, 가리키면서 '저것을 저기에 놓아라'라고 말하는 것은 보완적 양식의 초기 예시입니다.
- 다중 모드 상호작용의 원리
- 오비아트는 다중 모드 사용에 대한 일반적인 가정에 반대하며, 사용자가 단순히 여러 양식에 걸쳐 입력을 복제하지 않으며, 보완적 양식의 잘 설계된 융합이 견고성과 효율성을 향상시킬 수 있음을 보여주었습니다.
- 대화형 인터페이스 설계
- 대화형 인터페이스는 상호작용을 대화로 모델링하며, 음성 또는 텍스트 교환이 일관되고 유용하게 유지되도록 차례 주고받기, 접지, 오류 복구 및 맥락 관리에 주의를 기울여야 합니다.
Clinical relevance
음성 및 대화형 인터페이스는 스마트 스피커, 가상 비서, 차량 내 시스템에 전력을 공급하여 핸즈프리 및 아이즈프리 사용을 지원합니다. 다중 모드 디자인은 기존 입력을 사용할 수 없는 사용자를 포함하여 시스템을 더욱 견고하고 접근 가능하게 만들 수 있지만, 별개의 오류 및 개인 정보 보호 문제를 야기합니다.
History
볼트(Bolt)의 1980년 'Put-that-there' 시스템은 음성 및 제스처 상호작용의 결합을 개척했습니다. QuickSet과 같은 시스템을 포함한 1990년대 연구는 다중 모드 융합을 개발했으며, 오비아트(Oviatt)의 연구는 사람들이 여러 양식을 사용하는 방식에 대한 오해를 바로잡았습니다. 음성 인식의 발전은 2010년대에 널리 보급된 음성 비서 및 대화형 인터페이스로 이어졌습니다.
Key figures
- Richard A. Bolt
- Sharon Oviatt
- Philip R. Cohen
- Michael McTear
Related topics
Seminal works
- bolt1980
- oviatt1999
- cohen1997
Frequently asked questions
- 다중 모드 상호작용은 단순히 여러 입력 옵션을 제공하는 것입니까?
- 정확히 그렇지는 않습니다. 대체 입력을 제공하는 것은 한 가지 이점이지만, 진정한 다중 모드 상호작용은 양식을 함께 해석할 수 있으므로 음성과 포인팅 제스처가 공동으로 명령을 지정합니다. 이는 별개의 독립적인 입력으로는 불가능한 방식으로 모호성을 해결하고 견고성을 향상시킬 수 있습니다.
- 음성 인터페이스가 일부 환경에서 여전히 어려움을 겪는 이유는 무엇입니까?
- 음성은 정확한 음성 인식과 모호하거나 맥락에 따라 달라지는 요청을 해결하는 데 의존하며, 이는 시끄러운 환경이나 개방형 작업에서는 어렵습니다. 음성은 또한 화면의 지속적인 시각적 피드백이 부족하므로, 설계자는 확인, 오류 복구, 그리고 시스템이 할 수 있는 것과 할 수 없는 것을 신중하게 관리해야 합니다.