ScholarGate
어시스턴트

음성 지각 및 명료도

음성 지각은 청취자가 빠르게 변하는 음향 음성 신호로부터 언어 단위, 단어 및 의미를 파악하는 과정입니다. 명료도는 음성이 얼마나 정확하게 이해되는지를 나타내는 정도로, 음성 자료, 청취자, 청취 조건, 특히 배경 소음에 따라 달라집니다. 이 주제는 음성 소리를 구별하는 음향 단서, 청취자가 이를 어떻게 범주화하는지, 그리고 명료도가 어떻게 측정되고 예측되는지를 다룹니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

음성 지각은 음향 음성 신호를 음소 및 단어와 같은 언어 범주에 매핑하는 청각 및 인지 과정이며, 명료도는 청취자가 의도된 음성을 얼마나 정확하게 파악하는지에 대한 척도입니다.

Scope

이 주제는 모음과 자음의 음향 단서, 음소의 범주적 지각, 음성 저하 및 소음에 대한 음성의 견고성, 그리고 명료도의 측정 및 예측을 다룹니다. 이는 청각 및 음성 지각에 대한 참고 및 교육 자료이며, 임상 지침이 아닙니다.

Core questions

  • 어떤 음향 단서가 하나의 음성 소리를 다른 음성 소리와 구별하는가?
  • 청취자는 지속적으로 변하는 신호를 어떻게 이산적인 음소에 매핑하는가?
  • 명료도가 실패하기 전에 음성 신호의 얼마나 많은 부분이 저하될 수 있는가?
  • 다양한 청취 조건에서 음성 명료도는 어떻게 측정되고 예측되는가?

Key concepts

  • 포먼트와 모음 정체성
  • 음성 시작 시간과 자음 단서
  • 범주적 지각
  • 음성 수용 역치
  • 음성 명료도 지수
  • 엔벨로프 대 미세 구조 단서
  • 소음 속 음성 및 정보 마스킹

Key theories

음성의 범주적 지각
청취자는 음성 시작 시간에서 변화하는 일련의 소리와 같이 음성 소리의 연속체를 이산적인 음소 범주로 나누는 경향이 있으며, 범주 경계를 가로지르는 쌍을 동일한 간격의 범주 내 쌍보다 훨씬 더 잘 구별합니다.
주파수 대역에 걸친 음성 정보의 분포
명료도는 주파수 대역에 걸쳐 음성의 가청도에 가중치를 부여하여 예측할 수 있으며, 이는 청취자에게 도달하는 유용한 음성 정보의 양을 정량화하는 명료도 지수 및 음성 명료도 지수의 기초입니다.

Mechanisms

모음은 주로 성도의 공명 주파수인 포먼트(formant) 주파수에 의해 식별되는 반면, 자음은 빠른 스펙트럼 전환, 파열음, 그리고 음성 시작 시간(voice onset time)과 같은 타이밍 단서에 의해 신호됩니다. 청각 시스템은 이러한 스펙트럼 및 시간적 패턴을 추출하고, 더 높은 수준의 처리 과정은 이를 문맥 및 언어 지식을 활용하여 음소 및 단어 범주에 매핑합니다. 음성은 매우 중복성이 높으므로, 상당히 저하되더라도 명료도를 유지합니다. 미세한 스펙트럼 세부 정보를 몇 개의 진폭 변조된 잡음 대역으로 대체하는 실험은 느린 시간적 엔벨로프(temporal envelope)만으로도 조용한 환경에서 좋은 인식을 지원할 수 있음을 보여주며, 이는 인공와우 코딩과 관련된 원리입니다.

Clinical relevance

특히 소음 속에서 음성을 이해하는 데 어려움을 겪는 것은 난청의 가장 흔하고 장애를 유발하는 결과 중 하나이며, 순음 역치(pure-tone thresholds)가 예측하는 것보다 더 심각할 수 있습니다. 이는 주파수 선택성 및 시간적 코딩의 감소가 청취자가 의존하는 단서를 저하시키기 때문입니다. 따라서 음성 지각 측정은 기능적 청력을 설명하는 데 있어 청력도(audiogram)를 보완합니다. 이 자료는 음성 이해가 왜 테스트되는지를 설명하며, 개별 진단 또는 치료의 근거가 아닙니다.

Evidence & guidelines

모음과 자음의 음향적 기초는 Peterson과 Barney(1952) 및 Miller와 Nicely(1955)의 고전 연구에서 매핑되었고, 범주적 지각은 Liberman과 동료들(1957)에 의해 확립되었습니다. 대역 가청도(band audibility)로부터 명료도를 예측하는 것은 ANSI S3.5-1997에서 음성 명료도 지수(Speech Intelligibility Index)로 표준화되어 있으며, 시간적 엔벨로프 단서의 충분성은 Shannon과 동료들(1995)에 의해 입증되었습니다.

History

Bell Laboratories에서 전화 음성의 명료도에 대한 전시 및 전후 연구는 명료도 지수(articulation index)와 자음 및 모음 음향에 대한 상세한 연구를 산출했습니다. Haskins Laboratories의 Liberman과 동료들은 1950년대에 범주적 지각을 확립하고 영향력 있는 음성 이론을 개발했습니다. Shannon과 동료들의 대역 보코더(band-vocoder) 연구를 포함한 후속 연구는 스펙트럼 세부 정보와 시간적 엔벨로프의 상대적 역할을 명확히 하고 인공와우 신호 처리에 정보를 제공했습니다.

Debates

음성은 특수화된 메커니즘에 의해 지각되는가, 아니면 일반적인 청각 과정에 의해 지각되는가?
음성이 조음과 관련된 전용 지각 모드를 활용하는지 또는 범용 청각 및 학습 과정에 의해 처리되는지에 대한 이론은 다릅니다. 두 가지 관점 모두 증거의 일부를 설명하며, 이 질문은 여전히 논쟁 중입니다.

Key figures

  • George A. Miller
  • Gordon Peterson
  • Alvin Liberman
  • Robert Shannon
  • Harvey Fletcher

Related topics

Seminal works

  • peterson-barney-1952
  • miller-nicely-1955
  • liberman-1957
  • shannon-1995

Frequently asked questions

소리가 들리는데도 난청이 음성을 이해하기 어렵게 만드는 이유는 무엇입니까?
가청도는 감지를 회복시키지만, 음성이 의존하는 미세한 주파수 및 타이밍 해상도는 회복시키지 못합니다. 와우 선택성 및 시간적 코딩의 감소는 음성 소리를 구별하는 단서를 흐리게 하여, 소리가 충분히 크게 들리더라도 특히 소음 속에서의 이해는 여전히 좋지 않을 수 있습니다.
음성 명료도는 어떻게 측정됩니까?
일반적으로 주어진 수준 또는 신호 대 잡음비에서 올바르게 식별된 단어 또는 문장의 백분율로 행동적으로 측정되며, 때로는 음성 수용 역치로 요약됩니다. 또한 음성 명료도 지수와 같은 지수를 사용하여 주파수 대역에 걸친 음성의 가청도로부터 예측할 수도 있습니다.

Methods for this concept

Related concepts