ScholarGate
어시스턴트

구문 분석

구문 분석은 문장의 문법 구조를 파악하여 단어들이 어떻게 결합하고 관련되는지를 보여주는 구성 트리 또는 의존 구조를 할당하는 작업입니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

구문 분석은 문장을 문법 구조의 표현으로 매핑하는 것입니다. 일반적으로 문법 또는 주석이 달린 데이터에서 학습된 모델에 따라 구성(구 구조) 트리 또는 의존 그래프로 표현됩니다.

Scope

이 주제는 문장 구조 분석을 다룹니다: 문맥 자유 및 더 풍부한 문법, 구성 구문 분석(구 구조 트리) 및 의존 구문 분석(핵심-의존 관계), CKY 및 Earley와 같은 고전적인 차트 구문 분석 알고리즘, 그리고 트리뱅크에서 훈련된 확률적 및 데이터 기반 구문 분석. 구문 모호성이 어떻게 표현되고 해결되는지를 다룹니다. 구문 구조를 사용하여 의미를 계산하는 하위 작업은 계산 의미론에서 다룹니다.

Core questions

  • 문장의 문법 구조는 구성 요소 또는 의존성으로 어떻게 표현됩니까?
  • 차트 구문 분석 알고리즘은 문장의 많은 가능한 분석을 어떻게 효율적으로 탐색합니까?
  • 구문 모호성은 어떻게 처리되며, 확률 모델은 구문 분석 중에서 어떻게 선택합니까?
  • 주석이 달린 코퍼스(트리뱅크)를 사용하여 파서는 어떻게 훈련되고 평가됩니까?

Key concepts

  • 구성(구 구조) 트리
  • 의존 구조
  • 문맥 자유 문법
  • CKY 및 Earley 구문 분석
  • 확률적 문맥 자유 문법
  • 구문 모호성
  • 트리뱅크
  • 품사 태그

Key theories

문맥 자유 문법 및 차트 구문 분석
문맥 자유 문법은 구 구조를 모델링하며, CKY 및 Earley 알고리즘과 같은 동적 프로그래밍 차트 파서는 하위 범위의 분석을 재사용하여 다항 시간 내에 모든 유효한 구문 분석을 복구합니다.
확률적 구문 분석
문법 규칙에 확률을 할당함으로써(확률적 문맥 자유 문법에서와 같이) 파서는 경쟁하는 분석의 순위를 매기고 가장 가능성 있는 구조를 선택하여 자연어 구문의 만연한 모호성을 해결할 수 있습니다.
트리뱅크 및 데이터 기반 구문 분석
Penn Treebank와 같은 대규모 주석 코퍼스는 구문 분석을 데이터 기반 작업으로 전환시키는 훈련 및 평가 데이터를 제공하여, 사람이 주석을 단 구조로부터 통계적 및 이후 신경망 파서를 학습할 수 있게 했습니다.

Clinical relevance

구문 분석은 단어들이 어떻게 그룹화되고 관련되는지를 드러냄으로써 문법 검사, 정보 추출, 질문 응답 및 기계 번역을 지원합니다. 특히 의존 구조는 하위 의미 및 추출 시스템의 입력으로 널리 사용됩니다.

History

구문 분석은 촘스키의 형식 문법을 기반으로 발전했습니다. CKY(1960년대) 및 Earley(1970) 알고리즘은 효율적인 문맥 자유 구문 분석을 제공했습니다. Penn Treebank(1993)는 통계적 구문 분석을 촉진했으며, 확률적 및 이후 신경망 파서는 실제 텍스트에서 정확도와 견고성을 점진적으로 향상시켰습니다.

Key figures

  • Noam Chomsky
  • Tadao Kasami
  • Jay Earley
  • Mitchell P. Marcus
  • Christopher D. Manning

Related topics

Seminal works

  • marcus1993
  • jurafsky2023

Frequently asked questions

구성 구문 분석과 의존 구문 분석의 차이점은 무엇입니까?
구성 구문 분석은 단어를 중첩된 구(명사구 및 동사구 등)로 그룹화하여 구성 요소 트리를 생성합니다. 반면에 의존 구문 분석은 각 단어를 의존하는 단어(핵심어)에 연결하여 문법적 관계 그래프를 생성합니다. 둘 다 구문 구조를 포착하지만 다른 측면을 강조합니다.
문법이 잘 정의되어 있음에도 불구하고 구문 분석이 어려운 이유는 무엇입니까?
자연어 문장은 매우 모호합니다. 단일 문장이 문법적으로 유효한 여러 구조를 가질 수 있으며, 문장 길이에 따라 그 수가 급격히 증가할 수 있습니다. 의도된 분석을 선택하려면 문법뿐만 아니라 통계적 또는 학습된 선호도가 필요하며, 이것이 구문 분석을 어렵게 만드는 요인입니다.

Methods for this concept

Related concepts