구문 분석
구문 분석은 문장의 문법 구조를 파악하여 단어들이 어떻게 결합하고 관련되는지를 보여주는 구성 트리 또는 의존 구조를 할당하는 작업입니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
구문 분석은 문장을 문법 구조의 표현으로 매핑하는 것입니다. 일반적으로 문법 또는 주석이 달린 데이터에서 학습된 모델에 따라 구성(구 구조) 트리 또는 의존 그래프로 표현됩니다.
Scope
이 주제는 문장 구조 분석을 다룹니다: 문맥 자유 및 더 풍부한 문법, 구성 구문 분석(구 구조 트리) 및 의존 구문 분석(핵심-의존 관계), CKY 및 Earley와 같은 고전적인 차트 구문 분석 알고리즘, 그리고 트리뱅크에서 훈련된 확률적 및 데이터 기반 구문 분석. 구문 모호성이 어떻게 표현되고 해결되는지를 다룹니다. 구문 구조를 사용하여 의미를 계산하는 하위 작업은 계산 의미론에서 다룹니다.
Core questions
- 문장의 문법 구조는 구성 요소 또는 의존성으로 어떻게 표현됩니까?
- 차트 구문 분석 알고리즘은 문장의 많은 가능한 분석을 어떻게 효율적으로 탐색합니까?
- 구문 모호성은 어떻게 처리되며, 확률 모델은 구문 분석 중에서 어떻게 선택합니까?
- 주석이 달린 코퍼스(트리뱅크)를 사용하여 파서는 어떻게 훈련되고 평가됩니까?
Key concepts
- 구성(구 구조) 트리
- 의존 구조
- 문맥 자유 문법
- CKY 및 Earley 구문 분석
- 확률적 문맥 자유 문법
- 구문 모호성
- 트리뱅크
- 품사 태그
Key theories
- 문맥 자유 문법 및 차트 구문 분석
- 문맥 자유 문법은 구 구조를 모델링하며, CKY 및 Earley 알고리즘과 같은 동적 프로그래밍 차트 파서는 하위 범위의 분석을 재사용하여 다항 시간 내에 모든 유효한 구문 분석을 복구합니다.
- 확률적 구문 분석
- 문법 규칙에 확률을 할당함으로써(확률적 문맥 자유 문법에서와 같이) 파서는 경쟁하는 분석의 순위를 매기고 가장 가능성 있는 구조를 선택하여 자연어 구문의 만연한 모호성을 해결할 수 있습니다.
- 트리뱅크 및 데이터 기반 구문 분석
- Penn Treebank와 같은 대규모 주석 코퍼스는 구문 분석을 데이터 기반 작업으로 전환시키는 훈련 및 평가 데이터를 제공하여, 사람이 주석을 단 구조로부터 통계적 및 이후 신경망 파서를 학습할 수 있게 했습니다.
Clinical relevance
구문 분석은 단어들이 어떻게 그룹화되고 관련되는지를 드러냄으로써 문법 검사, 정보 추출, 질문 응답 및 기계 번역을 지원합니다. 특히 의존 구조는 하위 의미 및 추출 시스템의 입력으로 널리 사용됩니다.
History
구문 분석은 촘스키의 형식 문법을 기반으로 발전했습니다. CKY(1960년대) 및 Earley(1970) 알고리즘은 효율적인 문맥 자유 구문 분석을 제공했습니다. Penn Treebank(1993)는 통계적 구문 분석을 촉진했으며, 확률적 및 이후 신경망 파서는 실제 텍스트에서 정확도와 견고성을 점진적으로 향상시켰습니다.
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- 구성 구문 분석과 의존 구문 분석의 차이점은 무엇입니까?
- 구성 구문 분석은 단어를 중첩된 구(명사구 및 동사구 등)로 그룹화하여 구성 요소 트리를 생성합니다. 반면에 의존 구문 분석은 각 단어를 의존하는 단어(핵심어)에 연결하여 문법적 관계 그래프를 생성합니다. 둘 다 구문 구조를 포착하지만 다른 측면을 강조합니다.
- 문법이 잘 정의되어 있음에도 불구하고 구문 분석이 어려운 이유는 무엇입니까?
- 자연어 문장은 매우 모호합니다. 단일 문장이 문법적으로 유효한 여러 구조를 가질 수 있으며, 문장 길이에 따라 그 수가 급격히 증가할 수 있습니다. 의도된 분석을 선택하려면 문법뿐만 아니라 통계적 또는 학습된 선호도가 필요하며, 이것이 구문 분석을 어렵게 만드는 요인입니다.