ScholarGate
어시스턴트

문서 표현 및 가중치 부여

문서 표현은 원시 텍스트를 가중치가 부여된 구조화된 특징 집합으로 변환하여, 무엇이 용어로 간주되고 각 용어가 얼마나 기여해야 하는지를 결정합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

문서 표현 및 가중치 부여는 원시 문서 텍스트를 특징 벡터, 일반적으로 용어로 변환하는 과정으로, 텍스트를 토큰화하고 정규화하며 각 특징에 문서 내 및 컬렉션 전체에서의 중요도를 반영하는 가중치를 할당합니다.

Scope

이 주제는 문서를 검색 가능한 표현으로 변환하는 단계들을 다룹니다: 토큰화, 정규화, 불용어 처리, 어간 추출 및 표제어 추출, 그리고 단어 주머니(bag-of-words) 또는 n-그램 특징 벡터의 구성, 더불어 원시 및 로그 용어 빈도, 역문서 빈도, 길이 정규화를 포함한 tf-idf와 같은 용어 가중치 부여 방식들을 다룹니다. 이는 검색, 분류 및 클러스터링에 사용되는 표현을 형성하는 선택들을 다루며, 순위 모델과 잠재 표현은 인접 주제로 남겨둡니다.

Core questions

  • 원시 텍스트는 어떻게 토큰화되고 용어로 정규화됩니까?
  • 불용어 제거, 어간 추출 및 표제어 추출의 효과는 무엇입니까?
  • 용어 빈도만으로는 왜 가중치로 부적합하며, 어떻게 변환됩니까?
  • 역문서 빈도는 컬렉션 전체에서 용어 중요도를 어떻게 포착합니까?
  • 길이 정규화는 길고 짧은 문서를 어떻게 비교 가능하게 유지합니까?

Key concepts

  • 토큰화 및 정규화
  • 불용어
  • 어간 추출 및 표제어 추출
  • 단어 주머니(bag-of-words) 및 n-그램
  • 용어 빈도(원시 및 로그)
  • 역문서 빈도
  • tf-idf 변형
  • 길이 정규화

Key theories

단어 주머니(Bag-of-words) 표현
문서를 단어 순서를 무시한 정렬되지 않은 용어 다중 집합으로 취급하는 것은 구문을 버림에도 불구하고 고전적인 검색, 분류 및 클러스터링의 기반이 되는 간단하고 효과적인 특징 벡터를 생성합니다.
tf-idf 가중치 부여 방식
(종종 약화된) 용어 빈도 구성 요소를 역문서 빈도 및 길이 정규화와 결합하면 문서에서는 자주 나타나지만 컬렉션에서는 드문 용어를 강조하는 가중치가 생성되며, 많은 문서화된 변형이 있습니다.

Clinical relevance

표현 및 가중치 부여 선택은 검색 순위부터 스팸 필터링 및 클러스터링에 이르기까지 모든 후속 작업의 품질에 직접적인 영향을 미칩니다. tf-idf 표현은 강력하고 해석 가능한 기준선으로 남아 있으며, 토큰화 및 정규화에 대한 동일한 설계 질문은 학습된 임베딩을 공급하는 현대 파이프라인에서도 지속됩니다.

History

문서 표현은 1960년대와 1970년대에 벡터 공간 모델과 함께 발전했으며, Spärck Jones는 1972년에 역문서 빈도를 도입했고 Salton과 Buckley는 1988년에 용어 가중치 변형을 체계화했습니다. 단어 주머니(bag-of-words) 표현과 tf-idf는 수십 년 동안 정보 검색(IR) 및 기계 학습 전반에 걸쳐 텍스트 처리의 기본 기반이 되었습니다.

Key figures

  • Gerard Salton
  • Chris Buckley
  • Karen Spärck Jones

Related topics

Seminal works

  • salton1988
  • sparckjones1972
  • manning2008

Frequently asked questions

단어 주머니(bag-of-words) 모델이란 무엇입니까?
단어 주머니(bag-of-words) 모델은 단어 순서와 문법을 무시하고 문서를 포함된 용어의 집합 또는 다중 집합으로 표현합니다. 순서 정보를 버림에도 불구하고 간단하고 효율적이며 검색, 분류 및 클러스터링에 놀랍도록 효과적입니다.
용어 빈도에 로그를 적용하는 이유는 무엇입니까?
용어가 10번 나타난다고 해서 한 번 나타나는 것보다 10배 더 중요하다고 할 수는 없습니다. 용어 빈도에 로그를 취하면 이러한 효과가 약화되어 추가 발생이 점진적으로 적은 가중치를 추가하게 되며, 이는 반복이 관련성과 어떻게 관련되는지를 더 잘 반영합니다.

Methods for this concept

Related concepts