ScholarGate
어시스턴트

역색인

역색인은 컬렉션 내의 각 용어를 해당 용어를 포함하는 문서들의 포스팅 목록에 매핑하여, 검색 시스템이 모든 문서를 스캔하지 않고도 일치하는 문서를 찾을 수 있도록 합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

역색인은 색인된 용어 사전으로 구성된 데이터 구조이며, 각 용어는 해당 용어를 포함하는 문서를 열거하는 포스팅 목록을 가리키며, 검색이 포스팅 목록을 교차하거나 병합하여 수행될 수 있도록 빈도 및 용어 위치로 주석이 달리는 경우가 많습니다.

Scope

이 주제는 역색인의 구조와 구축에 대해 다룹니다: 용어 사전, 문서 식별자, 용어 빈도 및 위치를 기록하는 포스팅 목록, 그리고 블록 정렬 기반 색인화 및 단일 패스 메모리 내 색인화를 포함하여 대규모 컬렉션에 대한 색인을 구축하고 업데이트하는 알고리즘. 구문 질의를 위한 위치 정보와 색인 유지보수 공학을 다루며, 압축 및 질의 평가 전략은 인접 주제로 남겨둡니다.

Core questions

  • 사전 항목과 그 포스팅 목록에는 무엇이 포함됩니까?
  • 구문 및 근접 질의를 지원하기 위해 위치는 어떻게 저장됩니까?
  • 컬렉션이 메모리에 비해 너무 클 때 역색인은 어떻게 구축됩니까?
  • 문서가 추가, 변경 또는 삭제될 때 색인은 어떻게 업데이트됩니까?
  • 포스팅 목록은 결합 질의를 위한 효율적인 교차를 어떻게 지원합니까?

Key concepts

  • 용어 사전
  • 포스팅 목록
  • 문서 식별자
  • 위치 색인
  • 용어 빈도 저장
  • 블록 정렬 기반 색인화 (BSBI)
  • 단일 패스 메모리 내 색인화 (SPIMI)
  • 색인 병합 및 업데이트

Key theories

사전 및 포스팅 구성
압축된 용어 사전을 가변 길이 포스팅 목록과 분리함으로써 시스템은 용어를 빠르게 찾아보고 관련 문서만 스트리밍할 수 있으며, 이는 모든 역색인 검색의 구조적 기반입니다.
확장 가능한 색인 구축
블록 정렬 기반 색인화 및 단일 패스 메모리 내 색인화와 같은 디스크 기반 방법은 부분 색인을 축적하고 병합함으로써 메모리보다 훨씬 큰 컬렉션에 대한 역파일을 구축합니다.

Clinical relevance

역색인은 웹 검색 엔진, Lucene 및 그 파생물과 같은 오픈 소스 검색 플랫폼, 데이터베이스 전체 텍스트 검색을 포함하여 사실상 모든 텍스트 검색 시스템의 핵심 데이터 구조입니다. 그 설계는 어떤 질의 유형이 지원되고 얼마나 빠르고 저렴하게 답변될 수 있는지를 결정합니다.

History

역파일은 초기 서지 검색 시스템에서 사용되었으며, 컬렉션이 증가함에 따라 전체 텍스트 검색의 표준 구조가 되었습니다. 단일 패스 메모리 내 색인화와 같은 확장 가능한 구축 방법을 포함한 1990년대와 2000년대의 연구는 웹 규모의 코퍼스를 색인화하는 것을 실용적으로 만들었으며, 이 구조는 현재 널리 사용되는 오픈 소스 검색 라이브러리의 기반이 되고 있습니다.

Key figures

  • Justin Zobel
  • Alistair Moffat
  • Steffen Heinz

Related topics

Seminal works

  • zobel2006
  • heinz2003
  • manning2008

Frequently asked questions

왜 '역'색인이라고 불립니까?
일반(순방향) 색인은 각 문서에 대해 해당 문서가 포함하는 용어를 나열합니다. 역색인은 이 매핑을 역전시켜 각 용어에 대해 해당 용어를 포함하는 문서를 나열합니다. 이러한 역전은 용어 기반 조회를 빠르게 만드는 핵심입니다.
위치 색인은 무엇에 사용됩니까?
위치 색인은 각 용어가 각 문서 내에서 나타나는 위치를 저장합니다. 이를 통해 시스템은 용어가 문서 어딘가에 나타나는지 여부뿐만 아니라 용어의 순서나 근접성이 중요한 구문 질의 및 근접 질의에 답변할 수 있습니다.

Methods for this concept

Related concepts