그냥 많은 텍스트를 다운로드해서 분석하면 안 되는 이유는 무엇인가요?

그 더미의 구성이 결과에 영향을 미치기 때문입니다. 사용 가능한 컬렉션은 불균등하고 디지털화된 자료에 편향되어 있으며, 수정되지 않은 OCR은 오류를 발생시킵니다. 선택, 출처, 처리 과정을 문서화하는 것은 모든 전산적 발견을 해석하고 신뢰하는 데 필수적입니다.

코퍼스 구축 및 큐레이션

모든 전산적 읽기는 코퍼스에 의존하며, 어떤 코퍼스도 중립적이지 않습니다. 무엇을 포함할지, 텍스트를 어떻게 정제하고 구조화할지, 어떤 메타데이터를 첨부할지에 대한 선택은 이후의 모든 결과에 영향을 미치므로, 코퍼스 구축은 그 자체로 학술적 행위입니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

전산 분석에 사용되는 텍스트 컬렉션을 선별하고 구성하는 방식에 대한 비판적 고찰과 함께, 해당 컬렉션의 원칙적인 조립, 처리, 문서화 및 유지보수.

Scope

전산 분석을 위한 텍스트 코퍼스의 구축 및 관리를 다룹니다: 선택 및 샘플링, 정제 및 정규화, 광학 문자 인식 및 전사, 메타데이터, 그리고 문서화. 대표성, 편향성, 인문학 데이터셋의 구성적 특성에 대한 비판적 성찰을 포함합니다. 여기서는 코퍼스 언어학보다는 디지털 인문학적 관점에서 다룹니다.

Core questions

코퍼스가 문학 또는 역사 자료를 대표한다는 것은 무엇을 의미하는가?
정제, OCR, 정규화 결정이 후속 분석에 어떻게 영향을 미치는가?
재사용 가능한 코퍼스에는 어떤 메타데이터와 문서화가 필요한가?
사용 가능한 디지털 컬렉션에서 어떤 텍스트들이 누락되어 있으며, 그 이유는 무엇인가?

Key concepts

샘플링
대표성
OCR
정규화
출처
문서화

Key theories

데이터는 주어진 것이 아니라 구성된 것이다: Gitelman과 기여자들은 데이터는 항상 만들어지는 것(선택되고, 정제되고, 구성되는 것)이므로 '원시 데이터'는 잘못된 명칭이며, 모든 데이터셋은 그 구성의 가정을 담고 있다고 주장했습니다.
대표성과 문학 코퍼스: Underwood는 디지털 컬렉션의 구성과 편향성이 문학적 변화에 대한 주장을 어떻게 형성하는지 논의하며, 샘플링과 출처를 핵심 방법론적 관심사로 만들었습니다.
학술적 주장으로서의 컬렉션: Bode는 전산 문학사의 기반이 되는 디지털 컬렉션 자체가 해석적 구성물이며, 학자들은 컬렉션이 어떻게 구축되었는지 설명해야 한다고 주장했습니다.

History

전산 텍스트 분석이 발전하면서, 학자들은 결과가 그 기반이 되는 코퍼스에 달려 있음을 점차 인식하게 되었습니다. Gitelman의 2013년 저서는 중립적 데이터라는 개념에 이의를 제기했으며, Bode (2018)와 Underwood (2019)는 문학 컬렉션의 구축과 편향성을 명확히 하여 코퍼스 큐레이션을 방법론적, 비판적 관심사로 확립했습니다.

Debates

대표성 대 가용성: 코퍼스는 종종 디지털화된 자료를 기반으로 구축되는데, 이는 특정 언어, 시대, 정전 작품에 편향될 수 있으며, 결론의 일반화 가능성 정도에 대한 의문을 제기합니다.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

그냥 많은 텍스트를 다운로드해서 분석하면 안 되는 이유는 무엇인가요?: 그 더미의 구성이 결과에 영향을 미치기 때문입니다. 사용 가능한 컬렉션은 불균등하고 디지털화된 자료에 편향되어 있으며, 수정되지 않은 OCR은 오류를 발생시킵니다. 선택, 출처, 처리 과정을 문서화하는 것은 모든 전산적 발견을 해석하고 신뢰하는 데 필수적입니다.