ScholarGate
Ассистент

Создание и курирование корпусов

Каждое вычислительное прочтение зависит от корпуса, и ни один корпус не является нейтральным. Выбор того, что включить, как очистить и структурировать тексты, а также какие метаданные прикрепить, формирует каждый последующий результат, делая создание корпуса самостоятельным научным актом.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Принципиальная сборка, обработка, документирование и поддержание текстовых коллекций, используемых для вычислительного анализа, наряду с критическим вниманием к тому, как эти коллекции отбираются и формируются.

Scope

Охватывает создание и управление текстовыми корпусами для вычислительного анализа: отбор и выборку, очистку и нормализацию, оптическое распознавание символов и транскрипцию, метаданные и документацию. Включает критическое осмысление репрезентативности, предвзятости и сконструированного характера гуманитарных наборов данных. Рассматривается здесь с точки зрения цифровых гуманитарных наук, а не корпусной лингвистики.

Core questions

  • Что означает для корпуса репрезентировать совокупность литературы или истории?
  • Как решения по очистке, оптическому распознаванию символов (OCR) и нормализации влияют на последующий анализ?
  • Какие метаданные и документация необходимы для повторно используемого корпуса?
  • Чьи тексты отсутствуют в доступных цифровых коллекциях и почему?

Key concepts

  • Выборка
  • Репрезентативность
  • OCR
  • Нормализация
  • Происхождение
  • Документация

Key theories

Данные как сконструированные, а не данные
Гительман и соавторы утверждали, что данные всегда создаются — отбираются, очищаются, оформляются — поэтому «сырые данные» являются неправильным термином, и каждый набор данных несет в себе предположения о его создании.
Репрезентативность и литературный корпус
Андервуд обсуждал, как состав и предвзятость цифровых коллекций формируют утверждения о литературных изменениях, делая выборку и происхождение центральными методологическими проблемами.
Коллекции как научные аргументы
Боде утверждал, что цифровые коллекции, лежащие в основе вычислительной литературной истории, сами по себе являются интерпретативными конструкциями, и что ученые должны учитывать, как была построена коллекция.

History

По мере развития вычислительного текстового анализа ученые все больше осознавали, что результаты зависят от лежащих в их основе корпусов. Том Гительман 2013 года поставил под сомнение идею нейтральных данных; Боде (2018) и Андервуд (2019) сделали явными вопросы конструирования и предвзятости литературных коллекций, утвердив курирование корпусов в качестве методологической и критической проблемы.

Debates

Репрезентативность против доступности
Корпусы часто строятся из того, что было оцифровано, что смещает акцент в сторону определенных языков, периодов и канонических произведений, поднимая вопрос о том, насколько обобщающими могут быть выводы.

Key figures

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

Related topics

Seminal works

  • gitelman2013
  • bode2018
  • underwood2019

Frequently asked questions

Почему я не могу просто скачать большую кучу текстов и проанализировать их?
Потому что состав этой кучи определяет ваши результаты. Доступные коллекции неравномерны и смещены в сторону того, что было оцифровано, а нескорректированное оптическое распознавание символов (OCR) вносит ошибки. Документирование отбора, происхождения и обработки имеет важное значение для интерпретации и доверия к любым вычислительным результатам.

Methods for this concept

Related concepts