Почему я не могу просто скачать большую кучу текстов и проанализировать их?

Потому что состав этой кучи определяет ваши результаты. Доступные коллекции неравномерны и смещены в сторону того, что было оцифровано, а нескорректированное оптическое распознавание символов (OCR) вносит ошибки. Документирование отбора, происхождения и обработки имеет важное значение для интерпретации и доверия к любым вычислительным результатам.

Создание и курирование корпусов

Каждое вычислительное прочтение зависит от корпуса, и ни один корпус не является нейтральным. Выбор того, что включить, как очистить и структурировать тексты, а также какие метаданные прикрепить, формирует каждый последующий результат, делая создание корпуса самостоятельным научным актом.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Принципиальная сборка, обработка, документирование и поддержание текстовых коллекций, используемых для вычислительного анализа, наряду с критическим вниманием к тому, как эти коллекции отбираются и формируются.

Scope

Охватывает создание и управление текстовыми корпусами для вычислительного анализа: отбор и выборку, очистку и нормализацию, оптическое распознавание символов и транскрипцию, метаданные и документацию. Включает критическое осмысление репрезентативности, предвзятости и сконструированного характера гуманитарных наборов данных. Рассматривается здесь с точки зрения цифровых гуманитарных наук, а не корпусной лингвистики.

Core questions

Что означает для корпуса репрезентировать совокупность литературы или истории?
Как решения по очистке, оптическому распознаванию символов (OCR) и нормализации влияют на последующий анализ?
Какие метаданные и документация необходимы для повторно используемого корпуса?
Чьи тексты отсутствуют в доступных цифровых коллекциях и почему?

Key concepts

Выборка
Репрезентативность
OCR
Нормализация
Происхождение
Документация

Key theories

Данные как сконструированные, а не данные: Гительман и соавторы утверждали, что данные всегда создаются — отбираются, очищаются, оформляются — поэтому «сырые данные» являются неправильным термином, и каждый набор данных несет в себе предположения о его создании.
Репрезентативность и литературный корпус: Андервуд обсуждал, как состав и предвзятость цифровых коллекций формируют утверждения о литературных изменениях, делая выборку и происхождение центральными методологическими проблемами.
Коллекции как научные аргументы: Боде утверждал, что цифровые коллекции, лежащие в основе вычислительной литературной истории, сами по себе являются интерпретативными конструкциями, и что ученые должны учитывать, как была построена коллекция.

History

По мере развития вычислительного текстового анализа ученые все больше осознавали, что результаты зависят от лежащих в их основе корпусов. Том Гительман 2013 года поставил под сомнение идею нейтральных данных; Боде (2018) и Андервуд (2019) сделали явными вопросы конструирования и предвзятости литературных коллекций, утвердив курирование корпусов в качестве методологической и критической проблемы.

Debates

Репрезентативность против доступности: Корпусы часто строятся из того, что было оцифровано, что смещает акцент в сторону определенных языков, периодов и канонических произведений, поднимая вопрос о том, насколько обобщающими могут быть выводы.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

Почему я не могу просто скачать большую кучу текстов и проанализировать их?: Потому что состав этой кучи определяет ваши результаты. Доступные коллекции неравномерны и смещены в сторону того, что было оцифровано, а нескорректированное оптическое распознавание символов (OCR) вносит ошибки. Документирование отбора, происхождения и обработки имеет важное значение для интерпретации и доверия к любым вычислительным результатам.