Создание и курирование корпусов
Каждое вычислительное прочтение зависит от корпуса, и ни один корпус не является нейтральным. Выбор того, что включить, как очистить и структурировать тексты, а также какие метаданные прикрепить, формирует каждый последующий результат, делая создание корпуса самостоятельным научным актом.
Definition
Принципиальная сборка, обработка, документирование и поддержание текстовых коллекций, используемых для вычислительного анализа, наряду с критическим вниманием к тому, как эти коллекции отбираются и формируются.
Scope
Охватывает создание и управление текстовыми корпусами для вычислительного анализа: отбор и выборку, очистку и нормализацию, оптическое распознавание символов и транскрипцию, метаданные и документацию. Включает критическое осмысление репрезентативности, предвзятости и сконструированного характера гуманитарных наборов данных. Рассматривается здесь с точки зрения цифровых гуманитарных наук, а не корпусной лингвистики.
Core questions
- Что означает для корпуса репрезентировать совокупность литературы или истории?
- Как решения по очистке, оптическому распознаванию символов (OCR) и нормализации влияют на последующий анализ?
- Какие метаданные и документация необходимы для повторно используемого корпуса?
- Чьи тексты отсутствуют в доступных цифровых коллекциях и почему?
Key concepts
- Выборка
- Репрезентативность
- OCR
- Нормализация
- Происхождение
- Документация
Key theories
- Данные как сконструированные, а не данные
- Гительман и соавторы утверждали, что данные всегда создаются — отбираются, очищаются, оформляются — поэтому «сырые данные» являются неправильным термином, и каждый набор данных несет в себе предположения о его создании.
- Репрезентативность и литературный корпус
- Андервуд обсуждал, как состав и предвзятость цифровых коллекций формируют утверждения о литературных изменениях, делая выборку и происхождение центральными методологическими проблемами.
- Коллекции как научные аргументы
- Боде утверждал, что цифровые коллекции, лежащие в основе вычислительной литературной истории, сами по себе являются интерпретативными конструкциями, и что ученые должны учитывать, как была построена коллекция.
History
По мере развития вычислительного текстового анализа ученые все больше осознавали, что результаты зависят от лежащих в их основе корпусов. Том Гительман 2013 года поставил под сомнение идею нейтральных данных; Боде (2018) и Андервуд (2019) сделали явными вопросы конструирования и предвзятости литературных коллекций, утвердив курирование корпусов в качестве методологической и критической проблемы.
Debates
- Репрезентативность против доступности
- Корпусы часто строятся из того, что было оцифровано, что смещает акцент в сторону определенных языков, периодов и канонических произведений, поднимая вопрос о том, насколько обобщающими могут быть выводы.
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- Почему я не могу просто скачать большую кучу текстов и проанализировать их?
- Потому что состав этой кучи определяет ваши результаты. Доступные коллекции неравномерны и смещены в сторону того, что было оцифровано, а нескорректированное оптическое распознавание символов (OCR) вносит ошибки. Документирование отбора, происхождения и обработки имеет важное значение для интерпретации и доверия к любым вычислительным результатам.