Стилометрия и атрибуция авторства
Писатели оставляют статистические «отпечатки пальцев». Частотность небольших, неосознанно используемых слов — «the», «of», «and» — мало варьируется в рамках произведений одного автора, но различается между авторами. Стилометрия использует это для разрешения спорных вопросов авторства и количественного изучения стиля.
Definition
Статистический анализ измеримых характеристик стиля письма для характеристики авторов и атрибуции текстов с неопределенным или оспариваемым авторством.
Scope
Охватывает количественное измерение литературного стиля и его использование для атрибуции текстов авторам: выбор стилистических признаков, меры расстояния и классификации, такие как дельта Берроуза, а также валидация утверждений об авторстве. Включает историю области от «Федералистских записок» до современных методов машинного обучения и их судебно-экспертное применение.
Core questions
- Какие текстовые признаки лучше всего отражают отличительный стиль автора?
- Как можно проверить и подтвердить утверждения об авторстве?
- Почему частотность служебных слов так эффективна для атрибуции?
- Каковы пределы стилометрии в разных жанрах, периодах и переводах?
Key concepts
- Служебные слова
- Дельта Берроуза
- Выбор признаков
- Классификация
- Перекрестная проверка
Key theories
- Частотность служебных слов как авторский сигнал
- Мостеллер и Уоллес показали, что частотность распространенных служебных слов может различать авторов, используя байесовский вывод для атрибуции спорных «Федералистских записок».
- Дельта Берроуза
- Берроуз представил Дельту — меру расстояния по наиболее частотным словам, которая стала стандартным, надежным методом ранжирования кандидатов в авторы.
- Современная атрибуция как классификация
- Стаматос рассмотрел, как атрибуция авторства формулируется как задача классификации текста, сравнивая наборы признаков и методы машинного обучения.
History
Количественное изучение авторства восходит к XIX веку, но исследование Мостеллера и Уоллеса 1964 года «Федералистских записок» заложило современный статистический подход. Дельта Берроуза (2002) предоставила области широко используемую меру, а обзоры, такие как Стаматоса (2009), отразили переход к классификации с использованием машинного обучения и судебно-экспертному применению.
Debates
- Надежность и достоверность атрибуций
- Стилометрические методы могут быть мощными, но чувствительными к размеру корпуса, жанру и предварительной обработке, что поднимает вопросы о степени достоверности атрибуций, особенно в судебно-экспертном контексте.
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- Почему акцент делается на крошечных словах, таких как «the», а не на отличительной лексике?
- Отличительная лексика часто отражает тему текста, а не его автора. Распространенные служебные слова используются неосознанно и с постоянной частотой в произведениях одного автора, но различаются между авторами, что делает их надежным, независимым от темы сигналом стиля.