ScholarGate
Ассистент

Стилометрия и атрибуция авторства

Писатели оставляют статистические «отпечатки пальцев». Частотность небольших, неосознанно используемых слов — «the», «of», «and» — мало варьируется в рамках произведений одного автора, но различается между авторами. Стилометрия использует это для разрешения спорных вопросов авторства и количественного изучения стиля.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Статистический анализ измеримых характеристик стиля письма для характеристики авторов и атрибуции текстов с неопределенным или оспариваемым авторством.

Scope

Охватывает количественное измерение литературного стиля и его использование для атрибуции текстов авторам: выбор стилистических признаков, меры расстояния и классификации, такие как дельта Берроуза, а также валидация утверждений об авторстве. Включает историю области от «Федералистских записок» до современных методов машинного обучения и их судебно-экспертное применение.

Core questions

  • Какие текстовые признаки лучше всего отражают отличительный стиль автора?
  • Как можно проверить и подтвердить утверждения об авторстве?
  • Почему частотность служебных слов так эффективна для атрибуции?
  • Каковы пределы стилометрии в разных жанрах, периодах и переводах?

Key concepts

  • Служебные слова
  • Дельта Берроуза
  • Выбор признаков
  • Классификация
  • Перекрестная проверка

Key theories

Частотность служебных слов как авторский сигнал
Мостеллер и Уоллес показали, что частотность распространенных служебных слов может различать авторов, используя байесовский вывод для атрибуции спорных «Федералистских записок».
Дельта Берроуза
Берроуз представил Дельту — меру расстояния по наиболее частотным словам, которая стала стандартным, надежным методом ранжирования кандидатов в авторы.
Современная атрибуция как классификация
Стаматос рассмотрел, как атрибуция авторства формулируется как задача классификации текста, сравнивая наборы признаков и методы машинного обучения.

History

Количественное изучение авторства восходит к XIX веку, но исследование Мостеллера и Уоллеса 1964 года «Федералистских записок» заложило современный статистический подход. Дельта Берроуза (2002) предоставила области широко используемую меру, а обзоры, такие как Стаматоса (2009), отразили переход к классификации с использованием машинного обучения и судебно-экспертному применению.

Debates

Надежность и достоверность атрибуций
Стилометрические методы могут быть мощными, но чувствительными к размеру корпуса, жанру и предварительной обработке, что поднимает вопросы о степени достоверности атрибуций, особенно в судебно-экспертном контексте.

Key figures

  • Frederick Mosteller
  • David Wallace
  • John Burrows
  • Efstathios Stamatatos

Related topics

Seminal works

  • mosteller1964
  • burrows2002
  • stamatatos2009

Frequently asked questions

Почему акцент делается на крошечных словах, таких как «the», а не на отличительной лексике?
Отличительная лексика часто отражает тему текста, а не его автора. Распространенные служебные слова используются неосознанно и с постоянной частотой в произведениях одного автора, но различаются между авторами, что делает их надежным, независимым от темы сигналом стиля.

Methods for this concept

Related concepts