Estilometria e Atribuição de Autoria
Escritores deixam impressões digitais estatísticas. As frequências de palavras pequenas e inconscientes — 'o', 'de', 'e' — variam pouco dentro da obra de um autor, mas diferem entre autores, e a estilometria explora isso para resolver disputas de autoria e para estudar o estilo quantitativamente.
Definition
A análise estatística de características mensuráveis do estilo de escrita para caracterizar autores e atribuir textos de autoria incerta ou disputada.
Scope
Abrange a medição quantitativa do estilo literário e seu uso na atribuição de textos a autores: a escolha de características estilísticas, medidas de distância e classificação como o Delta de Burrows, e a validação de reivindicações de atribuição. Inclui a história do campo desde os Federalist Papers até os métodos modernos de aprendizado de máquina, e suas aplicações forenses.
Core questions
- Quais características textuais melhor capturam o estilo distintivo de um autor?
- Como as reivindicações de atribuição podem ser testadas e validadas?
- Por que as frequências de palavras de função são tão eficazes para a atribuição?
- Quais são os limites da estilometria em diferentes gêneros, períodos e traduções?
Key concepts
- Palavras de função
- Delta de Burrows
- Seleção de características
- Classificação
- Validação cruzada
Key theories
- Frequência de palavras de função como sinal autoral
- Mosteller e Wallace mostraram que as frequências de palavras de função comuns podiam discriminar autores, usando inferência bayesiana para atribuir os Federalist Papers disputados.
- Delta de Burrows
- Burrows introduziu o Delta, uma medida de distância sobre as palavras mais frequentes que se tornou um método padrão e robusto para classificar autores candidatos.
- Atribuição moderna como classificação
- Stamatatos pesquisou como a atribuição de autoria é enquadrada como um problema de classificação de texto, comparando conjuntos de características e métodos de aprendizado de máquina.
History
O estudo quantitativo da autoria data do século XIX, mas o estudo de Mosteller e Wallace de 1964 sobre os Federalist Papers estabeleceu a abordagem estatística moderna. O Delta de Burrows (2002) forneceu ao campo uma medida amplamente adotada, e levantamentos como o de Stamatatos (2009) mapearam a mudança para a classificação por aprendizado de máquina e o uso forense.
Debates
- Confiabilidade e confiança das atribuições
- Os métodos estilométricos podem ser poderosos, mas sensíveis ao tamanho do corpus, gênero e pré-processamento, levantando questões sobre o grau de confiança que as atribuições merecem, especialmente em contextos forenses.
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- Por que focar em palavras minúsculas como 'o' em vez de vocabulário distintivo?
- O vocabulário distintivo frequentemente reflete o tópico de um texto em vez de seu autor. As palavras de função comuns são usadas inconscientemente e em taxas estáveis na escrita de um autor, mas diferem entre autores, tornando-as um sinal de estilo confiável e independente do tópico.