Stilometri dan Atribusi Kepengarangan
Penulis meninggalkan jejak statistik. Frekuensi kata-kata kecil yang tidak disadari — the, of, and — sedikit bervariasi dalam karya seorang penulis tetapi berbeda antar penulis, dan stilometri memanfaatkan ini untuk menyelesaikan sengketa kepengarangan dan untuk mempelajari gaya secara kuantitatif.
Definition
Analisis statistik fitur-fitur terukur dari gaya penulisan untuk mengkarakterisasi penulis dan untuk mengatribusikan teks-teks yang kepengarangannya tidak pasti atau disengketakan.
Scope
Mencakup pengukuran kuantitatif gaya sastra dan penggunaannya dalam mengatribusikan teks kepada penulis: pilihan fitur stilistik, ukuran jarak dan klasifikasi seperti Burrows's Delta, dan validasi klaim atribusi. Termasuk sejarah bidang ini dari Federalist Papers hingga metode pembelajaran mesin modern, dan aplikasi forensiknya.
Core questions
- Fitur tekstual manakah yang paling baik menangkap gaya khas seorang penulis?
- Bagaimana klaim atribusi dapat diuji dan divalidasi?
- Mengapa frekuensi kata fungsi begitu efektif untuk atribusi?
- Apa batasan stilometri di berbagai genre, periode, dan terjemahan?
Key concepts
- Kata fungsi
- Burrows's Delta
- Pemilihan fitur
- Klasifikasi
- Validasi silang
Key theories
- Frekuensi kata fungsi sebagai sinyal kepengarangan
- Mosteller dan Wallace menunjukkan bahwa frekuensi kata fungsi umum dapat membedakan penulis, menggunakan inferensi Bayesian untuk mengatribusikan Federalist Papers yang disengketakan.
- Burrows's Delta
- Burrows memperkenalkan Delta, ukuran jarak atas kata-kata yang paling sering muncul yang telah menjadi metode standar dan kuat untuk memberi peringkat penulis kandidat.
- Atribusi modern sebagai klasifikasi
- Stamatatos mensurvei bagaimana atribusi kepengarangan dibingkai sebagai masalah klasifikasi teks, membandingkan set fitur dan metode pembelajaran mesin.
History
Studi kepengarangan kuantitatif dimulai pada abad kesembilan belas, tetapi studi Mosteller dan Wallace tahun 1964 tentang Federalist Papers menetapkan pendekatan statistik modern. Burrows's Delta (2002) memberikan ukuran yang diadopsi secara luas dalam bidang ini, dan survei seperti Stamatatos (2009) memetakan pergeseran ke klasifikasi pembelajaran mesin dan penggunaan forensik.
Debates
- Keandalan dan kepercayaan atribusi
- Metode stilometri dapat menjadi kuat namun sensitif terhadap ukuran korpus, genre, dan pra-pemrosesan, menimbulkan pertanyaan tentang seberapa besar kepercayaan yang pantas diberikan pada atribusi, terutama dalam konteks forensik.
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- Mengapa berfokus pada kata-kata kecil seperti 'the' daripada kosakata yang khas?
- Kosakata yang khas sering kali mencerminkan topik teks daripada penulisnya. Kata-kata fungsi umum digunakan secara tidak sadar dan pada tingkat yang stabil dalam tulisan seorang penulis tetapi berbeda antar penulis, menjadikannya sinyal gaya yang andal dan tidak tergantung topik.