سبکسنجی و انتساب نویسندگی
نویسندگان اثر انگشت آماری از خود به جای میگذارند. بسامد واژههای کوچک و ناخودآگاه — مانند «the»، «of» و «and» — در آثار یک نویسنده تغییرات کمی دارد، اما بین نویسندگان متفاوت است. سبکسنجی از این ویژگی برای حل اختلافات مربوط به انتساب نویسندگی و مطالعه کمی سبک بهره میبرد.
Definition
تحلیل آماری ویژگیهای قابل اندازهگیری سبک نوشتاری برای شناسایی نویسندگان و انتساب متونی که نویسندگی آنها نامشخص یا مورد اختلاف است.
Scope
این حوزه شامل اندازهگیری کمی سبک ادبی و کاربرد آن در انتساب متون به نویسندگان است: انتخاب ویژگیهای سبکی، معیارهای فاصله و طبقهبندی مانند دلتای باروز، و اعتبارسنجی ادعاهای انتساب. تاریخچه این رشته از مقالات فدرالیست تا روشهای نوین یادگیری ماشین و کاربردهای پزشکی قانونی آن را در بر میگیرد.
Core questions
- کدام ویژگیهای متنی به بهترین شکل سبک متمایز یک نویسنده را نشان میدهند؟
- چگونه میتوان ادعاهای انتساب را آزمایش و اعتبارسنجی کرد؟
- چرا بسامد واژههای دستوری (function-word) برای انتساب اینقدر مؤثر است؟
- محدودیتهای سبکسنجی در ژانرها، دورهها و ترجمهها چیست؟
Key concepts
- واژههای دستوری (Function words)
- دلتای باروز (Burrows's Delta)
- انتخاب ویژگی (Feature selection)
- طبقهبندی (Classification)
- اعتبارسنجی متقابل (Cross-validation)
Key theories
- بسامد واژههای دستوری به عنوان نشانگر نویسندگی
- موستلر و والاس نشان دادند که بسامد واژههای دستوری رایج میتواند نویسندگان را از هم متمایز کند و از استنتاج بیزی برای انتساب مقالات فدرالیست مورد اختلاف استفاده کردند.
- دلتای باروز
- باروز دلتا را معرفی کرد، یک معیار فاصله بر اساس پربسامدترین واژهها که به یک روش استاندارد و قوی برای رتبهبندی نویسندگان کاندید تبدیل شده است.
- انتساب مدرن به عنوان طبقهبندی
- استاماتوس بررسی کرد که چگونه انتساب نویسندگی به عنوان یک مسئله طبقهبندی متن مطرح میشود و مجموعههای ویژگی و روشهای یادگیری ماشین را مقایسه کرد.
History
مطالعه کمی انتساب نویسندگی به قرن نوزدهم بازمیگردد، اما مطالعه موستلر و والاس در سال ۱۹۶۴ بر روی مقالات فدرالیست، رویکرد آماری مدرن را پایهگذاری کرد. دلتای باروز (۲۰۰۲) معیاری را به این حوزه معرفی کرد که به طور گسترده پذیرفته شد، و بررسیهایی مانند استاماتوس (۲۰۰۹) تغییر جهت به سمت طبقهبندی با یادگیری ماشین و کاربردهای پزشکی قانونی را نشان دادند.
Debates
- قابلیت اطمینان و قطعیت انتسابها
- روشهای سبکسنجی میتوانند قدرتمند باشند، اما به اندازه پیکره، ژانر و پیشپردازش حساس هستند، که این امر سؤالاتی را در مورد میزان اطمینانی که انتسابها شایسته آن هستند، به ویژه در زمینههای پزشکی قانونی، مطرح میکند.
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- چرا به جای واژگان متمایز، بر روی کلمات کوچک مانند «the» تمرکز میشود؟
- واژگان متمایز اغلب منعکسکننده موضوع یک متن هستند تا نویسنده آن. واژههای دستوری رایج به صورت ناخودآگاه و با نرخهای ثابت در نوشتههای یک نویسنده استفاده میشوند، اما بین نویسندگان متفاوت هستند، که این امر آنها را به یک نشانگر قابل اعتماد و مستقل از موضوع برای سبک تبدیل میکند.