ScholarGate
دستیار

سبک‌سنجی و انتساب نویسندگی

نویسندگان اثر انگشت آماری از خود به جای می‌گذارند. بسامد واژه‌های کوچک و ناخودآگاه — مانند «the»، «of» و «and» — در آثار یک نویسنده تغییرات کمی دارد، اما بین نویسندگان متفاوت است. سبک‌سنجی از این ویژگی برای حل اختلافات مربوط به انتساب نویسندگی و مطالعه کمی سبک بهره می‌برد.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

تحلیل آماری ویژگی‌های قابل اندازه‌گیری سبک نوشتاری برای شناسایی نویسندگان و انتساب متونی که نویسندگی آن‌ها نامشخص یا مورد اختلاف است.

Scope

این حوزه شامل اندازه‌گیری کمی سبک ادبی و کاربرد آن در انتساب متون به نویسندگان است: انتخاب ویژگی‌های سبکی، معیارهای فاصله و طبقه‌بندی مانند دلتای باروز، و اعتبارسنجی ادعاهای انتساب. تاریخچه این رشته از مقالات فدرالیست تا روش‌های نوین یادگیری ماشین و کاربردهای پزشکی قانونی آن را در بر می‌گیرد.

Core questions

  • کدام ویژگی‌های متنی به بهترین شکل سبک متمایز یک نویسنده را نشان می‌دهند؟
  • چگونه می‌توان ادعاهای انتساب را آزمایش و اعتبارسنجی کرد؟
  • چرا بسامد واژه‌های دستوری (function-word) برای انتساب اینقدر مؤثر است؟
  • محدودیت‌های سبک‌سنجی در ژانرها، دوره‌ها و ترجمه‌ها چیست؟

Key concepts

  • واژه‌های دستوری (Function words)
  • دلتای باروز (Burrows's Delta)
  • انتخاب ویژگی (Feature selection)
  • طبقه‌بندی (Classification)
  • اعتبارسنجی متقابل (Cross-validation)

Key theories

بسامد واژه‌های دستوری به عنوان نشانگر نویسندگی
موستلر و والاس نشان دادند که بسامد واژه‌های دستوری رایج می‌تواند نویسندگان را از هم متمایز کند و از استنتاج بیزی برای انتساب مقالات فدرالیست مورد اختلاف استفاده کردند.
دلتای باروز
باروز دلتا را معرفی کرد، یک معیار فاصله بر اساس پربسامدترین واژه‌ها که به یک روش استاندارد و قوی برای رتبه‌بندی نویسندگان کاندید تبدیل شده است.
انتساب مدرن به عنوان طبقه‌بندی
استاماتوس بررسی کرد که چگونه انتساب نویسندگی به عنوان یک مسئله طبقه‌بندی متن مطرح می‌شود و مجموعه‌های ویژگی و روش‌های یادگیری ماشین را مقایسه کرد.

History

مطالعه کمی انتساب نویسندگی به قرن نوزدهم بازمی‌گردد، اما مطالعه موستلر و والاس در سال ۱۹۶۴ بر روی مقالات فدرالیست، رویکرد آماری مدرن را پایه‌گذاری کرد. دلتای باروز (۲۰۰۲) معیاری را به این حوزه معرفی کرد که به طور گسترده پذیرفته شد، و بررسی‌هایی مانند استاماتوس (۲۰۰۹) تغییر جهت به سمت طبقه‌بندی با یادگیری ماشین و کاربردهای پزشکی قانونی را نشان دادند.

Debates

قابلیت اطمینان و قطعیت انتساب‌ها
روش‌های سبک‌سنجی می‌توانند قدرتمند باشند، اما به اندازه پیکره، ژانر و پیش‌پردازش حساس هستند، که این امر سؤالاتی را در مورد میزان اطمینانی که انتساب‌ها شایسته آن هستند، به ویژه در زمینه‌های پزشکی قانونی، مطرح می‌کند.

Key figures

  • Frederick Mosteller
  • David Wallace
  • John Burrows
  • Efstathios Stamatatos

Related topics

Seminal works

  • mosteller1964
  • burrows2002
  • stamatatos2009

Frequently asked questions

چرا به جای واژگان متمایز، بر روی کلمات کوچک مانند «the» تمرکز می‌شود؟
واژگان متمایز اغلب منعکس‌کننده موضوع یک متن هستند تا نویسنده آن. واژه‌های دستوری رایج به صورت ناخودآگاه و با نرخ‌های ثابت در نوشته‌های یک نویسنده استفاده می‌شوند، اما بین نویسندگان متفاوت هستند، که این امر آن‌ها را به یک نشانگر قابل اعتماد و مستقل از موضوع برای سبک تبدیل می‌کند.

Methods for this concept

Related concepts