مدلسازی موضوعی و دادهکاوی متنی
مدلسازی موضوعی یک مجموعه متنی را مانند یک خواننده سریعخوان بررسی میکند و کلمات آن را در خوشههای تکرارشونده از اصطلاحات هموقوع که اغلب شبیه به مضامین هستند، دستهبندی میکند. این روش و روشهای مرتبط دادهکاوی متنی به پژوهشگران امکان میدهد تا مجموعههای عظیمی را بررسی کنند، اما الگوهایی که این روشها آشکار میسازند باید با دقت تفسیر شوند.
Definition
استفاده از روشهای آماری بدون نظارت — به ویژه مدلهای موضوعی احتمالی — و تکنیکهای مرتبط دادهکاوی متنی برای کشف ساختار موضوعی و واژگانی پنهان در مجموعههای بزرگ متون علوم انسانی.
Scope
این بخش شامل روشهای بدون نظارت برای کشف ساختار در مجموعههای متنی بزرگ، به ویژه مدلهای موضوعی احتمالی مانند تخصیص پنهان دیریکله (Latent Dirichlet Allocation)، و تکنیکهای گستردهتر دادهکاوی متنی برای استخراج الگوها و روندها میشود. همچنین نحوه استفاده، تفسیر و نقد این روشها توسط متخصصان علوم انسانی را در بر میگیرد. این مبحث با پردازش زبان طبیعی به عنوان یک رشته مهندسی متفاوت است؛ تأکید در اینجا بر تفسیر انسانگرایانه است.
Core questions
- خوشههایی که مدلهای موضوعی تولید میکنند چه هستند و آیا واقعاً مضامین هستند؟
- تعداد موضوعات و پارامترهای مدل چگونه باید انتخاب شوند؟
- خروجی مدل موضوعی چگونه میتواند به طور مسئولانه اعتبارسنجی و تفسیر شود؟
- الگوهای دادهکاوی متنی چه ادعاهایی را در مورد یک مجموعه متنی مجاز میسازند؟
Key concepts
- تخصیص پنهان دیریکله
- موضوع پنهان
- توزیع سند-موضوع
- یادگیری بدون نظارت
- تفسیر مدل
Key theories
- تخصیص پنهان دیریکله
- بلی، نگ و جردن LDA را معرفی کردند، یک مدل احتمالی مولد که اسناد را به عنوان ترکیبی از موضوعات پنهان نشان میدهد، که هر یک توزیعی بر روی کلمات است.
- مدلهای موضوعی احتمالی به عنوان ابزاری برای اکتشاف
- بلی مدلهای موضوعی را به عنوان ابزارهایی برای اکتشاف و سازماندهی آرشیوهای بزرگ، و آشکارسازی ساختار موضوعی بدون نظارت، چارچوببندی کرد.
- موضوعات به عنوان سازههای تفسیری
- متخصصان علوم انسانی مانند جوکرز مدلسازی موضوعی را برای مجموعههای ادبی به کار بردند، در حالی که منتقدانی مانند اشمیت هشدار دادند که موضوعات مصنوعات آماری هستند که نیازمند تفسیر دقیق و انتقادی هستند.
History
LDA در سال ۲۰۰۳ معرفی شد و به سرعت در علوم مختلف مورد پذیرش قرار گرفت. حدود سال ۲۰۱۰، متخصصان علوم انسانی شروع به استفاده از مدلسازی موضوعی برای مجموعههای ادبی و تاریخی کردند؛ کتاب «تحلیل کلان» (Macroanalysis) جوکرز (۲۰۱۳) نمونه برجستهای است، در حالی که نقد اشمیت در سال ۲۰۱۲ و سایر آثار، سؤال چگونگی تفسیر مسئولانه خروجی مدل را مطرح کردند.
Debates
- آیا موضوعات معنادار هستند یا مصنوعات؟
- اینکه آیا خوشههای کلمات تولید شده توسط مدلهای موضوعی با مضامین قابل تفسیر مطابقت دارند یا مصنوعات آماری هستند که توسط انتخاب پارامترها و پیشپردازش شکل گرفتهاند.
Key figures
- David Blei
- Matthew L. Jockers
- Benjamin Schmidt
Related topics
Seminal works
- blei2003
- blei2012
- jockers2013
- schmidt2012
Frequently asked questions
- آیا یک مدل موضوعی به من میگوید که یک مجموعه متنی درباره چیست؟
- به خودی خود نه. این مدل خوشههایی از کلمات هموقوع را تولید میکند که ممکن است با مضامین مطابقت داشته باشند، اما به پیشپردازش و تعداد موضوعات انتخاب شده حساس هستند. خروجی نقطهای برای شروع تفسیر است، نه یک خلاصه عینی، و باید در برابر متون اعتبارسنجی شود.