ScholarGate
دستیار

مدل‌سازی موضوعی و داده‌کاوی متنی

مدل‌سازی موضوعی یک مجموعه متنی را مانند یک خواننده سریع‌خوان بررسی می‌کند و کلمات آن را در خوشه‌های تکرارشونده از اصطلاحات هم‌وقوع که اغلب شبیه به مضامین هستند، دسته‌بندی می‌کند. این روش و روش‌های مرتبط داده‌کاوی متنی به پژوهشگران امکان می‌دهد تا مجموعه‌های عظیمی را بررسی کنند، اما الگوهایی که این روش‌ها آشکار می‌سازند باید با دقت تفسیر شوند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

استفاده از روش‌های آماری بدون نظارت — به ویژه مدل‌های موضوعی احتمالی — و تکنیک‌های مرتبط داده‌کاوی متنی برای کشف ساختار موضوعی و واژگانی پنهان در مجموعه‌های بزرگ متون علوم انسانی.

Scope

این بخش شامل روش‌های بدون نظارت برای کشف ساختار در مجموعه‌های متنی بزرگ، به ویژه مدل‌های موضوعی احتمالی مانند تخصیص پنهان دیریکله (Latent Dirichlet Allocation)، و تکنیک‌های گسترده‌تر داده‌کاوی متنی برای استخراج الگوها و روندها می‌شود. همچنین نحوه استفاده، تفسیر و نقد این روش‌ها توسط متخصصان علوم انسانی را در بر می‌گیرد. این مبحث با پردازش زبان طبیعی به عنوان یک رشته مهندسی متفاوت است؛ تأکید در اینجا بر تفسیر انسان‌گرایانه است.

Core questions

  • خوشه‌هایی که مدل‌های موضوعی تولید می‌کنند چه هستند و آیا واقعاً مضامین هستند؟
  • تعداد موضوعات و پارامترهای مدل چگونه باید انتخاب شوند؟
  • خروجی مدل موضوعی چگونه می‌تواند به طور مسئولانه اعتبارسنجی و تفسیر شود؟
  • الگوهای داده‌کاوی متنی چه ادعاهایی را در مورد یک مجموعه متنی مجاز می‌سازند؟

Key concepts

  • تخصیص پنهان دیریکله
  • موضوع پنهان
  • توزیع سند-موضوع
  • یادگیری بدون نظارت
  • تفسیر مدل

Key theories

تخصیص پنهان دیریکله
بلی، نگ و جردن LDA را معرفی کردند، یک مدل احتمالی مولد که اسناد را به عنوان ترکیبی از موضوعات پنهان نشان می‌دهد، که هر یک توزیعی بر روی کلمات است.
مدل‌های موضوعی احتمالی به عنوان ابزاری برای اکتشاف
بلی مدل‌های موضوعی را به عنوان ابزارهایی برای اکتشاف و سازماندهی آرشیوهای بزرگ، و آشکارسازی ساختار موضوعی بدون نظارت، چارچوب‌بندی کرد.
موضوعات به عنوان سازه‌های تفسیری
متخصصان علوم انسانی مانند جوکرز مدل‌سازی موضوعی را برای مجموعه‌های ادبی به کار بردند، در حالی که منتقدانی مانند اشمیت هشدار دادند که موضوعات مصنوعات آماری هستند که نیازمند تفسیر دقیق و انتقادی هستند.

History

LDA در سال ۲۰۰۳ معرفی شد و به سرعت در علوم مختلف مورد پذیرش قرار گرفت. حدود سال ۲۰۱۰، متخصصان علوم انسانی شروع به استفاده از مدل‌سازی موضوعی برای مجموعه‌های ادبی و تاریخی کردند؛ کتاب «تحلیل کلان» (Macroanalysis) جوکرز (۲۰۱۳) نمونه برجسته‌ای است، در حالی که نقد اشمیت در سال ۲۰۱۲ و سایر آثار، سؤال چگونگی تفسیر مسئولانه خروجی مدل را مطرح کردند.

Debates

آیا موضوعات معنادار هستند یا مصنوعات؟
اینکه آیا خوشه‌های کلمات تولید شده توسط مدل‌های موضوعی با مضامین قابل تفسیر مطابقت دارند یا مصنوعات آماری هستند که توسط انتخاب پارامترها و پیش‌پردازش شکل گرفته‌اند.

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

آیا یک مدل موضوعی به من می‌گوید که یک مجموعه متنی درباره چیست؟
به خودی خود نه. این مدل خوشه‌هایی از کلمات هم‌وقوع را تولید می‌کند که ممکن است با مضامین مطابقت داشته باشند، اما به پیش‌پردازش و تعداد موضوعات انتخاب شده حساس هستند. خروجی نقطه‌ای برای شروع تفسیر است، نه یک خلاصه عینی، و باید در برابر متون اعتبارسنجی شود.

Methods for this concept

Related concepts