ScholarGate
المساعد

نمذجة الموضوعات وتعدين النصوص

تقرأ نمذجة الموضوعات مجموعة من النصوص بالطريقة التي قد يتبعها القارئ السريع، حيث تصنف كلماتها إلى مجموعات متكررة من المصطلحات المتزامنة التي غالبًا ما تبدو كأنها مواضيع. تتيح هذه الطريقة والأساليب ذات الصلة بتعدين النصوص للباحثين مسح مجموعات ضخمة، ولكن يجب تفسير الأنماط التي تظهرها بعناية.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

استخدام الأساليب الإحصائية غير الخاضعة للإشراف — ولا سيما نماذج الموضوعات الاحتمالية — وتقنيات تعدين النصوص ذات الصلة لاكتشاف البنية الموضوعية والمعجمية الكامنة عبر مجموعات كبيرة من نصوص العلوم الإنسانية.

Scope

يغطي الأساليب غير الخاضعة للإشراف لاكتشاف البنية في مجموعات النصوص الكبيرة، وخاصة نماذج الموضوعات الاحتمالية مثل تخصيص ديريتشليه الكامن (Latent Dirichlet Allocation)، وتقنيات تعدين النصوص الأوسع لاستخلاص الأنماط والاتجاهات. يتضمن كيفية استخدام الباحثين في العلوم الإنسانية لهذه الأساليب وتفسيرها ونقدها. يختلف عن معالجة اللغة الطبيعية كمجال هندسي؛ التركيز هنا هو على التفسير الإنساني.

Core questions

  • ما هي المجموعات التي تنتجها نماذج الموضوعات، وهل هي حقًا مواضيع؟
  • كيف ينبغي اختيار عدد الموضوعات ومعلمات النموذج؟
  • كيف يمكن التحقق من مخرجات نموذج الموضوعات وتفسيرها بمسؤولية؟
  • ما الذي تسمح به أنماط تعدين النصوص للمرء أن يدعيه حول مجموعة من النصوص؟

Key concepts

  • تخصيص ديريتشليه الكامن (Latent Dirichlet Allocation)
  • الموضوع الكامن (Latent topic)
  • توزيع الموضوع على الوثيقة (Document-topic distribution)
  • التعلم غير الخاضع للإشراف (Unsupervised learning)
  • تفسير النموذج (Model interpretation)

Key theories

تخصيص ديريتشليه الكامن (Latent Dirichlet Allocation)
قدم بلي ونغ وجوردان LDA، وهو نموذج احتمالي توليدي يمثل الوثائق كمزيج من الموضوعات الكامنة، كل منها توزيع على الكلمات.
نماذج الموضوعات الاحتمالية كاستكشاف
صاغ بلي نماذج الموضوعات كأدوات لاستكشاف وتنظيم الأرشيفات الكبيرة، وإظهار البنية الموضوعية دون إشراف.
الموضوعات كبنى تفسيرية
طبق باحثون في العلوم الإنسانية مثل جوكرز نمذجة الموضوعات على المجموعات الأدبية، بينما حذر نقاد مثل شميدت من أن الموضوعات هي نواتج إحصائية تتطلب تفسيرًا دقيقًا ومتشككًا.

History

تم تقديم LDA في عام 2003 وسرعان ما تم اعتماده في جميع أنحاء العلوم. حوالي عام 2010، بدأ الباحثون في العلوم الإنسانية بتطبيق نمذجة الموضوعات على المجموعات الأدبية والتاريخية؛ يُعد كتاب جوكرز Macroanalysis (2013) مثالًا بارزًا، بينما أثار نقد شميدت عام 2012 وأعمال أخرى مسألة كيفية تفسير مخرجات النموذج بمسؤولية.

Debates

هل الموضوعات ذات معنى أم مجرد نواتج؟
ما إذا كانت مجموعات الكلمات التي تنتجها نماذج الموضوعات تتوافق مع مواضيع قابلة للتفسير أم أنها نواتج إحصائية تتشكل باختيارات المعلمات والمعالجة المسبقة.

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

هل يخبرني نموذج الموضوعات عن محتوى مجموعة من النصوص؟
ليس بحد ذاته. إنه ينتج مجموعات من الكلمات المتزامنة التي قد تتوافق مع مواضيع ولكنها حساسة للمعالجة المسبقة وعدد الموضوعات المختار. المخرجات هي نقطة بداية للتفسير، وليست ملخصًا موضوعيًا، ويجب التحقق منها مقابل النصوص.

Methods for this concept

Related concepts