ScholarGate
دستیار

بازنمایی و طبقه‌بندی متن

بازنمایی و طبقه‌بندی متن به چگونگی تبدیل اسناد به ویژگی‌ها و نحوه پشتیبانی این بازنمایی‌ها از سازماندهی مجموعه‌ها بر اساس دسته‌بندی، شباهت و موضوعات پنهان می‌پردازد.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

بازنمایی و طبقه‌بندی متن مجموعه‌ای از روش‌ها برای تبدیل اسناد به بازنمایی‌های ویژگی و برای تخصیص، گروه‌بندی یا نمایش این بازنمایی‌ها است، از جمله دسته‌بندی با نظارت به کلاس‌های شناخته شده، خوشه‌بندی بدون نظارت، و مدل‌سازی موضوعی یا معنایی پنهان، در خدمت بازیابی و سازماندهی مجموعه.

Scope

این حوزه بازنمایی متن برای بازیابی و سازماندهی بدون نظارت و با نظارت مجموعه‌های اسناد را پوشش می‌دهد: بازنمایی سند و وزن‌دهی اصطلاحات، طبقه‌بندی خودکار متن به دسته‌های از پیش تعریف شده، خوشه‌بندی متن به گروه‌های کشف شده، و مدل‌های معنایی پنهان و موضوعی که ساختار پنهان را آشکار می‌کنند. این حوزه به بازنمایی و سازماندهی به عنوان پشتیبان بازیابی اطلاعات می‌پردازد، با تکیه بر یادگیری ماشین در حالی که بر استفاده بازیابی‌محور از این روش‌ها تمرکز دارد تا نظریه یادگیری ماشین عمومی.

Sub-topics

Core questions

  • اسناد چگونه به ویژگی‌ها تبدیل می‌شوند و اصطلاحات چگونه وزن‌دهی می‌شوند؟
  • اسناد چگونه می‌توانند به طور خودکار در دسته‌های از پیش تعریف شده مرتب شوند؟
  • یک مجموعه چگونه می‌تواند بدون برچسب‌های از پیش تعریف شده به خوشه‌ها گروه‌بندی شود؟
  • مدل‌های موضوعی و معنایی پنهان چگونه ساختار پنهان در متن را آشکار می‌کنند؟
  • این بازنمایی‌ها چگونه بازیابی، مرور و فیلتر کردن را بهبود می‌بخشند؟

Key concepts

  • بازنمایی سند
  • وزن‌دهی اصطلاحات (tf-idf)
  • طبقه‌بندی / دسته‌بندی متن
  • خوشه‌بندی متن
  • تحلیل معنایی پنهان
  • مدل‌های موضوعی
  • انتخاب ویژگی
  • عدم تطابق واژگان

Key theories

بازنمایی برداری و وزن‌دهی اصطلاحات
بازنمایی اسناد به عنوان بردارهای ویژگی وزن‌دار، معمولاً بر روی اصطلاحات با وزن‌های سبک tf-idf، بستر مشترکی را فراهم می‌کند که طبقه‌بندی، خوشه‌بندی و محاسبه شباهت همگی بر روی آن عمل می‌کنند.
دسته‌بندی متن با نظارت
با توجه به نمونه‌های برچسب‌گذاری شده، طبقه‌بندی‌کننده‌های یادگیری ماشین می‌توانند اسناد را به دسته‌های از پیش تعریف شده اختصاص دهند، با انتخاب ویژگی‌ها و یادگیرنده که دقت را تعیین می‌کند، همانطور که در ادبیات دسته‌بندی متن سیستماتیک شده است.
ساختار معنایی و موضوعی پنهان
روش‌هایی مانند تحلیل معنایی پنهان و تخصیص دیریکله پنهان، اسناد را به فضاهای با ابعاد کمتر یا توزیع‌های موضوعی نمایش می‌دهند، روابط معنایی را ثبت کرده و عدم تطابق واژگان را کاهش می‌دهند.

Clinical relevance

این روش‌ها فیلتر کردن هرزنامه، مسیریابی و فیلتر کردن مبتنی بر موضوع، مرور چندوجهی، حذف موارد تکراری، و سازماندهی نتایج جستجو را تقویت می‌کنند، و مدل‌های موضوعی و معنایی از جستجوی اکتشافی و توصیه پشتیبانی می‌کنند. بازنمایی سند همچنین زیربنای حرکت از بردارهای اصطلاحی پراکنده به جاسازی‌های متراکم آموخته شده در بازیابی مدرن است.

History

دسته‌بندی متن از سیستم‌های مبتنی بر قانون در دهه 1980 به یک رشته یادگیری ماشین در طول دهه 1990 تبدیل شد که در بررسی سباستیانی در سال 2002 تثبیت گردید. تحلیل معنایی پنهان (1990) کاهش ابعاد را برای بازیابی معرفی کرد، و تخصیص دیریکله پنهان (2003) مدل‌سازی موضوعی احتمالی را پایه‌گذاری کرد، که هر دو نحوه بازنمایی ساختار معنایی در متن را شکل دادند.

Key figures

  • Fabrizio Sebastiani
  • Susan Dumais
  • David Blei
  • Christopher Manning

Related topics

Seminal works

  • manning2008
  • sebastiani2002
  • deerwester1990
  • blei2003

Frequently asked questions

تفاوت بین طبقه‌بندی متن و خوشه‌بندی متن چیست؟
طبقه‌بندی با نظارت است: اسناد را با استفاده از نمونه‌های آموزشی برچسب‌گذاری شده به دسته‌های از پیش تعریف شده اختصاص می‌دهد. خوشه‌بندی بدون نظارت است: اسناد را بر اساس شباهت بدون دسته‌های از پیش تعریف شده گروه‌بندی می‌کند و ساختار را کشف می‌کند نه اینکه آن را با برچسب‌های شناخته شده تطبیق دهد.
چرا مدل‌های موضوعی پنهان برای بازیابی مفید هستند؟
مدل‌های موضوعی و معنایی پنهان اسناد را بر اساس مضامین اصلی به جای کلمات دقیق نمایش می‌دهند، که به تطبیق پرس و جوها و اسنادی که از واژگان متفاوتی برای یک مفهوم استفاده می‌کنند کمک می‌کند و از مرور یک مجموعه بر اساس موضوع پشتیبانی می‌کند.

Methods for this concept

Related concepts