بازنمایی و طبقهبندی متن
بازنمایی و طبقهبندی متن به چگونگی تبدیل اسناد به ویژگیها و نحوه پشتیبانی این بازنماییها از سازماندهی مجموعهها بر اساس دستهبندی، شباهت و موضوعات پنهان میپردازد.
Definition
بازنمایی و طبقهبندی متن مجموعهای از روشها برای تبدیل اسناد به بازنماییهای ویژگی و برای تخصیص، گروهبندی یا نمایش این بازنماییها است، از جمله دستهبندی با نظارت به کلاسهای شناخته شده، خوشهبندی بدون نظارت، و مدلسازی موضوعی یا معنایی پنهان، در خدمت بازیابی و سازماندهی مجموعه.
Scope
این حوزه بازنمایی متن برای بازیابی و سازماندهی بدون نظارت و با نظارت مجموعههای اسناد را پوشش میدهد: بازنمایی سند و وزندهی اصطلاحات، طبقهبندی خودکار متن به دستههای از پیش تعریف شده، خوشهبندی متن به گروههای کشف شده، و مدلهای معنایی پنهان و موضوعی که ساختار پنهان را آشکار میکنند. این حوزه به بازنمایی و سازماندهی به عنوان پشتیبان بازیابی اطلاعات میپردازد، با تکیه بر یادگیری ماشین در حالی که بر استفاده بازیابیمحور از این روشها تمرکز دارد تا نظریه یادگیری ماشین عمومی.
Sub-topics
Core questions
- اسناد چگونه به ویژگیها تبدیل میشوند و اصطلاحات چگونه وزندهی میشوند؟
- اسناد چگونه میتوانند به طور خودکار در دستههای از پیش تعریف شده مرتب شوند؟
- یک مجموعه چگونه میتواند بدون برچسبهای از پیش تعریف شده به خوشهها گروهبندی شود؟
- مدلهای موضوعی و معنایی پنهان چگونه ساختار پنهان در متن را آشکار میکنند؟
- این بازنماییها چگونه بازیابی، مرور و فیلتر کردن را بهبود میبخشند؟
Key concepts
- بازنمایی سند
- وزندهی اصطلاحات (tf-idf)
- طبقهبندی / دستهبندی متن
- خوشهبندی متن
- تحلیل معنایی پنهان
- مدلهای موضوعی
- انتخاب ویژگی
- عدم تطابق واژگان
Key theories
- بازنمایی برداری و وزندهی اصطلاحات
- بازنمایی اسناد به عنوان بردارهای ویژگی وزندار، معمولاً بر روی اصطلاحات با وزنهای سبک tf-idf، بستر مشترکی را فراهم میکند که طبقهبندی، خوشهبندی و محاسبه شباهت همگی بر روی آن عمل میکنند.
- دستهبندی متن با نظارت
- با توجه به نمونههای برچسبگذاری شده، طبقهبندیکنندههای یادگیری ماشین میتوانند اسناد را به دستههای از پیش تعریف شده اختصاص دهند، با انتخاب ویژگیها و یادگیرنده که دقت را تعیین میکند، همانطور که در ادبیات دستهبندی متن سیستماتیک شده است.
- ساختار معنایی و موضوعی پنهان
- روشهایی مانند تحلیل معنایی پنهان و تخصیص دیریکله پنهان، اسناد را به فضاهای با ابعاد کمتر یا توزیعهای موضوعی نمایش میدهند، روابط معنایی را ثبت کرده و عدم تطابق واژگان را کاهش میدهند.
Clinical relevance
این روشها فیلتر کردن هرزنامه، مسیریابی و فیلتر کردن مبتنی بر موضوع، مرور چندوجهی، حذف موارد تکراری، و سازماندهی نتایج جستجو را تقویت میکنند، و مدلهای موضوعی و معنایی از جستجوی اکتشافی و توصیه پشتیبانی میکنند. بازنمایی سند همچنین زیربنای حرکت از بردارهای اصطلاحی پراکنده به جاسازیهای متراکم آموخته شده در بازیابی مدرن است.
History
دستهبندی متن از سیستمهای مبتنی بر قانون در دهه 1980 به یک رشته یادگیری ماشین در طول دهه 1990 تبدیل شد که در بررسی سباستیانی در سال 2002 تثبیت گردید. تحلیل معنایی پنهان (1990) کاهش ابعاد را برای بازیابی معرفی کرد، و تخصیص دیریکله پنهان (2003) مدلسازی موضوعی احتمالی را پایهگذاری کرد، که هر دو نحوه بازنمایی ساختار معنایی در متن را شکل دادند.
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- تفاوت بین طبقهبندی متن و خوشهبندی متن چیست؟
- طبقهبندی با نظارت است: اسناد را با استفاده از نمونههای آموزشی برچسبگذاری شده به دستههای از پیش تعریف شده اختصاص میدهد. خوشهبندی بدون نظارت است: اسناد را بر اساس شباهت بدون دستههای از پیش تعریف شده گروهبندی میکند و ساختار را کشف میکند نه اینکه آن را با برچسبهای شناخته شده تطبیق دهد.
- چرا مدلهای موضوعی پنهان برای بازیابی مفید هستند؟
- مدلهای موضوعی و معنایی پنهان اسناد را بر اساس مضامین اصلی به جای کلمات دقیق نمایش میدهند، که به تطبیق پرس و جوها و اسنادی که از واژگان متفاوتی برای یک مفهوم استفاده میکنند کمک میکند و از مرور یک مجموعه بر اساس موضوع پشتیبانی میکند.