ScholarGate
دستیار

نمایش و وزن‌دهی اسناد

نمایش سند، متن خام را به مجموعه‌ای ساختاریافته از ویژگی‌های وزن‌دهی شده تبدیل می‌کند و تصمیم می‌گیرد که چه چیزی به عنوان یک اصطلاح (term) در نظر گرفته شود و هر اصطلاح چقدر باید مشارکت داشته باشد.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

نمایش و وزن‌دهی سند فرآیند تبدیل متن خام سند به یک بردار از ویژگی‌ها، معمولاً اصطلاحات، از طریق توکن‌سازی و نرمال‌سازی متن و اختصاص دادن وزنی به هر ویژگی است که اهمیت آن را در سند و در کل مجموعه منعکس می‌کند.

Scope

این موضوع مراحل تبدیل اسناد به نمایش‌های قابل جستجو را پوشش می‌دهد: توکن‌سازی (tokenization)، نرمال‌سازی (normalization)، مدیریت کلمات ایست (stop-word handling)، ریشه‌یابی (stemming) و واژه‌سازی (lemmatization)، و ساخت بردارهای ویژگی کیسه کلمات (bag-of-words) یا n-گرم (n-gram)، همراه با طرح‌های وزن‌دهی اصطلاح مانند فراوانی اصطلاح خام و لگاریتمی، فراوانی معکوس سند (inverse document frequency)، و tf-idf با نرمال‌سازی طول. این موضوع انتخاب‌هایی را که شکل‌دهنده نمایش برای بازیابی، طبقه‌بندی و خوشه‌بندی هستند، مورد بررسی قرار می‌دهد، در حالی که مدل‌های رتبه‌بندی و نمایش‌های نهفته را به موضوعات مرتبط واگذار می‌کند.

Core questions

  • چگونه متن خام توکن‌سازی و نرمال‌سازی شده و به اصطلاحات تبدیل می‌شود؟
  • تأثیر حذف کلمات ایست، ریشه‌یابی و واژه‌سازی چیست؟
  • چرا فراوانی اصطلاح به تنهایی وزن ضعیفی ایجاد می‌کند و چگونه تبدیل می‌شود؟
  • چگونه فراوانی معکوس سند اهمیت اصطلاح را در یک مجموعه ثبت می‌کند؟
  • چگونه نرمال‌سازی طول، اسناد بلند و کوتاه را قابل مقایسه نگه می‌دارد؟

Key concepts

  • توکن‌سازی و نرمال‌سازی
  • کلمات ایست
  • ریشه‌یابی و واژه‌سازی
  • کیسه کلمات و n-گرم
  • فراوانی اصطلاح (خام و لگاریتمی)
  • فراوانی معکوس سند
  • انواع tf-idf
  • نرمال‌سازی طول

Key theories

نمایش کیسه کلمات
در نظر گرفتن یک سند به عنوان یک چندمجموعه نامرتب از اصطلاحات، با نادیده گرفتن ترتیب کلمات، یک بردار ویژگی ساده و مؤثر ایجاد می‌کند که با وجود نادیده گرفتن نحو، زیربنای بازیابی، طبقه‌بندی و خوشه‌بندی کلاسیک است.
طرح‌های وزن‌دهی tf-idf
ترکیب یک جزء فراوانی اصطلاح (اغلب تعدیل شده) با فراوانی معکوس سند و نرمال‌سازی طول، وزن‌هایی را تولید می‌کند که بر اصطلاحات پرتکرار در یک سند اما نادر در مجموعه تأکید دارند، با انواع مستند شده بسیاری.

Clinical relevance

انتخاب‌های نمایش و وزن‌دهی مستقیماً بر کیفیت هر وظیفه بعدی، از رتبه‌بندی جستجو تا فیلتر کردن هرزنامه و خوشه‌بندی، تأثیر می‌گذارند. نمایش‌های tf-idf یک مبنای قوی و قابل تفسیر باقی می‌مانند، و همان سوالات طراحی توکن‌سازی و نرمال‌سازی در خطوط لوله مدرن که از جاسازی‌های یادگرفته شده (learned embeddings) تغذیه می‌کنند، پابرجا هستند.

History

نمایش سند در کنار مدل فضای برداری (vector space model) در دهه‌های 1960 و 1970 به بلوغ رسید، با معرفی فراوانی معکوس سند توسط اسپارک جونز در سال 1972 و سیستماتیک کردن انواع وزن‌دهی اصطلاح توسط سالتون و باکلی در سال 1988. نمایش کیسه کلمات و tf-idf برای دهه‌ها به بستر پیش‌فرض پردازش متن در بازیابی اطلاعات (IR) و یادگیری ماشین تبدیل شدند.

Key figures

  • Gerard Salton
  • Chris Buckley
  • Karen Spärck Jones

Related topics

Seminal works

  • salton1988
  • sparckjones1972
  • manning2008

Frequently asked questions

مدل کیسه کلمات چیست؟
مدل کیسه کلمات یک سند را به عنوان مجموعه‌ای از اصطلاحات موجود در آن، با نادیده گرفتن ترتیب کلمات و دستور زبان، نمایش می‌دهد. با وجود نادیده گرفتن اطلاعات توالی، این مدل ساده، کارآمد و به طور شگفت‌انگیزی برای بازیابی، طبقه‌بندی و خوشه‌بندی مؤثر است.
چرا لگاریتم را به فراوانی اصطلاح اعمال می‌کنیم؟
یک اصطلاح که ده بار ظاهر می‌شود، ده برابر مهم‌تر از اصطلاحی نیست که یک بار ظاهر می‌شود. گرفتن لگاریتم از فراوانی اصطلاح این اثر را تعدیل می‌کند، به طوری که رخدادهای اضافی به تدریج وزن کمتری اضافه می‌کنند و این امر بهتر نشان می‌دهد که تکرار چگونه با ارتباط (relevance) مرتبط است.

Methods for this concept

Related concepts