مدل کیسه کلمات چیست؟

مدل کیسه کلمات یک سند را به عنوان مجموعهای از اصطلاحات موجود در آن، با نادیده گرفتن ترتیب کلمات و دستور زبان، نمایش میدهد. با وجود نادیده گرفتن اطلاعات توالی، این مدل ساده، کارآمد و به طور شگفتانگیزی برای بازیابی، طبقهبندی و خوشهبندی مؤثر است.

چرا لگاریتم را به فراوانی اصطلاح اعمال میکنیم؟

یک اصطلاح که ده بار ظاهر میشود، ده برابر مهمتر از اصطلاحی نیست که یک بار ظاهر میشود. گرفتن لگاریتم از فراوانی اصطلاح این اثر را تعدیل میکند، به طوری که رخدادهای اضافی به تدریج وزن کمتری اضافه میکنند و این امر بهتر نشان میدهد که تکرار چگونه با ارتباط (relevance) مرتبط است.

نمایش و وزن‌دهی اسناد

نمایش سند، متن خام را به مجموعه‌ای ساختاریافته از ویژگی‌های وزن‌دهی شده تبدیل می‌کند و تصمیم می‌گیرد که چه چیزی به عنوان یک اصطلاح (term) در نظر گرفته شود و هر اصطلاح چقدر باید مشارکت داشته باشد.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

نمایش و وزن‌دهی سند فرآیند تبدیل متن خام سند به یک بردار از ویژگی‌ها، معمولاً اصطلاحات، از طریق توکن‌سازی و نرمال‌سازی متن و اختصاص دادن وزنی به هر ویژگی است که اهمیت آن را در سند و در کل مجموعه منعکس می‌کند.

Scope

این موضوع مراحل تبدیل اسناد به نمایش‌های قابل جستجو را پوشش می‌دهد: توکن‌سازی (tokenization)، نرمال‌سازی (normalization)، مدیریت کلمات ایست (stop-word handling)، ریشه‌یابی (stemming) و واژه‌سازی (lemmatization)، و ساخت بردارهای ویژگی کیسه کلمات (bag-of-words) یا n-گرم (n-gram)، همراه با طرح‌های وزن‌دهی اصطلاح مانند فراوانی اصطلاح خام و لگاریتمی، فراوانی معکوس سند (inverse document frequency)، و tf-idf با نرمال‌سازی طول. این موضوع انتخاب‌هایی را که شکل‌دهنده نمایش برای بازیابی، طبقه‌بندی و خوشه‌بندی هستند، مورد بررسی قرار می‌دهد، در حالی که مدل‌های رتبه‌بندی و نمایش‌های نهفته را به موضوعات مرتبط واگذار می‌کند.

Core questions

چگونه متن خام توکن‌سازی و نرمال‌سازی شده و به اصطلاحات تبدیل می‌شود؟
تأثیر حذف کلمات ایست، ریشه‌یابی و واژه‌سازی چیست؟
چرا فراوانی اصطلاح به تنهایی وزن ضعیفی ایجاد می‌کند و چگونه تبدیل می‌شود؟
چگونه فراوانی معکوس سند اهمیت اصطلاح را در یک مجموعه ثبت می‌کند؟
چگونه نرمال‌سازی طول، اسناد بلند و کوتاه را قابل مقایسه نگه می‌دارد؟

Key concepts

توکن‌سازی و نرمال‌سازی
کلمات ایست
ریشه‌یابی و واژه‌سازی
کیسه کلمات و n-گرم
فراوانی اصطلاح (خام و لگاریتمی)
فراوانی معکوس سند
انواع tf-idf
نرمال‌سازی طول

Key theories

نمایش کیسه کلمات: در نظر گرفتن یک سند به عنوان یک چندمجموعه نامرتب از اصطلاحات، با نادیده گرفتن ترتیب کلمات، یک بردار ویژگی ساده و مؤثر ایجاد می‌کند که با وجود نادیده گرفتن نحو، زیربنای بازیابی، طبقه‌بندی و خوشه‌بندی کلاسیک است.
طرح‌های وزن‌دهی tf-idf: ترکیب یک جزء فراوانی اصطلاح (اغلب تعدیل شده) با فراوانی معکوس سند و نرمال‌سازی طول، وزن‌هایی را تولید می‌کند که بر اصطلاحات پرتکرار در یک سند اما نادر در مجموعه تأکید دارند، با انواع مستند شده بسیاری.

Clinical relevance

انتخاب‌های نمایش و وزن‌دهی مستقیماً بر کیفیت هر وظیفه بعدی، از رتبه‌بندی جستجو تا فیلتر کردن هرزنامه و خوشه‌بندی، تأثیر می‌گذارند. نمایش‌های tf-idf یک مبنای قوی و قابل تفسیر باقی می‌مانند، و همان سوالات طراحی توکن‌سازی و نرمال‌سازی در خطوط لوله مدرن که از جاسازی‌های یادگرفته شده (learned embeddings) تغذیه می‌کنند، پابرجا هستند.

History

نمایش سند در کنار مدل فضای برداری (vector space model) در دهه‌های 1960 و 1970 به بلوغ رسید، با معرفی فراوانی معکوس سند توسط اسپارک جونز در سال 1972 و سیستماتیک کردن انواع وزن‌دهی اصطلاح توسط سالتون و باکلی در سال 1988. نمایش کیسه کلمات و tf-idf برای دهه‌ها به بستر پیش‌فرض پردازش متن در بازیابی اطلاعات (IR) و یادگیری ماشین تبدیل شدند.

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

مدل کیسه کلمات چیست؟: مدل کیسه کلمات یک سند را به عنوان مجموعه‌ای از اصطلاحات موجود در آن، با نادیده گرفتن ترتیب کلمات و دستور زبان، نمایش می‌دهد. با وجود نادیده گرفتن اطلاعات توالی، این مدل ساده، کارآمد و به طور شگفت‌انگیزی برای بازیابی، طبقه‌بندی و خوشه‌بندی مؤثر است.
چرا لگاریتم را به فراوانی اصطلاح اعمال می‌کنیم؟: یک اصطلاح که ده بار ظاهر می‌شود، ده برابر مهم‌تر از اصطلاحی نیست که یک بار ظاهر می‌شود. گرفتن لگاریتم از فراوانی اصطلاح این اثر را تعدیل می‌کند، به طوری که رخدادهای اضافی به تدریج وزن کمتری اضافه می‌کنند و این امر بهتر نشان می‌دهد که تکرار چگونه با ارتباط (relevance) مرتبط است.