نمایش و وزندهی اسناد
نمایش سند، متن خام را به مجموعهای ساختاریافته از ویژگیهای وزندهی شده تبدیل میکند و تصمیم میگیرد که چه چیزی به عنوان یک اصطلاح (term) در نظر گرفته شود و هر اصطلاح چقدر باید مشارکت داشته باشد.
Definition
نمایش و وزندهی سند فرآیند تبدیل متن خام سند به یک بردار از ویژگیها، معمولاً اصطلاحات، از طریق توکنسازی و نرمالسازی متن و اختصاص دادن وزنی به هر ویژگی است که اهمیت آن را در سند و در کل مجموعه منعکس میکند.
Scope
این موضوع مراحل تبدیل اسناد به نمایشهای قابل جستجو را پوشش میدهد: توکنسازی (tokenization)، نرمالسازی (normalization)، مدیریت کلمات ایست (stop-word handling)، ریشهیابی (stemming) و واژهسازی (lemmatization)، و ساخت بردارهای ویژگی کیسه کلمات (bag-of-words) یا n-گرم (n-gram)، همراه با طرحهای وزندهی اصطلاح مانند فراوانی اصطلاح خام و لگاریتمی، فراوانی معکوس سند (inverse document frequency)، و tf-idf با نرمالسازی طول. این موضوع انتخابهایی را که شکلدهنده نمایش برای بازیابی، طبقهبندی و خوشهبندی هستند، مورد بررسی قرار میدهد، در حالی که مدلهای رتبهبندی و نمایشهای نهفته را به موضوعات مرتبط واگذار میکند.
Core questions
- چگونه متن خام توکنسازی و نرمالسازی شده و به اصطلاحات تبدیل میشود؟
- تأثیر حذف کلمات ایست، ریشهیابی و واژهسازی چیست؟
- چرا فراوانی اصطلاح به تنهایی وزن ضعیفی ایجاد میکند و چگونه تبدیل میشود؟
- چگونه فراوانی معکوس سند اهمیت اصطلاح را در یک مجموعه ثبت میکند؟
- چگونه نرمالسازی طول، اسناد بلند و کوتاه را قابل مقایسه نگه میدارد؟
Key concepts
- توکنسازی و نرمالسازی
- کلمات ایست
- ریشهیابی و واژهسازی
- کیسه کلمات و n-گرم
- فراوانی اصطلاح (خام و لگاریتمی)
- فراوانی معکوس سند
- انواع tf-idf
- نرمالسازی طول
Key theories
- نمایش کیسه کلمات
- در نظر گرفتن یک سند به عنوان یک چندمجموعه نامرتب از اصطلاحات، با نادیده گرفتن ترتیب کلمات، یک بردار ویژگی ساده و مؤثر ایجاد میکند که با وجود نادیده گرفتن نحو، زیربنای بازیابی، طبقهبندی و خوشهبندی کلاسیک است.
- طرحهای وزندهی tf-idf
- ترکیب یک جزء فراوانی اصطلاح (اغلب تعدیل شده) با فراوانی معکوس سند و نرمالسازی طول، وزنهایی را تولید میکند که بر اصطلاحات پرتکرار در یک سند اما نادر در مجموعه تأکید دارند، با انواع مستند شده بسیاری.
Clinical relevance
انتخابهای نمایش و وزندهی مستقیماً بر کیفیت هر وظیفه بعدی، از رتبهبندی جستجو تا فیلتر کردن هرزنامه و خوشهبندی، تأثیر میگذارند. نمایشهای tf-idf یک مبنای قوی و قابل تفسیر باقی میمانند، و همان سوالات طراحی توکنسازی و نرمالسازی در خطوط لوله مدرن که از جاسازیهای یادگرفته شده (learned embeddings) تغذیه میکنند، پابرجا هستند.
History
نمایش سند در کنار مدل فضای برداری (vector space model) در دهههای 1960 و 1970 به بلوغ رسید، با معرفی فراوانی معکوس سند توسط اسپارک جونز در سال 1972 و سیستماتیک کردن انواع وزندهی اصطلاح توسط سالتون و باکلی در سال 1988. نمایش کیسه کلمات و tf-idf برای دههها به بستر پیشفرض پردازش متن در بازیابی اطلاعات (IR) و یادگیری ماشین تبدیل شدند.
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- مدل کیسه کلمات چیست؟
- مدل کیسه کلمات یک سند را به عنوان مجموعهای از اصطلاحات موجود در آن، با نادیده گرفتن ترتیب کلمات و دستور زبان، نمایش میدهد. با وجود نادیده گرفتن اطلاعات توالی، این مدل ساده، کارآمد و به طور شگفتانگیزی برای بازیابی، طبقهبندی و خوشهبندی مؤثر است.
- چرا لگاریتم را به فراوانی اصطلاح اعمال میکنیم؟
- یک اصطلاح که ده بار ظاهر میشود، ده برابر مهمتر از اصطلاحی نیست که یک بار ظاهر میشود. گرفتن لگاریتم از فراوانی اصطلاح این اثر را تعدیل میکند، به طوری که رخدادهای اضافی به تدریج وزن کمتری اضافه میکنند و این امر بهتر نشان میدهد که تکرار چگونه با ارتباط (relevance) مرتبط است.