چرا برچسبگذاری اجزای کلام بدیهی نیست؟

بسیاری از کلمات مبهم هستند — 'کتاب' میتواند اسم یا فعل باشد — بنابراین برچسب صحیح به بافت بستگی دارد. مدلهای توالی این مشکل را با در نظر گرفتن همزمان کلمات و برچسبهای اطراف حل میکنند.

برچسب‌گذاری اجزای کلام و برچسب‌گذاری توالی

اختصاص یک برچسب به هر نشانه (توکن) در یک جمله — جزء کلام آن، نوع موجودیت نام‌گذاری شده، یا برچسب تکه‌ای — با استفاده از مدل‌های توالی احتمالی مانند مدل‌های پنهان مارکوف و میدان‌های تصادفی شرطی.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

برچسب‌گذاری توالی وظیفه اختصاص یک برچسب دسته‌بندی به هر عنصر از یک توالی ورودی است، که برچسب‌گذاری اجزای کلام نمونه کانونی آن محسوب می‌شود.

Scope

وظایف برچسب‌گذاری توالی را که برای تحلیل سطحی محوری هستند، پوشش می‌دهد: برچسب‌گذاری اجزای کلام، تشخیص موجودیت نام‌گذاری شده، و تکه‌بندی. این شامل مدل‌های استاندارد — مدل‌های پنهان مارکوف، مدل‌های مارکوف حداکثر آنتروپی، میدان‌های تصادفی شرطی، و برچسب‌گذارهای توالی عصبی — و مجموعه‌های برچسب مانند پن تری‌بانک (Penn Treebank) و اجزای کلام جهانی (Universal POS) می‌شود. تجزیه کامل در موضوعات مرتبط پوشش داده شده است.

Core questions

مدل‌های پنهان مارکوف چگونه محتمل‌ترین توالی برچسب را اختصاص می‌دهند؟
چرا میدان‌های تصادفی شرطی عملکرد بهتری نسبت به مدل‌های نرمال‌سازی شده محلی دارند؟
مجموعه‌های برچسب چگونه طراحی و در زبان‌های مختلف استانداردسازی می‌شوند؟
برچسب‌گذاری توالی چگونه از تجزیه و استخراج بعدی پشتیبانی می‌کند؟

Key concepts

برچسب اجزای کلام
مدل پنهان مارکوف
الگوریتم ویتربی
میدان تصادفی شرطی
تشخیص موجودیت نام‌گذاری شده
تکه‌بندی
مجموعه برچسب
کدگذاری BIO

Key theories

برچسب‌گذاری با مدل پنهان مارکوف: مدل‌سازی یک توالی برچسب به عنوان یک زنجیره مارکوف که کلمات مشاهده شده را منتشر می‌کند، با الگوریتم ویتربی که محتمل‌ترین توالی برچسب را به طور کارآمد بازیابی می‌کند.
میدان‌های تصادفی شرطی: مدل‌های تمایزی نرمال‌سازی شده جهانی برای برچسب‌گذاری توالی که بر کل ورودی شرطی هستند و از سوگیری برچسب مدل‌های نرمال‌سازی شده محلی اجتناب می‌کنند.

History

برچسب‌گذاری اجزای کلام (POS tagging) یکی از موفقیت‌های اولیه پردازش زبان طبیعی آماری بود، پس از آنکه پن تری‌بانک (Penn Treebank) در سال 1993 داده‌های حاشیه‌نویسی شده بزرگی را فراهم کرد. برچسب‌گذارهای مدل پنهان مارکوف در حدود سال 2001 جای خود را به مدل‌های تمایزی حداکثر آنتروپی و میدان‌های تصادفی شرطی دادند، که به نوبه خود در دهه 2010 توسط برچسب‌گذارهای توالی عصبی جذب شدند.

Debates

مدل‌های توالی مولد در مقابل تمایزی: اینکه آیا توزیع مشترک کلمات و برچسب‌ها (HMMs) مدل‌سازی شود یا برچسب‌ها مستقیماً بر اساس ورودی شرطی شوند (CRFs)؛ مدل‌های تمایزی معمولاً در صورت وجود ویژگی‌های غنی، در دقت برتری دارند.

Key figures

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

Seminal works

marcus1993
lafferty2001

Frequently asked questions

چرا برچسب‌گذاری اجزای کلام بدیهی نیست؟: بسیاری از کلمات مبهم هستند — 'کتاب' می‌تواند اسم یا فعل باشد — بنابراین برچسب صحیح به بافت بستگی دارد. مدل‌های توالی این مشکل را با در نظر گرفتن همزمان کلمات و برچسب‌های اطراف حل می‌کنند.