برچسبگذاری اجزای کلام و برچسبگذاری توالی
اختصاص یک برچسب به هر نشانه (توکن) در یک جمله — جزء کلام آن، نوع موجودیت نامگذاری شده، یا برچسب تکهای — با استفاده از مدلهای توالی احتمالی مانند مدلهای پنهان مارکوف و میدانهای تصادفی شرطی.
Definition
برچسبگذاری توالی وظیفه اختصاص یک برچسب دستهبندی به هر عنصر از یک توالی ورودی است، که برچسبگذاری اجزای کلام نمونه کانونی آن محسوب میشود.
Scope
وظایف برچسبگذاری توالی را که برای تحلیل سطحی محوری هستند، پوشش میدهد: برچسبگذاری اجزای کلام، تشخیص موجودیت نامگذاری شده، و تکهبندی. این شامل مدلهای استاندارد — مدلهای پنهان مارکوف، مدلهای مارکوف حداکثر آنتروپی، میدانهای تصادفی شرطی، و برچسبگذارهای توالی عصبی — و مجموعههای برچسب مانند پن تریبانک (Penn Treebank) و اجزای کلام جهانی (Universal POS) میشود. تجزیه کامل در موضوعات مرتبط پوشش داده شده است.
Core questions
- مدلهای پنهان مارکوف چگونه محتملترین توالی برچسب را اختصاص میدهند؟
- چرا میدانهای تصادفی شرطی عملکرد بهتری نسبت به مدلهای نرمالسازی شده محلی دارند؟
- مجموعههای برچسب چگونه طراحی و در زبانهای مختلف استانداردسازی میشوند؟
- برچسبگذاری توالی چگونه از تجزیه و استخراج بعدی پشتیبانی میکند؟
Key concepts
- برچسب اجزای کلام
- مدل پنهان مارکوف
- الگوریتم ویتربی
- میدان تصادفی شرطی
- تشخیص موجودیت نامگذاری شده
- تکهبندی
- مجموعه برچسب
- کدگذاری BIO
Key theories
- برچسبگذاری با مدل پنهان مارکوف
- مدلسازی یک توالی برچسب به عنوان یک زنجیره مارکوف که کلمات مشاهده شده را منتشر میکند، با الگوریتم ویتربی که محتملترین توالی برچسب را به طور کارآمد بازیابی میکند.
- میدانهای تصادفی شرطی
- مدلهای تمایزی نرمالسازی شده جهانی برای برچسبگذاری توالی که بر کل ورودی شرطی هستند و از سوگیری برچسب مدلهای نرمالسازی شده محلی اجتناب میکنند.
History
برچسبگذاری اجزای کلام (POS tagging) یکی از موفقیتهای اولیه پردازش زبان طبیعی آماری بود، پس از آنکه پن تریبانک (Penn Treebank) در سال 1993 دادههای حاشیهنویسی شده بزرگی را فراهم کرد. برچسبگذارهای مدل پنهان مارکوف در حدود سال 2001 جای خود را به مدلهای تمایزی حداکثر آنتروپی و میدانهای تصادفی شرطی دادند، که به نوبه خود در دهه 2010 توسط برچسبگذارهای توالی عصبی جذب شدند.
Debates
- مدلهای توالی مولد در مقابل تمایزی
- اینکه آیا توزیع مشترک کلمات و برچسبها (HMMs) مدلسازی شود یا برچسبها مستقیماً بر اساس ورودی شرطی شوند (CRFs)؛ مدلهای تمایزی معمولاً در صورت وجود ویژگیهای غنی، در دقت برتری دارند.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- چرا برچسبگذاری اجزای کلام بدیهی نیست؟
- بسیاری از کلمات مبهم هستند — 'کتاب' میتواند اسم یا فعل باشد — بنابراین برچسب صحیح به بافت بستگی دارد. مدلهای توالی این مشکل را با در نظر گرفتن همزمان کلمات و برچسبهای اطراف حل میکنند.