ScholarGate
دستیار

برچسب‌گذاری اجزای کلام و برچسب‌گذاری توالی

اختصاص یک برچسب به هر نشانه (توکن) در یک جمله — جزء کلام آن، نوع موجودیت نام‌گذاری شده، یا برچسب تکه‌ای — با استفاده از مدل‌های توالی احتمالی مانند مدل‌های پنهان مارکوف و میدان‌های تصادفی شرطی.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

برچسب‌گذاری توالی وظیفه اختصاص یک برچسب دسته‌بندی به هر عنصر از یک توالی ورودی است، که برچسب‌گذاری اجزای کلام نمونه کانونی آن محسوب می‌شود.

Scope

وظایف برچسب‌گذاری توالی را که برای تحلیل سطحی محوری هستند، پوشش می‌دهد: برچسب‌گذاری اجزای کلام، تشخیص موجودیت نام‌گذاری شده، و تکه‌بندی. این شامل مدل‌های استاندارد — مدل‌های پنهان مارکوف، مدل‌های مارکوف حداکثر آنتروپی، میدان‌های تصادفی شرطی، و برچسب‌گذارهای توالی عصبی — و مجموعه‌های برچسب مانند پن تری‌بانک (Penn Treebank) و اجزای کلام جهانی (Universal POS) می‌شود. تجزیه کامل در موضوعات مرتبط پوشش داده شده است.

Core questions

  • مدل‌های پنهان مارکوف چگونه محتمل‌ترین توالی برچسب را اختصاص می‌دهند؟
  • چرا میدان‌های تصادفی شرطی عملکرد بهتری نسبت به مدل‌های نرمال‌سازی شده محلی دارند؟
  • مجموعه‌های برچسب چگونه طراحی و در زبان‌های مختلف استانداردسازی می‌شوند؟
  • برچسب‌گذاری توالی چگونه از تجزیه و استخراج بعدی پشتیبانی می‌کند؟

Key concepts

  • برچسب اجزای کلام
  • مدل پنهان مارکوف
  • الگوریتم ویتربی
  • میدان تصادفی شرطی
  • تشخیص موجودیت نام‌گذاری شده
  • تکه‌بندی
  • مجموعه برچسب
  • کدگذاری BIO

Key theories

برچسب‌گذاری با مدل پنهان مارکوف
مدل‌سازی یک توالی برچسب به عنوان یک زنجیره مارکوف که کلمات مشاهده شده را منتشر می‌کند، با الگوریتم ویتربی که محتمل‌ترین توالی برچسب را به طور کارآمد بازیابی می‌کند.
میدان‌های تصادفی شرطی
مدل‌های تمایزی نرمال‌سازی شده جهانی برای برچسب‌گذاری توالی که بر کل ورودی شرطی هستند و از سوگیری برچسب مدل‌های نرمال‌سازی شده محلی اجتناب می‌کنند.

History

برچسب‌گذاری اجزای کلام (POS tagging) یکی از موفقیت‌های اولیه پردازش زبان طبیعی آماری بود، پس از آنکه پن تری‌بانک (Penn Treebank) در سال 1993 داده‌های حاشیه‌نویسی شده بزرگی را فراهم کرد. برچسب‌گذارهای مدل پنهان مارکوف در حدود سال 2001 جای خود را به مدل‌های تمایزی حداکثر آنتروپی و میدان‌های تصادفی شرطی دادند، که به نوبه خود در دهه 2010 توسط برچسب‌گذارهای توالی عصبی جذب شدند.

Debates

مدل‌های توالی مولد در مقابل تمایزی
اینکه آیا توزیع مشترک کلمات و برچسب‌ها (HMMs) مدل‌سازی شود یا برچسب‌ها مستقیماً بر اساس ورودی شرطی شوند (CRFs)؛ مدل‌های تمایزی معمولاً در صورت وجود ویژگی‌های غنی، در دقت برتری دارند.

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

چرا برچسب‌گذاری اجزای کلام بدیهی نیست؟
بسیاری از کلمات مبهم هستند — 'کتاب' می‌تواند اسم یا فعل باشد — بنابراین برچسب صحیح به بافت بستگی دارد. مدل‌های توالی این مشکل را با در نظر گرفتن همزمان کلمات و برچسب‌های اطراف حل می‌کنند.

Methods for this concept

Related concepts