ScholarGate
دستیار

درخت‌بانک‌ها و پیکره‌های نشانه‌گذاری‌شده

پیکره‌هایی که به صورت دستی با ساختار زبانی — درخت‌های نحوی، وابستگی‌ها، معانی و موجودیت‌ها — نشانه‌گذاری شده‌اند و به عنوان داده‌های آموزشی و استانداردهای طلایی برای زبان‌شناسی محاسباتی عمل می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

درخت‌بانک پیکره‌ای است که در آن هر جمله با ساختار نحوی خود نشانه‌گذاری شده است؛ به طور کلی‌تر، یک پیکره نشانه‌گذاری‌شده دارای برچسب‌های زبانی صریحی است که توسط انسان‌ها اضافه شده‌اند.

Scope

این موضوع طراحی و ساخت پیکره‌های نشانه‌گذاری‌شده، به ویژه درخت‌بانک‌هایی که نحو مبتنی بر سازه یا وابستگی را حمل می‌کنند، و همچنین خطوط لوله نشانه‌گذاری، دستورالعمل‌ها و کنترل کیفیت مربوط به آن‌ها را پوشش می‌دهد. این شامل سنت درخت‌بانک پن (Penn Treebank) و تلاش‌های وابستگی‌های جهانی (Universal Dependencies) بین‌زبانی، و نقش توافق بین نشانه‌گذاران می‌شود. طراحی کلی پیکره و منابع واژگانی در موضوعات مرتبط پوشش داده شده‌اند.

Core questions

  • درخت‌بانک‌ها چگونه طراحی می‌شوند و از چه طرح‌های نشانه‌گذاری استفاده می‌کنند؟
  • چرا پیکره‌های نشانه‌گذاری‌شده برای یادگیری نظارت‌شده ضروری هستند؟
  • کیفیت نشانه‌گذاری چگونه تضمین و اندازه‌گیری می‌شود؟
  • نشانه‌گذاری بین‌زبانی مانند وابستگی‌های جهانی (Universal Dependencies) چگونه به ثبات دست می‌یابد؟

Key concepts

  • درخت‌بانک
  • طرح نشانه‌گذاری
  • دستورالعمل‌های نشانه‌گذاری
  • استاندارد طلایی
  • توافق بین نشانه‌گذاران
  • درخت‌بانک پن
  • وابستگی‌های جهانی
  • داوری

Key theories

یادگیری نظارت‌شده مبتنی بر درخت‌بانک
پیکره‌های نحوی نشانه‌گذاری‌شده دستی، سیگنال نظارتی را فراهم کردند که تجزیه آماری، برچسب‌گذاری و بسیاری از وظایف پردازش زبان طبیعی (NLP) را ممکن ساخت.
نشانه‌گذاری هماهنگ بین‌زبانی
وابستگی‌های جهانی (Universal Dependencies) یک طرح نشانه‌گذاری واحد را در بسیاری از زبان‌ها به کار می‌برد که امکان مقایسه درخت‌بانک‌ها و انتقال مدل‌ها را فراهم می‌کند.

History

درخت‌بانک پن (Penn Treebank) (1993) اولین پیکره بزرگ نشانه‌گذاری‌شده نحوی بود و تجزیه آماری را تسریع کرد. درخت‌بانک‌های بعدی لایه‌های معنایی و گفتمانی را اضافه کردند، و پروژه وابستگی‌های جهانی (Universal Dependencies) نشانه‌گذاری را در زبان‌های مختلف استانداردسازی کرد و به منبع بالفعل درخت‌بانک چندزبانه تبدیل شد.

Debates

عمق نشانه‌گذاری در مقابل ثبات
نشانه‌گذاری غنی‌تر جزئیات زبانی بیشتری را ثبت می‌کند اما اعمال آن به طور مداوم دشوارتر است؛ پروژه‌ها باید بین پیچیدگی نظری و نشانه‌گذاری قابل اعتماد و مقیاس‌پذیر تعادل برقرار کنند.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

چرا باید درخت‌بانک‌ها را به صورت دستی ساخت در حالی که تجزیه‌کننده‌ها (parsers) وجود دارند؟
تجزیه‌کننده‌ها بر اساس درخت‌بانک‌های نشانه‌گذاری‌شده توسط انسان آموزش داده و ارزیابی می‌شوند که به عنوان استاندارد طلایی عمل می‌کنند. بدون نشانه‌گذاری دستی قابل اعتماد، چیزی برای یادگیری یا اندازه‌گیری دقت وجود نخواهد داشت.

Methods for this concept

Related concepts