درختبانکها و پیکرههای نشانهگذاریشده
پیکرههایی که به صورت دستی با ساختار زبانی — درختهای نحوی، وابستگیها، معانی و موجودیتها — نشانهگذاری شدهاند و به عنوان دادههای آموزشی و استانداردهای طلایی برای زبانشناسی محاسباتی عمل میکنند.
Definition
درختبانک پیکرهای است که در آن هر جمله با ساختار نحوی خود نشانهگذاری شده است؛ به طور کلیتر، یک پیکره نشانهگذاریشده دارای برچسبهای زبانی صریحی است که توسط انسانها اضافه شدهاند.
Scope
این موضوع طراحی و ساخت پیکرههای نشانهگذاریشده، به ویژه درختبانکهایی که نحو مبتنی بر سازه یا وابستگی را حمل میکنند، و همچنین خطوط لوله نشانهگذاری، دستورالعملها و کنترل کیفیت مربوط به آنها را پوشش میدهد. این شامل سنت درختبانک پن (Penn Treebank) و تلاشهای وابستگیهای جهانی (Universal Dependencies) بینزبانی، و نقش توافق بین نشانهگذاران میشود. طراحی کلی پیکره و منابع واژگانی در موضوعات مرتبط پوشش داده شدهاند.
Core questions
- درختبانکها چگونه طراحی میشوند و از چه طرحهای نشانهگذاری استفاده میکنند؟
- چرا پیکرههای نشانهگذاریشده برای یادگیری نظارتشده ضروری هستند؟
- کیفیت نشانهگذاری چگونه تضمین و اندازهگیری میشود؟
- نشانهگذاری بینزبانی مانند وابستگیهای جهانی (Universal Dependencies) چگونه به ثبات دست مییابد؟
Key concepts
- درختبانک
- طرح نشانهگذاری
- دستورالعملهای نشانهگذاری
- استاندارد طلایی
- توافق بین نشانهگذاران
- درختبانک پن
- وابستگیهای جهانی
- داوری
Key theories
- یادگیری نظارتشده مبتنی بر درختبانک
- پیکرههای نحوی نشانهگذاریشده دستی، سیگنال نظارتی را فراهم کردند که تجزیه آماری، برچسبگذاری و بسیاری از وظایف پردازش زبان طبیعی (NLP) را ممکن ساخت.
- نشانهگذاری هماهنگ بینزبانی
- وابستگیهای جهانی (Universal Dependencies) یک طرح نشانهگذاری واحد را در بسیاری از زبانها به کار میبرد که امکان مقایسه درختبانکها و انتقال مدلها را فراهم میکند.
History
درختبانک پن (Penn Treebank) (1993) اولین پیکره بزرگ نشانهگذاریشده نحوی بود و تجزیه آماری را تسریع کرد. درختبانکهای بعدی لایههای معنایی و گفتمانی را اضافه کردند، و پروژه وابستگیهای جهانی (Universal Dependencies) نشانهگذاری را در زبانهای مختلف استانداردسازی کرد و به منبع بالفعل درختبانک چندزبانه تبدیل شد.
Debates
- عمق نشانهگذاری در مقابل ثبات
- نشانهگذاری غنیتر جزئیات زبانی بیشتری را ثبت میکند اما اعمال آن به طور مداوم دشوارتر است؛ پروژهها باید بین پیچیدگی نظری و نشانهگذاری قابل اعتماد و مقیاسپذیر تعادل برقرار کنند.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- چرا باید درختبانکها را به صورت دستی ساخت در حالی که تجزیهکنندهها (parsers) وجود دارند؟
- تجزیهکنندهها بر اساس درختبانکهای نشانهگذاریشده توسط انسان آموزش داده و ارزیابی میشوند که به عنوان استاندارد طلایی عمل میکنند. بدون نشانهگذاری دستی قابل اعتماد، چیزی برای یادگیری یا اندازهگیری دقت وجود نخواهد داشت.