منابع واژگانی و پیکرهای
پایگاههای داده و دانش که زبانشناسی محاسباتی تجربی به آنها وابسته است: پیکرههای متنی، پایگاههای داده و هستیشناسیهای واژگانی، پردازشهای محاسباتی ساختار واژه، و درختبانکهای غنی حاشیهنویسیشده.
Definition
منابع واژگانی و پیکرهای مجموعههای ساختاریافتهای از دادههای زبانی — متون، واژگان، و حاشیهنویسیها — هستند که برای پشتیبانی از تحلیل تجربی و آموزش سیستمهای پردازش زبان ساخته شدهاند.
Scope
شامل ساخت، نگهداری، و استفاده از منابع زبانی — پیکرههای متوازن و وب، پایگاههای داده واژگانی-معنایی مانند WordNet، صرف و واژگان محاسباتی، و درختبانکهای حاشیهنویسیشده. این حوزه به طراحی پیکره، نمایندگی، استانداردهای حاشیهنویسی، و نقش منابع در آموزش و ارزیابی سیستمها میپردازد. مدلسازی الگوریتمی که از این منابع استفاده میکند، در سایر حوزهها پوشش داده میشود.
Sub-topics
Core questions
- پیکرهها چگونه برای نمایندگی و توازن طراحی میشوند؟
- معانی واژهها چگونه میتوانند در پایگاههای داده واژگانی قابل خواندن توسط ماشین سازماندهی شوند؟
- ساختار واژه چگونه در زبانهای غنی از نظر صرفی به صورت محاسباتی نمایش داده میشود؟
- چرا درختبانکهای حاشیهنویسیشده برای زبانشناسی دادهمحور محوری هستند؟
Key concepts
- پیکره
- نمایندگی
- پایگاه داده واژگانی
- وردنت (WordNet)
- مجموعه هممعنی (synset)
- واژگان صرفی
- درختبانک
- استاندارد حاشیهنویسی
Key theories
- تجربهگرایی مبتنی بر پیکره
- رویکرد روششناختی که بر اساس آن تعمیمهای زبانی و پارامترهای سیستم باید بر نمونههای بزرگ از کاربرد تأییدشده، به جای صرفاً دروننگری، استوار باشند.
- شبکههای واژگانی-معنایی
- سازماندهی واژگان به عنوان یک گراف از معانی که توسط روابطی مانند هممعنایی و بالامعنایی (hypernymy) به هم مرتبط شدهاند، مانند WordNet، که از وظایفی مانند رفع ابهام تا شباهت معنایی پشتیبانی میکند.
History
تغییر به روشهای تجربی در دهه ۱۹۹۰، پیکرهها و منابع واژگانی را به بنیان تبدیل کرد. WordNet یک پایگاه داده واژگانی-معنایی قابل استفاده مجدد ارائه داد، پیکرههای متوازن مانند پیکره ملی بریتانیا استانداردهای طراحی را تعیین کردند، و کار کیلگاریف و گریفنستت وب را به عنوان یک پیکره عظیم برای مطالعات زبانی مشروعیت بخشید.
Debates
- پیکرههای متوازن در برابر وب به عنوان پیکره
- اینکه آیا پیکرههای با دقت متوازن یا وب نامنظم اما عظیم، بهتر به پژوهشهای زبانی خدمت میکنند؛ این حوزه به طور فزایندهای از هر دو استفاده میکند و نمایندگی را در برابر مقیاس میسنجد.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- چه چیزی یک پیکره خوب را میسازد؟
- یک پیکره خوب به اندازه کافی بزرگ است تا آمار قابل اعتمادی ارائه دهد و نماینده گونه زبانی مورد مطالعه باشد، با مستندات واضحی از منابع، نمونهبرداری، و هرگونه حاشیهنویسی تا نتایج قابل تفسیر و بازتولید باشند.