ScholarGate
دستیار

منابع واژگانی و پیکره‌ای

پایگاه‌های داده و دانش که زبان‌شناسی محاسباتی تجربی به آن‌ها وابسته است: پیکره‌های متنی، پایگاه‌های داده و هستی‌شناسی‌های واژگانی، پردازش‌های محاسباتی ساختار واژه، و درخت‌بانک‌های غنی حاشیه‌نویسی‌شده.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

منابع واژگانی و پیکره‌ای مجموعه‌های ساختاریافته‌ای از داده‌های زبانی — متون، واژگان، و حاشیه‌نویسی‌ها — هستند که برای پشتیبانی از تحلیل تجربی و آموزش سیستم‌های پردازش زبان ساخته شده‌اند.

Scope

شامل ساخت، نگهداری، و استفاده از منابع زبانی — پیکره‌های متوازن و وب، پایگاه‌های داده واژگانی-معنایی مانند WordNet، صرف و واژگان محاسباتی، و درخت‌بانک‌های حاشیه‌نویسی‌شده. این حوزه به طراحی پیکره، نمایندگی، استانداردهای حاشیه‌نویسی، و نقش منابع در آموزش و ارزیابی سیستم‌ها می‌پردازد. مدل‌سازی الگوریتمی که از این منابع استفاده می‌کند، در سایر حوزه‌ها پوشش داده می‌شود.

Sub-topics

Core questions

  • پیکره‌ها چگونه برای نمایندگی و توازن طراحی می‌شوند؟
  • معانی واژه‌ها چگونه می‌توانند در پایگاه‌های داده واژگانی قابل خواندن توسط ماشین سازماندهی شوند؟
  • ساختار واژه چگونه در زبان‌های غنی از نظر صرفی به صورت محاسباتی نمایش داده می‌شود؟
  • چرا درخت‌بانک‌های حاشیه‌نویسی‌شده برای زبان‌شناسی داده‌محور محوری هستند؟

Key concepts

  • پیکره
  • نمایندگی
  • پایگاه داده واژگانی
  • وردنت (WordNet)
  • مجموعه هم‌معنی (synset)
  • واژگان صرفی
  • درخت‌بانک
  • استاندارد حاشیه‌نویسی

Key theories

تجربه‌گرایی مبتنی بر پیکره
رویکرد روش‌شناختی که بر اساس آن تعمیم‌های زبانی و پارامترهای سیستم باید بر نمونه‌های بزرگ از کاربرد تأییدشده، به جای صرفاً درون‌نگری، استوار باشند.
شبکه‌های واژگانی-معنایی
سازماندهی واژگان به عنوان یک گراف از معانی که توسط روابطی مانند هم‌معنایی و بالامعنایی (hypernymy) به هم مرتبط شده‌اند، مانند WordNet، که از وظایفی مانند رفع ابهام تا شباهت معنایی پشتیبانی می‌کند.

History

تغییر به روش‌های تجربی در دهه ۱۹۹۰، پیکره‌ها و منابع واژگانی را به بنیان تبدیل کرد. WordNet یک پایگاه داده واژگانی-معنایی قابل استفاده مجدد ارائه داد، پیکره‌های متوازن مانند پیکره ملی بریتانیا استانداردهای طراحی را تعیین کردند، و کار کیلگاریف و گریفنستت وب را به عنوان یک پیکره عظیم برای مطالعات زبانی مشروعیت بخشید.

Debates

پیکره‌های متوازن در برابر وب به عنوان پیکره
اینکه آیا پیکره‌های با دقت متوازن یا وب نامنظم اما عظیم، بهتر به پژوهش‌های زبانی خدمت می‌کنند؛ این حوزه به طور فزاینده‌ای از هر دو استفاده می‌کند و نمایندگی را در برابر مقیاس می‌سنجد.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

چه چیزی یک پیکره خوب را می‌سازد؟
یک پیکره خوب به اندازه کافی بزرگ است تا آمار قابل اعتمادی ارائه دهد و نماینده گونه زبانی مورد مطالعه باشد، با مستندات واضحی از منابع، نمونه‌برداری، و هرگونه حاشیه‌نویسی تا نتایج قابل تفسیر و بازتولید باشند.

Methods for this concept

Related concepts