ScholarGate
دستیار

زبان‌شناسی پیکره‌ای و پیکره‌های وب

مطالعه زبان از طریق نمونه‌های بزرگ متن معتبر: ساخت و پرس‌وجوی پیکره‌ها، اندازه‌گیری هم‌رخدادی‌ها و بسامدها، و بهره‌گیری از وب به عنوان یک منبع زبانی وسیع.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

زبان‌شناسی پیکره‌ای مطالعه تجربی زبان است که بر اساس مجموعه‌های نظام‌مند از متون طبیعی، تحلیل شده با معیارهای بسامد، هم‌رخدادی و همبستگی، انجام می‌شود.

Scope

این موضوع طراحی، گردآوری و تحلیل پیکره‌های متنی — نمونه‌برداری و تعادل، هم‌رخدادی‌یابی و تحلیل کلمات کلیدی، آمار بسامد و هم‌رخدادی مانند اطلاعات متقابل، و استفاده از وب به عنوان یک پیکره را پوشش می‌دهد. هم به زبان‌شناسی پیکره‌ای توصیفی و هم به تأمین داده برای سیستم‌های محاسباتی می‌پردازد. طرح‌های نشانه‌گذاری و درخت‌بانک‌ها در یک موضوع مرتبط دیگر پوشش داده شده‌اند.

Core questions

  • چگونه از پیکره‌ها نمونه‌برداری می‌شود تا یک گونه زبانی به طور منصفانه نمایش داده شود؟
  • چگونه معیارهای همبستگی مانند اطلاعات متقابل، هم‌رخدادی‌ها را آشکار می‌کنند؟
  • مزایا و معایب استفاده از وب به عنوان یک پیکره چیست؟
  • هم‌رخدادی‌ها چگونه از تحلیل زبانی و واژه‌نگاری پشتیبانی می‌کنند؟

Key concepts

  • طراحی پیکره
  • هم‌رخدادی‌یابی
  • هم‌رخدادی
  • اطلاعات متقابل نقطه‌ای
  • توزیع بسامد
  • تحلیل کلمات کلیدی
  • وب به عنوان پیکره
  • پیکره متعادل

Key theories

معیارهای همبستگی برای هم‌رخدادی
استفاده از آمار مانند اطلاعات متقابل نقطه‌ای برای شناسایی جفت‌واژه‌هایی که بیش از حد تصادفی با هم رخ می‌دهند، آشکارسازی هم‌رخدادی‌ها و پشتیبانی از واژه‌نگاری.
وب به عنوان پیکره
برخورد با وب به عنوان یک پیکره عظیم، هرچند کنترل‌نشده، که امکان مطالعه پدیده‌های نادر و گونه‌های کم‌منبع را فراهم می‌کند، در حالی که سؤالاتی در مورد نمایندگی‌پذیری مطرح می‌سازد.

History

زبان‌شناسی پیکره‌ای از پروژه‌های واژه‌نگاری سینکلر و ساخت پیکره‌های متعادل رشد کرد، در حالی که کار چرچ و هنکس در سال ۱۹۸۹ در مورد اطلاعات متقابل، معیارهای آماری همبستگی را وارد جریان اصلی کرد. کیلگاریف و گریفنستت بعدها وب را به عنوان یک پیکره مشروع، هرچند پرنویز، با مقیاسی بی‌سابقه تثبیت کردند.

Debates

نمایندگی‌پذیری داده‌های وب
پیکره‌های وب بسیار بزرگ اما نامتعادل هستند و توصیف آن‌ها دشوار است، که بحث‌هایی را در مورد اینکه نتایج حاصل از آن‌ها تا چه حد به کل یک زبان تعمیم‌پذیر است، برمی‌انگیزد.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

هم‌رخدادی چیست؟
هم‌رخدادی یک جفت یا گروهی از کلمات است که به طور عادت‌وار بیش از آنچه شانس پیش‌بینی می‌کند با هم رخ می‌دهند، مانند 'چای غلیظ' به جای 'چای قوی'. معیارهای همبستگی به شناسایی خودکار آن‌ها کمک می‌کنند.

Methods for this concept

Related concepts