زبانشناسی پیکرهای و پیکرههای وب
مطالعه زبان از طریق نمونههای بزرگ متن معتبر: ساخت و پرسوجوی پیکرهها، اندازهگیری همرخدادیها و بسامدها، و بهرهگیری از وب به عنوان یک منبع زبانی وسیع.
Definition
زبانشناسی پیکرهای مطالعه تجربی زبان است که بر اساس مجموعههای نظاممند از متون طبیعی، تحلیل شده با معیارهای بسامد، همرخدادی و همبستگی، انجام میشود.
Scope
این موضوع طراحی، گردآوری و تحلیل پیکرههای متنی — نمونهبرداری و تعادل، همرخدادییابی و تحلیل کلمات کلیدی، آمار بسامد و همرخدادی مانند اطلاعات متقابل، و استفاده از وب به عنوان یک پیکره را پوشش میدهد. هم به زبانشناسی پیکرهای توصیفی و هم به تأمین داده برای سیستمهای محاسباتی میپردازد. طرحهای نشانهگذاری و درختبانکها در یک موضوع مرتبط دیگر پوشش داده شدهاند.
Core questions
- چگونه از پیکرهها نمونهبرداری میشود تا یک گونه زبانی به طور منصفانه نمایش داده شود؟
- چگونه معیارهای همبستگی مانند اطلاعات متقابل، همرخدادیها را آشکار میکنند؟
- مزایا و معایب استفاده از وب به عنوان یک پیکره چیست؟
- همرخدادیها چگونه از تحلیل زبانی و واژهنگاری پشتیبانی میکنند؟
Key concepts
- طراحی پیکره
- همرخدادییابی
- همرخدادی
- اطلاعات متقابل نقطهای
- توزیع بسامد
- تحلیل کلمات کلیدی
- وب به عنوان پیکره
- پیکره متعادل
Key theories
- معیارهای همبستگی برای همرخدادی
- استفاده از آمار مانند اطلاعات متقابل نقطهای برای شناسایی جفتواژههایی که بیش از حد تصادفی با هم رخ میدهند، آشکارسازی همرخدادیها و پشتیبانی از واژهنگاری.
- وب به عنوان پیکره
- برخورد با وب به عنوان یک پیکره عظیم، هرچند کنترلنشده، که امکان مطالعه پدیدههای نادر و گونههای کممنبع را فراهم میکند، در حالی که سؤالاتی در مورد نمایندگیپذیری مطرح میسازد.
History
زبانشناسی پیکرهای از پروژههای واژهنگاری سینکلر و ساخت پیکرههای متعادل رشد کرد، در حالی که کار چرچ و هنکس در سال ۱۹۸۹ در مورد اطلاعات متقابل، معیارهای آماری همبستگی را وارد جریان اصلی کرد. کیلگاریف و گریفنستت بعدها وب را به عنوان یک پیکره مشروع، هرچند پرنویز، با مقیاسی بیسابقه تثبیت کردند.
Debates
- نمایندگیپذیری دادههای وب
- پیکرههای وب بسیار بزرگ اما نامتعادل هستند و توصیف آنها دشوار است، که بحثهایی را در مورد اینکه نتایج حاصل از آنها تا چه حد به کل یک زبان تعمیمپذیر است، برمیانگیزد.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- همرخدادی چیست؟
- همرخدادی یک جفت یا گروهی از کلمات است که به طور عادتوار بیش از آنچه شانس پیشبینی میکند با هم رخ میدهند، مانند 'چای غلیظ' به جای 'چای قوی'. معیارهای همبستگی به شناسایی خودکار آنها کمک میکنند.