مدلهای زبان عصبی و جاسازیهای کلمه
یادگیری نمایشهای برداری متراکم از کلمات و زمینهها از متن خام — از جاسازیهای word2vec تا نمایشهای متنی مانند BERT — که معنا را به عنوان هندسه کدگذاری میکنند.
Definition
جاسازی کلمه یک بردار متراکم با مقادیر حقیقی است که معنای یک کلمه را نشان میدهد و به گونهای یاد گرفته میشود که شباهت توزیعی در نزدیکی فضای برداری منعکس شود؛ جاسازیهای متنی این مفهوم را به نمایشهایی گسترش میدهند که به متن اطراف بستگی دارند.
Scope
این بخش نمایشهای توزیعشده و عصبی زبان را پوشش میدهد: فرضیه توزیعی، جاسازیهای کلمه ایستا مانند word2vec و GloVe، مدلهای زبان عصبی، و جاسازیهای متنی از ترانسفورماتورهای از پیش آموزشدیده مانند BERT. به نحوه آموزش، ارزیابی و انتقال نمایشها به وظایف پاییندستی میپردازد. جزئیات معماری ترانسفورماتور و تولید در یک موضوع مرتبط پوشش داده شده است.
Core questions
- فرضیه توزیعی چیست و چگونه جاسازیها آن را عملیاتی میکنند؟
- word2vec چگونه بردارهای کلمه را از همرخدادی یاد میگیرد؟
- جاسازیهای متنی چه تفاوتی با جاسازیهای ایستا دارند؟
- چرا پیشآموزش و یادگیری انتقالی NLP را متحول کرد؟
Key concepts
- فرضیه توزیعی
- جاسازی کلمه
- word2vec
- skip-gram
- جاسازی متنی
- پیشآموزش و تنظیم دقیق
- یادگیری انتقالی
- مدلسازی زبان ماسکشده
Key theories
- فرضیه توزیعی
- این ایده که کلماتی که در زمینههای مشابه ظاهر میشوند، معانی مشابهی دارند، که زیربنای تمام روشهای جاسازی با استخراج معنا از آمار همرخدادی است.
- پیشآموزش متنی
- پیشآموزش مدلهای عمیق دوطرفه بر روی متنهای بزرگ بدون برچسب، مانند BERT، برای تولید نمایشهای حساس به متن که با تنظیم دقیق کمی به بسیاری از وظایف پاییندستی منتقل میشوند.
History
فرضیه توزیعی هریس ابتدا توسط مدلهای فضای برداری مبتنی بر شمارش، سپس توسط مدل زبان عصبی Bengio (2003) و word2vec کارآمد Mikolov (2013) عملیاتی شد. ورود مدلهای متنی مانند ELMo و BERT در سالهای 2018-2019، پیشآموزش و تنظیم دقیق را به پارادایم غالب تبدیل کرد.
Debates
- جاسازیها واقعاً چه چیزی را کدگذاری میکنند؟
- اینکه آیا نمایشهای یادگرفتهشده ساختار معنایی و نحوی واقعی را به تصویر میکشند یا صرفاً نظمها و سوگیریهای همرخدادی موجود در دادههای آموزشی را، یک سوال اساسی برای قابلیت تفسیر است.
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- تفاوت بین جاسازیهای ایستا و متنی چیست؟
- یک جاسازی ایستا به یک کلمه یک بردار ثابت بدون توجه به زمینه میدهد، بنابراین 'bank' یک نمایش واحد دارد. یک جاسازی متنی برای هر رخداد یک بردار متفاوت تولید میکند و بین 'river bank' (ساحل رودخانه) و 'financial bank' (بانک مالی) تمایز قائل میشود.