ما المشكلة التي يحلها الانتباه؟

قامت نماذج المشفر-المفكك السابقة بضغط المدخلات بأكملها في متجه واحد ثابت، مما أدى إلى فقدان المعلومات للتسلسلات الطويلة. يتيح الانتباه للمفكك الرجوع إلى جميع حالات المشفر ووزن الحالات الأكثر صلة في كل خطوة إخراج.

نماذج التسلسل إلى التسلسل والمحولات (Transformers)

بنى عصبية تحول تسلسلاً مدخلاً إلى تسلسل مخرج — مشفرات-مفككات متكررة، والانتباه، والمحولات — والتي تشكل أساس الترجمة، والتلخيص، ونماذج اللغة التوليدية الحديثة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

نموذج التسلسل إلى التسلسل هو شبكة عصبية تقوم بترميز تسلسل مدخل وتوليد تسلسل مخرج، عادةً باستخدام آلية الانتباه لمواءمة التسلسلين.

Scope

يغطي هذا الموضوع البنى العصبية لنمذجة التسلسل التي تعد محورية في معالجة اللغات الطبيعية (NLP) الحالية: الشبكات المتكررة بما في ذلك LSTMs، وإطار المشفر-المفكك، وآليات الانتباه، والمحولات. ويتناول كيفية تدريب هذه النماذج وفك تشفيرها، ولماذا أتاح الانتباه الذاتي في المحولات التوسع إلى نماذج لغوية كبيرة. يتم تغطية التضمينات والتطبيقات المحددة في مواضيع ذات صلة.

Core questions

كيف يحول إطار المشفر-المفكك تسلسلاً إلى آخر؟
لماذا تغلبت آلية الانتباه على عنق الزجاجة للترميزات ذات الحجم الثابت؟
ماذا يحسب الانتباه الذاتي، ولماذا تتمتع المحولات بهذه القابلية العالية للتوسع؟
كيف يتم تدريب شبكات LSTM والمحولات واستخدامها للتوليد؟

Key concepts

الشبكة العصبية المتكررة
LSTM
المشفر-المفكك
آلية الانتباه
الانتباه الذاتي
المحول (Transformer)
الترميز الموضعي
فك التشفير

Key theories

الذاكرة طويلة المدى قصيرة الأجل (Long short-term memory): بنية متكررة ذات خلايا ذاكرة مبوبة تخفف من مشكلة تضاؤل التدرج، مما يتيح تعلم الاعتماديات طويلة المدى في التسلسلات.
المشفر-المفكك مع الانتباه: تحويل تسلسل مدخل إلى تسلسل مخرج عبر مشفر ومفكك، مع تمكين الانتباه للمفكك من التركيز على المواقع المدخلة ذات الصلة في كل خطوة.
المحول ذو الانتباه الذاتي: استبدال التكرار بالانتباه الذاتي بحيث يركز كل رمز مباشرة على كل رمز آخر، مما يتيح التدريب المتوازي والتوسع الذي يقف وراء نماذج اللغة الكبيرة.

History

جعلت شبكات LSTM (عام 1997) الشبكات المتكررة عملية للتسلسلات الطويلة. أحدث تعلم التسلسل إلى التسلسل مع الانتباه (2014-2015) تحولًا في الترجمة الآلية، واستبدلت المحولات (عام 2017) التكرار بالانتباه الذاتي، مما أتاح النماذج التوليدية الكبيرة المدربة مسبقًا التي تهيمن الآن على هذا المجال.

Debates

التكرار مقابل الانتباه: ما إذا كان التكرار المتسلسل أو الانتباه المتوازي بالكامل هو التحيز الاستقرائي الأفضل للغة؛ فقد فازت المحولات إلى حد كبير في قابلية التوسع، على الرغم من أن مخاوف الكفاءة تبقي البنى البديلة حية.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

ما المشكلة التي يحلها الانتباه؟: قامت نماذج المشفر-المفكك السابقة بضغط المدخلات بأكملها في متجه واحد ثابت، مما أدى إلى فقدان المعلومات للتسلسلات الطويلة. يتيح الانتباه للمفكك الرجوع إلى جميع حالات المشفر ووزن الحالات الأكثر صلة في كل خطوة إخراج.