نماذج التسلسل إلى التسلسل والمحولات (Transformers)
بنى عصبية تحول تسلسلاً مدخلاً إلى تسلسل مخرج — مشفرات-مفككات متكررة، والانتباه، والمحولات — والتي تشكل أساس الترجمة، والتلخيص، ونماذج اللغة التوليدية الحديثة.
Definition
نموذج التسلسل إلى التسلسل هو شبكة عصبية تقوم بترميز تسلسل مدخل وتوليد تسلسل مخرج، عادةً باستخدام آلية الانتباه لمواءمة التسلسلين.
Scope
يغطي هذا الموضوع البنى العصبية لنمذجة التسلسل التي تعد محورية في معالجة اللغات الطبيعية (NLP) الحالية: الشبكات المتكررة بما في ذلك LSTMs، وإطار المشفر-المفكك، وآليات الانتباه، والمحولات. ويتناول كيفية تدريب هذه النماذج وفك تشفيرها، ولماذا أتاح الانتباه الذاتي في المحولات التوسع إلى نماذج لغوية كبيرة. يتم تغطية التضمينات والتطبيقات المحددة في مواضيع ذات صلة.
Core questions
- كيف يحول إطار المشفر-المفكك تسلسلاً إلى آخر؟
- لماذا تغلبت آلية الانتباه على عنق الزجاجة للترميزات ذات الحجم الثابت؟
- ماذا يحسب الانتباه الذاتي، ولماذا تتمتع المحولات بهذه القابلية العالية للتوسع؟
- كيف يتم تدريب شبكات LSTM والمحولات واستخدامها للتوليد؟
Key concepts
- الشبكة العصبية المتكررة
- LSTM
- المشفر-المفكك
- آلية الانتباه
- الانتباه الذاتي
- المحول (Transformer)
- الترميز الموضعي
- فك التشفير
Key theories
- الذاكرة طويلة المدى قصيرة الأجل (Long short-term memory)
- بنية متكررة ذات خلايا ذاكرة مبوبة تخفف من مشكلة تضاؤل التدرج، مما يتيح تعلم الاعتماديات طويلة المدى في التسلسلات.
- المشفر-المفكك مع الانتباه
- تحويل تسلسل مدخل إلى تسلسل مخرج عبر مشفر ومفكك، مع تمكين الانتباه للمفكك من التركيز على المواقع المدخلة ذات الصلة في كل خطوة.
- المحول ذو الانتباه الذاتي
- استبدال التكرار بالانتباه الذاتي بحيث يركز كل رمز مباشرة على كل رمز آخر، مما يتيح التدريب المتوازي والتوسع الذي يقف وراء نماذج اللغة الكبيرة.
History
جعلت شبكات LSTM (عام 1997) الشبكات المتكررة عملية للتسلسلات الطويلة. أحدث تعلم التسلسل إلى التسلسل مع الانتباه (2014-2015) تحولًا في الترجمة الآلية، واستبدلت المحولات (عام 2017) التكرار بالانتباه الذاتي، مما أتاح النماذج التوليدية الكبيرة المدربة مسبقًا التي تهيمن الآن على هذا المجال.
Debates
- التكرار مقابل الانتباه
- ما إذا كان التكرار المتسلسل أو الانتباه المتوازي بالكامل هو التحيز الاستقرائي الأفضل للغة؛ فقد فازت المحولات إلى حد كبير في قابلية التوسع، على الرغم من أن مخاوف الكفاءة تبقي البنى البديلة حية.
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- ما المشكلة التي يحلها الانتباه؟
- قامت نماذج المشفر-المفكك السابقة بضغط المدخلات بأكملها في متجه واحد ثابت، مما أدى إلى فقدان المعلومات للتسلسلات الطويلة. يتيح الانتباه للمفكك الرجوع إلى جميع حالات المشفر ووزن الحالات الأكثر صلة في كل خطوة إخراج.