ScholarGate
المساعد

نماذج التسلسل إلى التسلسل والمحولات (Transformers)

بنى عصبية تحول تسلسلاً مدخلاً إلى تسلسل مخرج — مشفرات-مفككات متكررة، والانتباه، والمحولات — والتي تشكل أساس الترجمة، والتلخيص، ونماذج اللغة التوليدية الحديثة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

نموذج التسلسل إلى التسلسل هو شبكة عصبية تقوم بترميز تسلسل مدخل وتوليد تسلسل مخرج، عادةً باستخدام آلية الانتباه لمواءمة التسلسلين.

Scope

يغطي هذا الموضوع البنى العصبية لنمذجة التسلسل التي تعد محورية في معالجة اللغات الطبيعية (NLP) الحالية: الشبكات المتكررة بما في ذلك LSTMs، وإطار المشفر-المفكك، وآليات الانتباه، والمحولات. ويتناول كيفية تدريب هذه النماذج وفك تشفيرها، ولماذا أتاح الانتباه الذاتي في المحولات التوسع إلى نماذج لغوية كبيرة. يتم تغطية التضمينات والتطبيقات المحددة في مواضيع ذات صلة.

Core questions

  • كيف يحول إطار المشفر-المفكك تسلسلاً إلى آخر؟
  • لماذا تغلبت آلية الانتباه على عنق الزجاجة للترميزات ذات الحجم الثابت؟
  • ماذا يحسب الانتباه الذاتي، ولماذا تتمتع المحولات بهذه القابلية العالية للتوسع؟
  • كيف يتم تدريب شبكات LSTM والمحولات واستخدامها للتوليد؟

Key concepts

  • الشبكة العصبية المتكررة
  • LSTM
  • المشفر-المفكك
  • آلية الانتباه
  • الانتباه الذاتي
  • المحول (Transformer)
  • الترميز الموضعي
  • فك التشفير

Key theories

الذاكرة طويلة المدى قصيرة الأجل (Long short-term memory)
بنية متكررة ذات خلايا ذاكرة مبوبة تخفف من مشكلة تضاؤل التدرج، مما يتيح تعلم الاعتماديات طويلة المدى في التسلسلات.
المشفر-المفكك مع الانتباه
تحويل تسلسل مدخل إلى تسلسل مخرج عبر مشفر ومفكك، مع تمكين الانتباه للمفكك من التركيز على المواقع المدخلة ذات الصلة في كل خطوة.
المحول ذو الانتباه الذاتي
استبدال التكرار بالانتباه الذاتي بحيث يركز كل رمز مباشرة على كل رمز آخر، مما يتيح التدريب المتوازي والتوسع الذي يقف وراء نماذج اللغة الكبيرة.

History

جعلت شبكات LSTM (عام 1997) الشبكات المتكررة عملية للتسلسلات الطويلة. أحدث تعلم التسلسل إلى التسلسل مع الانتباه (2014-2015) تحولًا في الترجمة الآلية، واستبدلت المحولات (عام 2017) التكرار بالانتباه الذاتي، مما أتاح النماذج التوليدية الكبيرة المدربة مسبقًا التي تهيمن الآن على هذا المجال.

Debates

التكرار مقابل الانتباه
ما إذا كان التكرار المتسلسل أو الانتباه المتوازي بالكامل هو التحيز الاستقرائي الأفضل للغة؛ فقد فازت المحولات إلى حد كبير في قابلية التوسع، على الرغم من أن مخاوف الكفاءة تبقي البنى البديلة حية.

Key figures

  • Ashish Vaswani
  • Ilya Sutskever
  • Sepp Hochreiter
  • Jürgen Schmidhuber

Related topics

Seminal works

  • hochreiter1997
  • sutskever2014
  • vaswani2017

Frequently asked questions

ما المشكلة التي يحلها الانتباه؟
قامت نماذج المشفر-المفكك السابقة بضغط المدخلات بأكملها في متجه واحد ثابت، مما أدى إلى فقدان المعلومات للتسلسلات الطويلة. يتيح الانتباه للمفكك الرجوع إلى جميع حالات المشفر ووزن الحالات الأكثر صلة في كل خطوة إخراج.

Methods for this concept

Related concepts