ScholarGate
सहायक

सीक्वेंस-टू-सीक्वेंस मॉडल और ट्रांसफॉर्मर

न्यूरल आर्किटेक्चर जो एक इनपुट सीक्वेंस को एक आउटपुट सीक्वेंस में मैप करते हैं — रिकरेंट एनकोडर-डिकोडर, अटेंशन और ट्रांसफॉर्मर — जो अनुवाद, सारांशीकरण और आधुनिक जनरेटिव भाषा मॉडल का आधार हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक सीक्वेंस-टू-सीक्वेंस मॉडल एक न्यूरल नेटवर्क है जो एक इनपुट सीक्वेंस को एन्कोड करता है और एक आउटपुट सीक्वेंस उत्पन्न करता है, आमतौर पर दोनों को संरेखित करने के लिए एक अटेंशन मैकेनिज्म का उपयोग करता है।

Scope

वर्तमान एनएलपी के लिए केंद्रीय न्यूरल सीक्वेंस-मॉडलिंग आर्किटेक्चर को शामिल करता है: एलएसटीएम सहित रिकरेंट नेटवर्क, एनकोडर-डिकोडर फ्रेमवर्क, अटेंशन मैकेनिज्म और ट्रांसफॉर्मर। यह बताता है कि इन मॉडलों को कैसे प्रशिक्षित और डिकोड किया जाता है और क्यों ट्रांसफॉर्मर के सेल्फ-अटेंशन ने बड़े भाषा मॉडल तक स्केलिंग को सक्षम किया। एम्बेडिंग और विशिष्ट अनुप्रयोगों को संबंधित विषयों में शामिल किया गया है।

Core questions

  • एनकोडर-डिकोडर फ्रेमवर्क एक सीक्वेंस को दूसरे में कैसे बदलता है?
  • अटेंशन ने निश्चित आकार के एन्कोडिंग की बाधा को क्यों दूर किया?
  • सेल्फ-अटेंशन क्या गणना करता है, और ट्रांसफॉर्मर इतना स्केलेबल क्यों है?
  • एलएसटीएम और ट्रांसफॉर्मर को जनरेशन के लिए कैसे प्रशिक्षित और उपयोग किया जाता है?

Key concepts

  • रिकरेंट न्यूरल नेटवर्क
  • एलएसटीएम
  • एनकोडर-डिकोडर
  • अटेंशन मैकेनिज्म
  • सेल्फ-अटेंशन
  • ट्रांसफॉर्मर
  • पोजीशनल एन्कोडिंग
  • डिकोडिंग

Key theories

लॉन्ग शॉर्ट-टर्म मेमोरी
गेटेड़ मेमोरी सेल के साथ एक रिकरेंट आर्किटेक्चर जो वैनिशिंग-ग्रेडिएंट समस्या को कम करता है, जिससे सीक्वेंस में लंबी दूरी की निर्भरता सीखने में सक्षम होता है।
अटेंशन के साथ एनकोडर-डिकोडर
एक एनकोडर और डिकोडर के माध्यम से एक इनपुट को एक आउटपुट सीक्वेंस में मैप करना, अटेंशन के साथ डिकोडर को प्रत्येक चरण में प्रासंगिक इनपुट स्थितियों पर ध्यान केंद्रित करने की अनुमति मिलती है।
सेल्फ-अटेंशन ट्रांसफॉर्मर
सेल्फ-अटेंशन के साथ रिकरेंस को बदलना ताकि प्रत्येक टोकन सीधे हर दूसरे पर ध्यान दे, समानांतर प्रशिक्षण और बड़े भाषा मॉडल के पीछे की स्केलिंग को सक्षम करना।

History

एलएसटीएम (1997) ने लंबे सीक्वेंस के लिए रिकरेंट नेटवर्क को व्यावहारिक बनाया। अटेंशन के साथ सीक्वेंस-टू-सीक्वेंस लर्निंग (2014-2015) ने मशीन अनुवाद को बदल दिया, और 2017 के ट्रांसफॉर्मर ने रिकरेंस को सेल्फ-अटेंशन से बदल दिया, जिससे बड़े प्रीट्रेन्ड जनरेटिव मॉडल सक्षम हुए जो अब इस क्षेत्र पर हावी हैं।

Debates

रिकरेंस बनाम अटेंशन
क्या अनुक्रमिक रिकरेंस या पूरी तरह से समानांतर अटेंशन भाषा के लिए बेहतर आगमनात्मक पूर्वाग्रह है; ट्रांसफॉर्मर ने स्केलेबिलिटी पर काफी हद तक जीत हासिल की, हालांकि दक्षता संबंधी चिंताओं ने वैकल्पिक आर्किटेक्चर को जीवित रखा है।

Key figures

  • Ashish Vaswani
  • Ilya Sutskever
  • Sepp Hochreiter
  • Jürgen Schmidhuber

Related topics

Seminal works

  • hochreiter1997
  • sutskever2014
  • vaswani2017

Frequently asked questions

अटेंशन किस समस्या का समाधान करता है?
पहले के एनकोडर-डिकोडर मॉडल ने पूरे इनपुट को एक ही निश्चित वेक्टर में संपीड़ित किया, जिससे लंबे सीक्वेंस के लिए जानकारी खो गई। अटेंशन डिकोडर को सभी एनकोडर स्थितियों को देखने और प्रत्येक आउटपुट चरण में सबसे प्रासंगिक लोगों को भारित करने की अनुमति देता है।

Methods for this concept

Related concepts