सीक्वेंस-टू-सीक्वेंस मॉडल और ट्रांसफॉर्मर
न्यूरल आर्किटेक्चर जो एक इनपुट सीक्वेंस को एक आउटपुट सीक्वेंस में मैप करते हैं — रिकरेंट एनकोडर-डिकोडर, अटेंशन और ट्रांसफॉर्मर — जो अनुवाद, सारांशीकरण और आधुनिक जनरेटिव भाषा मॉडल का आधार हैं।
Definition
एक सीक्वेंस-टू-सीक्वेंस मॉडल एक न्यूरल नेटवर्क है जो एक इनपुट सीक्वेंस को एन्कोड करता है और एक आउटपुट सीक्वेंस उत्पन्न करता है, आमतौर पर दोनों को संरेखित करने के लिए एक अटेंशन मैकेनिज्म का उपयोग करता है।
Scope
वर्तमान एनएलपी के लिए केंद्रीय न्यूरल सीक्वेंस-मॉडलिंग आर्किटेक्चर को शामिल करता है: एलएसटीएम सहित रिकरेंट नेटवर्क, एनकोडर-डिकोडर फ्रेमवर्क, अटेंशन मैकेनिज्म और ट्रांसफॉर्मर। यह बताता है कि इन मॉडलों को कैसे प्रशिक्षित और डिकोड किया जाता है और क्यों ट्रांसफॉर्मर के सेल्फ-अटेंशन ने बड़े भाषा मॉडल तक स्केलिंग को सक्षम किया। एम्बेडिंग और विशिष्ट अनुप्रयोगों को संबंधित विषयों में शामिल किया गया है।
Core questions
- एनकोडर-डिकोडर फ्रेमवर्क एक सीक्वेंस को दूसरे में कैसे बदलता है?
- अटेंशन ने निश्चित आकार के एन्कोडिंग की बाधा को क्यों दूर किया?
- सेल्फ-अटेंशन क्या गणना करता है, और ट्रांसफॉर्मर इतना स्केलेबल क्यों है?
- एलएसटीएम और ट्रांसफॉर्मर को जनरेशन के लिए कैसे प्रशिक्षित और उपयोग किया जाता है?
Key concepts
- रिकरेंट न्यूरल नेटवर्क
- एलएसटीएम
- एनकोडर-डिकोडर
- अटेंशन मैकेनिज्म
- सेल्फ-अटेंशन
- ट्रांसफॉर्मर
- पोजीशनल एन्कोडिंग
- डिकोडिंग
Key theories
- लॉन्ग शॉर्ट-टर्म मेमोरी
- गेटेड़ मेमोरी सेल के साथ एक रिकरेंट आर्किटेक्चर जो वैनिशिंग-ग्रेडिएंट समस्या को कम करता है, जिससे सीक्वेंस में लंबी दूरी की निर्भरता सीखने में सक्षम होता है।
- अटेंशन के साथ एनकोडर-डिकोडर
- एक एनकोडर और डिकोडर के माध्यम से एक इनपुट को एक आउटपुट सीक्वेंस में मैप करना, अटेंशन के साथ डिकोडर को प्रत्येक चरण में प्रासंगिक इनपुट स्थितियों पर ध्यान केंद्रित करने की अनुमति मिलती है।
- सेल्फ-अटेंशन ट्रांसफॉर्मर
- सेल्फ-अटेंशन के साथ रिकरेंस को बदलना ताकि प्रत्येक टोकन सीधे हर दूसरे पर ध्यान दे, समानांतर प्रशिक्षण और बड़े भाषा मॉडल के पीछे की स्केलिंग को सक्षम करना।
History
एलएसटीएम (1997) ने लंबे सीक्वेंस के लिए रिकरेंट नेटवर्क को व्यावहारिक बनाया। अटेंशन के साथ सीक्वेंस-टू-सीक्वेंस लर्निंग (2014-2015) ने मशीन अनुवाद को बदल दिया, और 2017 के ट्रांसफॉर्मर ने रिकरेंस को सेल्फ-अटेंशन से बदल दिया, जिससे बड़े प्रीट्रेन्ड जनरेटिव मॉडल सक्षम हुए जो अब इस क्षेत्र पर हावी हैं।
Debates
- रिकरेंस बनाम अटेंशन
- क्या अनुक्रमिक रिकरेंस या पूरी तरह से समानांतर अटेंशन भाषा के लिए बेहतर आगमनात्मक पूर्वाग्रह है; ट्रांसफॉर्मर ने स्केलेबिलिटी पर काफी हद तक जीत हासिल की, हालांकि दक्षता संबंधी चिंताओं ने वैकल्पिक आर्किटेक्चर को जीवित रखा है।
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- अटेंशन किस समस्या का समाधान करता है?
- पहले के एनकोडर-डिकोडर मॉडल ने पूरे इनपुट को एक ही निश्चित वेक्टर में संपीड़ित किया, जिससे लंबे सीक्वेंस के लिए जानकारी खो गई। अटेंशन डिकोडर को सभी एनकोडर स्थितियों को देखने और प्रत्येक आउटपुट चरण में सबसे प्रासंगिक लोगों को भारित करने की अनुमति देता है।