अटेंशन किस समस्या का समाधान करता है?

पहले के एनकोडर-डिकोडर मॉडल ने पूरे इनपुट को एक ही निश्चित वेक्टर में संपीड़ित किया, जिससे लंबे सीक्वेंस के लिए जानकारी खो गई। अटेंशन डिकोडर को सभी एनकोडर स्थितियों को देखने और प्रत्येक आउटपुट चरण में सबसे प्रासंगिक लोगों को भारित करने की अनुमति देता है।

सीक्वेंस-टू-सीक्वेंस मॉडल और ट्रांसफॉर्मर

न्यूरल आर्किटेक्चर जो एक इनपुट सीक्वेंस को एक आउटपुट सीक्वेंस में मैप करते हैं — रिकरेंट एनकोडर-डिकोडर, अटेंशन और ट्रांसफॉर्मर — जो अनुवाद, सारांशीकरण और आधुनिक जनरेटिव भाषा मॉडल का आधार हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक सीक्वेंस-टू-सीक्वेंस मॉडल एक न्यूरल नेटवर्क है जो एक इनपुट सीक्वेंस को एन्कोड करता है और एक आउटपुट सीक्वेंस उत्पन्न करता है, आमतौर पर दोनों को संरेखित करने के लिए एक अटेंशन मैकेनिज्म का उपयोग करता है।

Scope

वर्तमान एनएलपी के लिए केंद्रीय न्यूरल सीक्वेंस-मॉडलिंग आर्किटेक्चर को शामिल करता है: एलएसटीएम सहित रिकरेंट नेटवर्क, एनकोडर-डिकोडर फ्रेमवर्क, अटेंशन मैकेनिज्म और ट्रांसफॉर्मर। यह बताता है कि इन मॉडलों को कैसे प्रशिक्षित और डिकोड किया जाता है और क्यों ट्रांसफॉर्मर के सेल्फ-अटेंशन ने बड़े भाषा मॉडल तक स्केलिंग को सक्षम किया। एम्बेडिंग और विशिष्ट अनुप्रयोगों को संबंधित विषयों में शामिल किया गया है।

Core questions

एनकोडर-डिकोडर फ्रेमवर्क एक सीक्वेंस को दूसरे में कैसे बदलता है?
अटेंशन ने निश्चित आकार के एन्कोडिंग की बाधा को क्यों दूर किया?
सेल्फ-अटेंशन क्या गणना करता है, और ट्रांसफॉर्मर इतना स्केलेबल क्यों है?
एलएसटीएम और ट्रांसफॉर्मर को जनरेशन के लिए कैसे प्रशिक्षित और उपयोग किया जाता है?

Key concepts

रिकरेंट न्यूरल नेटवर्क
एलएसटीएम
एनकोडर-डिकोडर
अटेंशन मैकेनिज्म
सेल्फ-अटेंशन
ट्रांसफॉर्मर
पोजीशनल एन्कोडिंग
डिकोडिंग

Key theories

लॉन्ग शॉर्ट-टर्म मेमोरी: गेटेड़ मेमोरी सेल के साथ एक रिकरेंट आर्किटेक्चर जो वैनिशिंग-ग्रेडिएंट समस्या को कम करता है, जिससे सीक्वेंस में लंबी दूरी की निर्भरता सीखने में सक्षम होता है।
अटेंशन के साथ एनकोडर-डिकोडर: एक एनकोडर और डिकोडर के माध्यम से एक इनपुट को एक आउटपुट सीक्वेंस में मैप करना, अटेंशन के साथ डिकोडर को प्रत्येक चरण में प्रासंगिक इनपुट स्थितियों पर ध्यान केंद्रित करने की अनुमति मिलती है।
सेल्फ-अटेंशन ट्रांसफॉर्मर: सेल्फ-अटेंशन के साथ रिकरेंस को बदलना ताकि प्रत्येक टोकन सीधे हर दूसरे पर ध्यान दे, समानांतर प्रशिक्षण और बड़े भाषा मॉडल के पीछे की स्केलिंग को सक्षम करना।

History

एलएसटीएम (1997) ने लंबे सीक्वेंस के लिए रिकरेंट नेटवर्क को व्यावहारिक बनाया। अटेंशन के साथ सीक्वेंस-टू-सीक्वेंस लर्निंग (2014-2015) ने मशीन अनुवाद को बदल दिया, और 2017 के ट्रांसफॉर्मर ने रिकरेंस को सेल्फ-अटेंशन से बदल दिया, जिससे बड़े प्रीट्रेन्ड जनरेटिव मॉडल सक्षम हुए जो अब इस क्षेत्र पर हावी हैं।

Debates

रिकरेंस बनाम अटेंशन: क्या अनुक्रमिक रिकरेंस या पूरी तरह से समानांतर अटेंशन भाषा के लिए बेहतर आगमनात्मक पूर्वाग्रह है; ट्रांसफॉर्मर ने स्केलेबिलिटी पर काफी हद तक जीत हासिल की, हालांकि दक्षता संबंधी चिंताओं ने वैकल्पिक आर्किटेक्चर को जीवित रखा है।

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

अटेंशन किस समस्या का समाधान करता है?: पहले के एनकोडर-डिकोडर मॉडल ने पूरे इनपुट को एक ही निश्चित वेक्टर में संपीड़ित किया, जिससे लंबे सीक्वेंस के लिए जानकारी खो गई। अटेंशन डिकोडर को सभी एनकोडर स्थितियों को देखने और प्रत्येक आउटपुट चरण में सबसे प्रासंगिक लोगों को भारित करने की अनुमति देता है।