स्व-पर्यवेक्षित और प्रतिनिधित्व अधिगम
स्व-पर्यवेक्षित और प्रतिनिधित्व अधिगम, बिना लेबल वाले डेटा से उपयोगी विशेषताएँ बनाते हैं, जो डेटा से ही पूर्वानुमान कार्य गढ़ते हैं, और ऐसे प्रतिनिधित्व उत्पन्न करते हैं जो कई अनुवर्ती समस्याओं में स्थानांतरित हो सकते हैं।
Definition
स्व-पर्यवेक्षित अधिगम एक मॉडल को ऐसे कार्यों पर प्रशिक्षित करता है जिनके लेबल इनपुट से स्वचालित रूप से प्राप्त होते हैं, जैसे डेटा के एक छिपे हुए हिस्से का पूर्वानुमान लगाना या दो संवर्धित दृश्यों को एक ही वस्तु के रूप में पहचानना, ताकि मॉडल बाद के पर्यवेक्षित कार्यों के लिए उपयोग किए जा सकने वाले सामान्य-उद्देश्यीय प्रतिनिधित्व सीख सके।
Scope
यह विषय मानव लेबल के बिना प्रतिनिधित्व सीखने को शामिल करता है: ऑटोएन्कोडर जो इनपुट को संपीड़ित और पुनर्निर्मित करते हैं, कंट्रास्टिव विधियाँ जो संबंधित विचारों को एक साथ लाती हैं और असंबंधित विचारों को अलग करती हैं, और प्रीटेक्स्ट या मास्क्ड-प्रेडिक्शन कार्य जो बिना लेबल वाले डेटा को पर्यवेक्षित संकेतों में बदलते हैं। यह बताता है कि अच्छे प्रतिनिधित्व क्यों मायने रखते हैं और पूर्व-प्रशिक्षित विशेषताएँ विभिन्न कार्यों में कैसे स्थानांतरित होती हैं।
Core questions
- बिना लेबल वाले डेटा से पर्यवेक्षित-शैली के प्रशिक्षण संकेत कैसे उत्पन्न किए जा सकते हैं?
- एक सीखा हुआ प्रतिनिधित्व उपयोगी और हस्तांतरणीय क्या बनाता है?
- कंट्रास्टिव और पुनर्निर्माण उद्देश्य कैसे भिन्न होते हैं?
- बड़े बिना लेबल वाले कॉर्पोरा पर प्रीट्रेनिंग अनुवर्ती कार्यों में क्यों मदद करती है?
Key theories
- प्रतिनिधित्व अधिगम
- सीखे गए प्रतिनिधित्व की गुणवत्ता, क्लासिफायर के चुनाव के बजाय, अक्सर प्रदर्शन को निर्धारित करती है, इसलिए भिन्नता के अंतर्निहित कारकों को अलग करने वाली विशेषताओं को सीखना एक केंद्रीय लक्ष्य है।
- ऑटोएन्कोडिंग और पुनर्निर्माण
- ऑटोएन्कोडर एक बॉटलनेक के माध्यम से अपने इनपुट को पुनर्निर्मित करके कॉम्पैक्ट कोड सीखते हैं, और डीनोइजिंग ऑटोएन्कोडर जैसे वेरिएंट दूषित इनपुट को पुनर्निर्मित करके मजबूत विशेषताएँ सीखते हैं।
- प्रीट्रेनिंग और स्थानांतरण
- स्व-पर्यवेक्षित उद्देश्यों के साथ बड़े बिना लेबल वाले डेटासेट पर पूर्व-प्रशिक्षित मॉडल व्यापक रूप से उपयोगी विशेषताएँ सीखते हैं जो कम लेबल वाले डेटा के साथ कई अनुवर्ती कार्यों में स्थानांतरित होती हैं, जो आधुनिक प्रणालियों के लिए एक केंद्रीय प्रतिमान है।
Clinical relevance
स्व-पर्यवेक्षित प्रीट्रेनिंग आधुनिक भाषा और दृष्टि प्रणालियों की नींव है, जो मॉडलों को सीमित लेबल वाले विशिष्ट कार्यों के अनुकूल होने से पहले विशाल बिना लेबल वाले कॉर्पोरा से ज्ञान अवशोषित करने की अनुमति देती है; यह मजबूत प्रदर्शन के लिए आवश्यक लेबल वाले डेटा को नाटकीय रूप से कम करती है और कृत्रिम बुद्धिमत्ता में हाल की प्रगति का एक प्रमुख कारण है।
History
प्रतिनिधित्व अधिगम 2000 के दशक में ऑटोएन्कोडर और गहरे नेटवर्क की अप्रशिक्षित प्रीट्रेनिंग से विकसित हुआ। स्व-पर्यवेक्षित उद्देश्य, जिसमें भाषा में मास्क्ड प्रेडिक्शन और दृष्टि में कंट्रास्टिव अधिगम शामिल हैं, बाद में शक्तिशाली सामान्य-उद्देश्यीय प्रतिनिधित्व सीखने में सक्षम साबित हुए, जो बड़े मॉडलों को प्रीट्रेन करने के लिए प्रमुख दृष्टिकोण बन गए।
Key figures
- Yoshua Bengio
- Geoffrey Hinton
- Yann LeCun
Related topics
Seminal works
- bengio2013
- goodfellow2016
- lecun2015
Frequently asked questions
- स्व-पर्यवेक्षित अधिगम अप्रशिक्षित अधिगम से कैसे भिन्न है?
- स्व-पर्यवेक्षित अधिगम अप्रशिक्षित अधिगम का एक रूप है जिसमें मॉडल को एक पर्यवेक्षित-शैली के उद्देश्य के साथ प्रशिक्षित किया जाता है जिसके लक्ष्य डेटा से स्वचालित रूप से उत्पन्न होते हैं, उदाहरण के लिए इनपुट के एक हिस्से को छिपाकर और उसका पूर्वानुमान लगाकर। यह कोई मानव लेबल का उपयोग नहीं करता है लेकिन फिर भी अधिगम को पूर्वानुमान के रूप में प्रस्तुत करता है।
- एक अच्छा प्रतिनिधित्व इतना मूल्यवान क्यों है?
- एक बार जब डेटा को एक प्रतिनिधित्व में एन्कोड किया जाता है जो उनकी आवश्यक संरचना को पकड़ता है, तो सरल मॉडल भी अच्छा प्रदर्शन कर सकते हैं, और वही प्रतिनिधित्व कई कार्यों को पूरा कर सकता है। बिना लेबल वाले डेटा से ऐसे हस्तांतरणीय विशेषताएँ सीखना ही प्रीट्रेनिंग को इतना प्रभावी बनाता है।