ScholarGate
सहायक

IR के लिए भाषा मॉडल

पुनर्प्राप्ति के लिए भाषा मॉडलिंग दृष्टिकोण प्रत्येक दस्तावेज़ को पाठ के संभाव्य जनरेटर के रूप में मानता है और दस्तावेज़ों को इस आधार पर रैंक करता है कि उनके द्वारा क्वेरी उत्पन्न करने की कितनी संभावना है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

पुनर्प्राप्ति के लिए भाषा मॉडलिंग दृष्टिकोण में, प्रत्येक दस्तावेज़ को शब्दों पर एक संभाव्यता वितरण (उसका भाषा मॉडल) के साथ जोड़ा जाता है, और दस्तावेज़ों को इस संभावना से रैंक किया जाता है कि यह मॉडल देखी गई क्वेरी को उत्पन्न करेगा, जिसमें स्मूथिंग अनदेखे शब्दों में संभाव्यता द्रव्यमान को पुनर्वितरित करता है।

Scope

यह विषय पुनर्प्राप्ति पर लागू सांख्यिकीय भाषा मॉडल को शामिल करता है: क्वेरी संभाव्यता मॉडल, स्मूथिंग विधियाँ जैसे जेलाइनक-मर्सर और डिरिचलेट जो दस्तावेज़ से अनुपस्थित क्वेरी शब्दों को संभालते हैं, और प्रासंगिकता मॉडल जैसे एक्सटेंशन। यह बताता है कि एक दस्तावेज़ भाषा मॉडल का अनुमान कैसे लगाया जाता है, स्मूथिंग क्यों आवश्यक है, और यह ढाँचा वेक्टर स्पेस और संभाव्य प्रासंगिकता मॉडल से कैसे जुड़ता है और प्रतिस्पर्धा करता है। यह रैंकिंग के लिए शास्त्रीय जनरेटिव भाषा मॉडल पर विचार करता है न कि व्यापक न्यूरल और बड़े भाषा-मॉडल विधियों पर जिन्हें कहीं और कवर किया गया है।

Core questions

  • एकल दस्तावेज़ में शब्दों से भाषा मॉडल का अनुमान कैसे लगाया जाता है?
  • दस्तावेज़ मॉडल को स्मूथ क्यों किया जाना चाहिए, और स्मूथिंग विधियाँ क्या प्राप्त करती हैं?
  • क्वेरी संभाव्यता स्कोर tf-idf-शैली वेटिंग से कैसे संबंधित है?
  • प्रासंगिकता मॉडल शाब्दिक क्वेरी से परे सूचना की आवश्यकता के बारे में साक्ष्य को कैसे शामिल करते हैं?
  • जनरेटिव फ़्रेमिंग प्रासंगिकता की संभाव्यता-केंद्रित फ़्रेमिंग से कैसे तुलना करती है?

Key concepts

  • दस्तावेज़ भाषा मॉडल
  • क्वेरी संभाव्यता
  • शब्द संभावनाओं का अधिकतम संभाव्यता अनुमान
  • स्मूथिंग (जेलाइनक-मर्सर, डिरिचलेट)
  • संग्रह मॉडल इंटरपोलेशन
  • कुल्बैक-लीबलर डाइवर्जेंस रैंकिंग
  • प्रासंगिकता मॉडल
  • छद्म-प्रासंगिकता प्रतिक्रिया

Key theories

क्वेरी संभाव्यता मॉडल
प्रत्येक दस्तावेज़ एक भाषा मॉडल को परिभाषित करता है, और दस्तावेज़ों को उस मॉडल से क्वेरी उत्पन्न करने की संभावना से रैंक किया जाता है, जिससे पुनर्प्राप्ति स्पष्ट प्रासंगिकता वेटिंग के बजाय जनरेटिव संभाव्यता का प्रश्न बन जाती है।
दस्तावेज़ भाषा मॉडल का स्मूथिंग
चूंकि एक दस्तावेज़ भाषा का एक छोटा नमूना है, इसलिए उसमें अनुपस्थित शब्दों को अन्यथा शून्य संभाव्यता प्राप्त होगी; जेलाइनक-मर्सर और डिरिचलेट जैसी स्मूथिंग विधियाँ दस्तावेज़ मॉडल को संग्रह मॉडल के साथ इंटरपोलेट करती हैं, और स्मूथिंग की मात्रा प्रभावशीलता को दृढ़ता से प्रभावित करती है।
प्रासंगिकता मॉडल
प्रासंगिकता-आधारित भाषा मॉडल क्वेरी और शीर्ष-रैंक वाले दस्तावेज़ों से सूचना की आवश्यकता के एक मॉडल का अनुमान लगाते हैं, जो भाषा मॉडलिंग ढाँचे के भीतर क्वेरी विस्तार और छद्म-प्रासंगिकता प्रतिक्रिया का एक सैद्धांतिक रूप प्रदान करते हैं।

Clinical relevance

भाषा मॉडलिंग ने रैंकर्स का एक लचीला, सैद्धांतिक रूप से आधारित परिवार प्रदान किया जो अनुसंधान प्रणालियों में मानक बन गया और उत्पादन खोज को प्रभावित किया। इसके स्मूथिंग और प्रासंगिकता-मॉडल विचार प्रभावी क्वेरी विस्तार को रेखांकित करते हैं, और जनरेटिव परिप्रेक्ष्य आज के न्यूरल और बड़े भाषा-मॉडल पुनर्प्राप्ति विधियों का सीधे अनुमान लगाता है।

History

पोंटे और क्रॉफ्ट ने 1998 में पुनर्प्राप्ति के लिए भाषा मॉडलिंग दृष्टिकोण पेश किया, जिसमें रैंकिंग को जनरेटिव संभाव्यता के रूप में फिर से परिभाषित किया गया। झाई और लाफर्टी के 2004 के अध्ययन ने स्मूथिंग की केंद्रीय भूमिका स्थापित की और स्पष्ट किया कि कौन सी विधियाँ सबसे अच्छा काम करती हैं, और लावरेंको और क्रॉफ्ट के प्रासंगिकता मॉडल (2001) ने इस ढाँचे को क्वेरी विस्तार से जोड़ा। यह दृष्टिकोण 2000 के दशक में एक प्रमुख अनुसंधान प्रतिमान बन गया।

Key figures

  • W. Bruce Croft
  • ChengXiang Zhai
  • John Lafferty
  • Jay M. Ponte
  • Victor Lavrenko

Related topics

Seminal works

  • ponte1998
  • zhai2004
  • lavrenko2001

Frequently asked questions

भाषा-मॉडल पुनर्प्राप्ति में स्मूथिंग इतनी महत्वपूर्ण क्यों है?
एकल दस्तावेज़ भाषा का एक छोटा सा नमूना है, इसलिए कई प्रासंगिक क्वेरी शब्द इसमें दिखाई नहीं दे सकते हैं और उन्हें शून्य संभाव्यता प्राप्त होगी, जिससे स्कोर टूट जाएगा। स्मूथिंग एक संग्रह-व्यापी मॉडल से संभाव्यता द्रव्यमान उधार लेता है ताकि अनदेखे शब्दों को छोटी गैर-शून्य संभाव्यताएँ मिलें और प्रभावी ढंग से idf-जैसे वेटिंग को फिर से प्रस्तुत किया जा सके।
भाषा मॉडलिंग दृष्टिकोण संभाव्य प्रासंगिकता मॉडल से कैसे भिन्न है?
संभाव्य प्रासंगिकता मॉडल इस संभावना का अनुमान लगाते हैं कि एक दस्तावेज़ प्रासंगिक है, जबकि भाषा मॉडलिंग दृष्टिकोण इस संभावना का अनुमान लगाता है कि एक दस्तावेज़ का मॉडल क्वेरी उत्पन्न करेगा। वे अक्सर समान रैंकिंग उत्पन्न करते हैं लेकिन विभिन्न जनरेटिव बनाम प्रासंगिकता-केंद्रित मान्यताओं से शुरू होते हैं।

Methods for this concept

Related concepts