सूचना निष्कर्षण
असंरचित पाठ को संरचित डेटा में बदलना: नामित संस्थाओं, उनके बीच के संबंधों और जिन घटनाओं में वे भाग लेते हैं, उनका पता लगाना, ताकि दस्तावेज़ों को क्वेरी किया जा सके और समूहित किया जा सके।
Definition
सूचना निष्कर्षण असंरचित प्राकृतिक-भाषा पाठ से संरचित तथ्यों — संस्थाओं, संबंधों और घटनाओं — की स्वचालित पहचान है।
Scope
पाठ से संरचित जानकारी निकालने को शामिल करता है — नामित-संस्था पहचान, संबंध निष्कर्षण, घटना निष्कर्षण, और अस्थायी तथा टेम्पलेट भरना। यह नियम-आधारित और सीखे हुए दोनों दृष्टिकोणों और साझा कार्यों द्वारा स्थापित मूल्यांकन परंपराओं को संबोधित करता है। अंतर्निहित अनुक्रम-लेबलिंग मॉडल को पार्सिंग क्षेत्र में शामिल किया गया है।
Core questions
- पाठ में नामित संस्थाओं का पता कैसे लगाया जाता है और उन्हें कैसे वर्गीकृत किया जाता है?
- संस्थाओं के बीच संबंधों और घटनाओं को कैसे निकाला जाता है?
- साझा मूल्यांकनों ने कार्य और उसके मेट्रिक्स को कैसे आकार दिया?
- नियम-आधारित और सीखे हुए निष्कर्षण विधियों की तुलना कैसे की जाती है?
Key concepts
- नामित-संस्था पहचान
- संबंध निष्कर्षण
- घटना निष्कर्षण
- टेम्पलेट भरना
- सशर्त यादृच्छिक क्षेत्र
- दूरस्थ पर्यवेक्षण
- ऑन्टोलॉजी जनसंख्या
- मूल्यांकन अभियान
Key theories
- टेम्पलेट-भरने वाला सूचना निष्कर्षण
- निष्कर्षण को पाठ में पाई गई संस्थाओं और संबंधों के साथ संरचित टेम्पलेट भरने के रूप में तैयार करना, संदेश समझ सम्मेलनों में विकसित सूत्रीकरण।
- अनुक्रम-लेबलिंग निष्कर्षण
- संस्था और स्पैन निष्कर्षण को टोकन पर सशर्त यादृच्छिक क्षेत्रों और तंत्रिका टैगर जैसे मॉडल के साथ अनुक्रम लेबलिंग के रूप में प्रस्तुत करना।
History
सूचना निष्कर्षण को 1990 के दशक के संदेश समझ सम्मेलनों (Message Understanding Conferences) द्वारा आकार दिया गया था, जिसने नामित-संस्था और टेम्पलेट-भरने के कार्यों और उनके मूल्यांकन को परिभाषित किया। यह क्षेत्र हाथ से निर्मित पैटर्न से सशर्त यादृच्छिक क्षेत्रों (conditional random fields) जैसे सांख्यिकीय अनुक्रम मॉडल की ओर बढ़ा, और फिर बड़े पैमाने पर तंत्रिका और दूरस्थ रूप से पर्यवेक्षित निष्कर्षण की ओर।
Debates
- पर्यवेक्षित बनाम दूरस्थ रूप से पर्यवेक्षित निष्कर्षण
- क्या महंगी हाथ से लेबल की गई डेटा पर निर्भर रहना चाहिए या दूरस्थ पर्यवेक्षण के माध्यम से ज्ञान आधारों से बूटस्ट्रैप करना चाहिए, जो बड़े पैमाने पर होता है लेकिन शोर वाले लेबल पेश करता है।
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- नामित-संस्था पहचान क्या है?
- नामित-संस्था पहचान पाठ में उचित-नाम स्पैन का पता लगाती है और उन्हें वर्गीकृत करती है, जैसे कि लोग, संगठन और स्थान। यह आमतौर पर दस्तावेज़ों से संबंधों और घटनाओं को निकालने का पहला कदम होता है।