नामित-संस्था पहचान क्या है?

नामित-संस्था पहचान पाठ में उचित-नाम स्पैन का पता लगाती है और उन्हें वर्गीकृत करती है, जैसे कि लोग, संगठन और स्थान। यह आमतौर पर दस्तावेज़ों से संबंधों और घटनाओं को निकालने का पहला कदम होता है।

सूचना निष्कर्षण

असंरचित पाठ को संरचित डेटा में बदलना: नामित संस्थाओं, उनके बीच के संबंधों और जिन घटनाओं में वे भाग लेते हैं, उनका पता लगाना, ताकि दस्तावेज़ों को क्वेरी किया जा सके और समूहित किया जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

सूचना निष्कर्षण असंरचित प्राकृतिक-भाषा पाठ से संरचित तथ्यों — संस्थाओं, संबंधों और घटनाओं — की स्वचालित पहचान है।

Scope

पाठ से संरचित जानकारी निकालने को शामिल करता है — नामित-संस्था पहचान, संबंध निष्कर्षण, घटना निष्कर्षण, और अस्थायी तथा टेम्पलेट भरना। यह नियम-आधारित और सीखे हुए दोनों दृष्टिकोणों और साझा कार्यों द्वारा स्थापित मूल्यांकन परंपराओं को संबोधित करता है। अंतर्निहित अनुक्रम-लेबलिंग मॉडल को पार्सिंग क्षेत्र में शामिल किया गया है।

Core questions

पाठ में नामित संस्थाओं का पता कैसे लगाया जाता है और उन्हें कैसे वर्गीकृत किया जाता है?
संस्थाओं के बीच संबंधों और घटनाओं को कैसे निकाला जाता है?
साझा मूल्यांकनों ने कार्य और उसके मेट्रिक्स को कैसे आकार दिया?
नियम-आधारित और सीखे हुए निष्कर्षण विधियों की तुलना कैसे की जाती है?

Key concepts

नामित-संस्था पहचान
संबंध निष्कर्षण
घटना निष्कर्षण
टेम्पलेट भरना
सशर्त यादृच्छिक क्षेत्र
दूरस्थ पर्यवेक्षण
ऑन्टोलॉजी जनसंख्या
मूल्यांकन अभियान

Key theories

टेम्पलेट-भरने वाला सूचना निष्कर्षण: निष्कर्षण को पाठ में पाई गई संस्थाओं और संबंधों के साथ संरचित टेम्पलेट भरने के रूप में तैयार करना, संदेश समझ सम्मेलनों में विकसित सूत्रीकरण।
अनुक्रम-लेबलिंग निष्कर्षण: संस्था और स्पैन निष्कर्षण को टोकन पर सशर्त यादृच्छिक क्षेत्रों और तंत्रिका टैगर जैसे मॉडल के साथ अनुक्रम लेबलिंग के रूप में प्रस्तुत करना।

History

सूचना निष्कर्षण को 1990 के दशक के संदेश समझ सम्मेलनों (Message Understanding Conferences) द्वारा आकार दिया गया था, जिसने नामित-संस्था और टेम्पलेट-भरने के कार्यों और उनके मूल्यांकन को परिभाषित किया। यह क्षेत्र हाथ से निर्मित पैटर्न से सशर्त यादृच्छिक क्षेत्रों (conditional random fields) जैसे सांख्यिकीय अनुक्रम मॉडल की ओर बढ़ा, और फिर बड़े पैमाने पर तंत्रिका और दूरस्थ रूप से पर्यवेक्षित निष्कर्षण की ओर।

Debates

पर्यवेक्षित बनाम दूरस्थ रूप से पर्यवेक्षित निष्कर्षण: क्या महंगी हाथ से लेबल की गई डेटा पर निर्भर रहना चाहिए या दूरस्थ पर्यवेक्षण के माध्यम से ज्ञान आधारों से बूटस्ट्रैप करना चाहिए, जो बड़े पैमाने पर होता है लेकिन शोर वाले लेबल पेश करता है।

Key figures

Ralph Grishman
Beth Sundheim
Andrew McCallum

Seminal works

grishman1996
lafferty2001

Frequently asked questions

नामित-संस्था पहचान क्या है?: नामित-संस्था पहचान पाठ में उचित-नाम स्पैन का पता लगाती है और उन्हें वर्गीकृत करती है, जैसे कि लोग, संगठन और स्थान। यह आमतौर पर दस्तावेज़ों से संबंधों और घटनाओं को निकालने का पहला कदम होता है।