ScholarGate
सहायक

सूचना निष्कर्षण

असंरचित पाठ को संरचित डेटा में बदलना: नामित संस्थाओं, उनके बीच के संबंधों और जिन घटनाओं में वे भाग लेते हैं, उनका पता लगाना, ताकि दस्तावेज़ों को क्वेरी किया जा सके और समूहित किया जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सूचना निष्कर्षण असंरचित प्राकृतिक-भाषा पाठ से संरचित तथ्यों — संस्थाओं, संबंधों और घटनाओं — की स्वचालित पहचान है।

Scope

पाठ से संरचित जानकारी निकालने को शामिल करता है — नामित-संस्था पहचान, संबंध निष्कर्षण, घटना निष्कर्षण, और अस्थायी तथा टेम्पलेट भरना। यह नियम-आधारित और सीखे हुए दोनों दृष्टिकोणों और साझा कार्यों द्वारा स्थापित मूल्यांकन परंपराओं को संबोधित करता है। अंतर्निहित अनुक्रम-लेबलिंग मॉडल को पार्सिंग क्षेत्र में शामिल किया गया है।

Core questions

  • पाठ में नामित संस्थाओं का पता कैसे लगाया जाता है और उन्हें कैसे वर्गीकृत किया जाता है?
  • संस्थाओं के बीच संबंधों और घटनाओं को कैसे निकाला जाता है?
  • साझा मूल्यांकनों ने कार्य और उसके मेट्रिक्स को कैसे आकार दिया?
  • नियम-आधारित और सीखे हुए निष्कर्षण विधियों की तुलना कैसे की जाती है?

Key concepts

  • नामित-संस्था पहचान
  • संबंध निष्कर्षण
  • घटना निष्कर्षण
  • टेम्पलेट भरना
  • सशर्त यादृच्छिक क्षेत्र
  • दूरस्थ पर्यवेक्षण
  • ऑन्टोलॉजी जनसंख्या
  • मूल्यांकन अभियान

Key theories

टेम्पलेट-भरने वाला सूचना निष्कर्षण
निष्कर्षण को पाठ में पाई गई संस्थाओं और संबंधों के साथ संरचित टेम्पलेट भरने के रूप में तैयार करना, संदेश समझ सम्मेलनों में विकसित सूत्रीकरण।
अनुक्रम-लेबलिंग निष्कर्षण
संस्था और स्पैन निष्कर्षण को टोकन पर सशर्त यादृच्छिक क्षेत्रों और तंत्रिका टैगर जैसे मॉडल के साथ अनुक्रम लेबलिंग के रूप में प्रस्तुत करना।

History

सूचना निष्कर्षण को 1990 के दशक के संदेश समझ सम्मेलनों (Message Understanding Conferences) द्वारा आकार दिया गया था, जिसने नामित-संस्था और टेम्पलेट-भरने के कार्यों और उनके मूल्यांकन को परिभाषित किया। यह क्षेत्र हाथ से निर्मित पैटर्न से सशर्त यादृच्छिक क्षेत्रों (conditional random fields) जैसे सांख्यिकीय अनुक्रम मॉडल की ओर बढ़ा, और फिर बड़े पैमाने पर तंत्रिका और दूरस्थ रूप से पर्यवेक्षित निष्कर्षण की ओर।

Debates

पर्यवेक्षित बनाम दूरस्थ रूप से पर्यवेक्षित निष्कर्षण
क्या महंगी हाथ से लेबल की गई डेटा पर निर्भर रहना चाहिए या दूरस्थ पर्यवेक्षण के माध्यम से ज्ञान आधारों से बूटस्ट्रैप करना चाहिए, जो बड़े पैमाने पर होता है लेकिन शोर वाले लेबल पेश करता है।

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

नामित-संस्था पहचान क्या है?
नामित-संस्था पहचान पाठ में उचित-नाम स्पैन का पता लगाती है और उन्हें वर्गीकृत करती है, जैसे कि लोग, संगठन और स्थान। यह आमतौर पर दस्तावेज़ों से संबंधों और घटनाओं को निकालने का पहला कदम होता है।

Methods for this concept

Related concepts