नामित इकाई पहचान क्या है?

नामित इकाई पहचान पाठ के उन हिस्सों को खोजने और वर्गीकृत करने का कार्य है जो वास्तविक दुनिया की संस्थाओं, जैसे कि लोग, संगठन, स्थान और तिथियों का नाम लेते हैं। यह आमतौर पर सूचना निष्कर्षण में पहला कदम होता है, क्योंकि कई संबंध और घटनाएँ इन संस्थाओं के संदर्भ में बताई जाती हैं।

सूचना निष्कर्षण का मूल्यांकन कैसे किया जाता है?

निष्कर्षण का मूल्यांकन आमतौर पर परिशुद्धता (निष्कर्षित वस्तुओं का कितना अंश सही है) और रिकॉल (सही वस्तुओं का कितना अंश निष्कर्षित किया गया था) के साथ किया जाता है, जिसे अक्सर F-माप में संयोजित किया जाता है। यह बहुत कम निष्कर्षण और गलत जानकारी निष्कर्षण के बीच के व्यापार-बंद को दर्शाता है।

सूचना निष्कर्षण

सूचना निष्कर्षण असंरचित प्राकृतिक-भाषा पाठ के भीतर संरचित जानकारी—इकाइयों, संबंधों और घटनाओं—को स्वचालित रूप से पहचानने का कार्य है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

सूचना निष्कर्षण असंरचित पाठ को संरचित प्रतिनिधित्व में परिवर्तित करता है, जिसमें इकाइयों के उल्लेखों, उनके बीच के संबंधों और जिन घटनाओं में वे भाग लेते हैं, का पता लगाकर और उन्हें वर्गीकृत करके, अक्सर एक डेटाबेस या ज्ञान आधार को पॉपुलेट करने के लिए।

Scope

यह विषय पाठ से संरचित तथ्यों के निष्कर्षण को शामिल करता है: नामित इकाई पहचान, संबंध निष्कर्षण, घटना निष्कर्षण, कोरफरेंस रिज़ॉल्यूशन, और टेम्पलेट्स या ज्ञान आधारों का पॉपुलेशन। यह नियम-आधारित, सांख्यिकीय अनुक्रम-लेबलिंग, और पर्यवेक्षित और दूरस्थ रूप से पर्यवेक्षित दृष्टिकोणों, और परिशुद्धता और रिकॉल द्वारा निष्कर्षण के मूल्यांकन को संबोधित करता है। निष्कर्षणकर्ताओं को प्रशिक्षित करने के लिए उपयोग की जाने वाली सामान्य मशीन-लर्निंग विधियाँ मशीन-लर्निंग उपक्षेत्र से संबंधित हैं; यहाँ जोर निष्कर्षण कार्यों और उनकी भाषाई चुनौतियों पर है।

Core questions

पाठ में व्यक्तियों, संगठनों और स्थानों जैसी संस्थाओं के उल्लेखों का पता कैसे लगाया और वर्गीकृत किया जाता है?
इकाइयों के बीच संबंधों की पहचान और निष्कर्षण कैसे किया जाता है?
घटनाओं और उनके प्रतिभागियों को कैसे पहचाना जाता है, और कोरफरेंस को कैसे हल किया जाता है?
निष्कर्षण प्रदर्शन का मूल्यांकन कैसे किया जाता है, और परिशुद्धता और रिकॉल के बीच क्या व्यापार-बंद उत्पन्न होते हैं?

Key concepts

नामित इकाई पहचान
संबंध निष्कर्षण
घटना निष्कर्षण
कोरफरेंस रिज़ॉल्यूशन
BIO अनुक्रम लेबलिंग
टेम्पलेट भरना
ज्ञान आधार पॉपुलेशन
परिशुद्धता और रिकॉल

Key theories

अनुक्रम लेबलिंग के रूप में नामित इकाई पहचान: इकाई उल्लेखों की पहचान को आमतौर पर प्रत्येक टोकन को एक टैग (उदाहरण के लिए, BIO योजना का उपयोग करके) के साथ लेबल करने के रूप में तैयार किया जाता है, जिसे अनुक्रम मॉडल द्वारा हल किया जाता है जो स्पैन और उनके प्रकारों को चिह्नित करने के लिए संदर्भ का उपयोग करते हैं।
संबंध और घटना निष्कर्षण: इकाइयों से परे, सूचना निष्कर्षण यह पहचानता है कि इकाइयाँ कैसे संबंधित हैं और कौन सी घटनाएँ घटित होती हैं, संरचित टेम्पलेट्स को भरते हुए; इस कार्य-संचालित फ्रेमिंग को मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस द्वारा क्रिस्टलीकृत किया गया था।
ज्ञान आधार पॉपुलेशन: निष्कर्षित इकाइयों और संबंधों को एक ज्ञान आधार बनाने या विस्तारित करने के लिए एकत्रित किया जा सकता है, उल्लेखों को विहित इकाइयों से जोड़कर और बड़े पाठ संग्रहों से तथ्यों को संचित करके।

Clinical relevance

सूचना निष्कर्षण पाठ को बायोमेडिकल साहित्य खनन, वित्तीय और समाचार विश्लेषण, ज्ञान ग्राफ बनाने, और दस्तावेजों से डेटाबेस को पॉपुलेट करने जैसे अनुप्रयोगों के लिए क्वेरी करने योग्य डेटा में बदल देता है, जिससे बड़ी मात्रा में असंरचित पाठ डाउनस्ट्रीम सिस्टम द्वारा उपयोग योग्य हो जाता है।

History

सूचना निष्कर्षण को 1980 के दशक के अंत और 1990 के दशक के मैसेज अंडरस्टैंडिंग कॉन्फ्रेंस (MUC) द्वारा आकार दिया गया था, जिसने नामित इकाई पहचान और टेम्पलेट भरने जैसे कार्यों को परिभाषित किया और मानकीकृत मूल्यांकन पेश किया। यह क्षेत्र हाथ से निर्मित नियमों से सांख्यिकीय अनुक्रम मॉडल और बाद में तंत्रिका विधियों की ओर बढ़ा, जबकि इसकी कार्य संरचना को बनाए रखा।

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

नामित इकाई पहचान क्या है?: नामित इकाई पहचान पाठ के उन हिस्सों को खोजने और वर्गीकृत करने का कार्य है जो वास्तविक दुनिया की संस्थाओं, जैसे कि लोग, संगठन, स्थान और तिथियों का नाम लेते हैं। यह आमतौर पर सूचना निष्कर्षण में पहला कदम होता है, क्योंकि कई संबंध और घटनाएँ इन संस्थाओं के संदर्भ में बताई जाती हैं।
सूचना निष्कर्षण का मूल्यांकन कैसे किया जाता है?: निष्कर्षण का मूल्यांकन आमतौर पर परिशुद्धता (निष्कर्षित वस्तुओं का कितना अंश सही है) और रिकॉल (सही वस्तुओं का कितना अंश निष्कर्षित किया गया था) के साथ किया जाता है, जिसे अक्सर F-माप में संयोजित किया जाता है। यह बहुत कम निष्कर्षण और गलत जानकारी निष्कर्षण के बीच के व्यापार-बंद को दर्शाता है।