ما هو التعرف على الكيانات المسماة؟

التعرف على الكيانات المسماة هو مهمة العثور على أجزاء من النص التي تسمي كيانات من العالم الحقيقي، مثل الأشخاص والمنظمات والمواقع والتواريخ، وتصنيفها. وعادة ما تكون هذه هي الخطوة الأولى في استخلاص المعلومات، حيث يتم ذكر العديد من العلاقات والأحداث بناءً على هذه الكيانات.

كيف يتم تقييم استخلاص المعلومات؟

يتم تقييم الاستخلاص عادةً بالدقة (نسبة العناصر المستخلصة الصحيحة) والاستدعاء (نسبة العناصر الصحيحة التي تم استخلاصها)، وغالبًا ما يتم دمجهما في مقياس F. وهذا يعكس المفاضلة بين استخلاص القليل جدًا واستخلاص معلومات غير صحيحة.

استخلاص المعلومات

استخلاص المعلومات هو مهمة التحديد التلقائي للمعلومات المهيكلة—الكيانات، والعلاقات، والأحداث—ضمن النصوص غير المهيكلة باللغة الطبيعية.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

يحول استخلاص المعلومات النصوص غير المهيكلة إلى تمثيلات مهيكلة عن طريق الكشف عن وتصنيف الإشارات إلى الكيانات، والعلاقات فيما بينها، والأحداث التي تشارك فيها، غالبًا لتعبئة قاعدة بيانات أو قاعدة معرفة.

Scope

يغطي هذا الموضوع استخلاص الحقائق المهيكلة من النصوص: التعرف على الكيانات المسماة، واستخلاص العلاقات، واستخلاص الأحداث، وحل الإشارة المرجعية، وتعبئة القوالب أو قواعد المعرفة. ويتناول الأساليب القائمة على القواعد، وتصنيف التسلسلات الإحصائي، والأساليب الخاضعة للإشراف والإشراف عن بعد، وتقييم الاستخلاص بالدقة والاستدعاء. تنتمي أساليب التعلم الآلي العامة المستخدمة لتدريب المستخلصات إلى مجال التعلم الآلي الفرعي؛ هنا ينصب التركيز على مهام الاستخلاص وتحدياتها اللغوية.

Core questions

كيف يتم الكشف عن وتصنيف الإشارات إلى الكيانات مثل الأشخاص والمنظمات والمواقع في النص؟
كيف يتم تحديد واستخلاص العلاقات بين الكيانات؟
كيف يتم التعرف على الأحداث والمشاركين فيها، وكيف يتم حل الإشارة المرجعية؟
كيف يتم تقييم أداء الاستخلاص، وما هي المفاضلات التي تنشأ بين الدقة والاستدعاء؟

Key concepts

التعرف على الكيانات المسماة
استخلاص العلاقات
استخلاص الأحداث
حل الإشارة المرجعية
تصنيف تسلسل BIO
تعبئة القوالب
تعبئة قاعدة المعرفة
الدقة والاستدعاء

Key theories

التعرف على الكيانات المسماة كتصنيف تسلسلي: يُصاغ تحديد إشارات الكيانات عادةً على أنه تصنيف لكل رمز بعلامة (على سبيل المثال، باستخدام مخطط BIO)، ويتم حله بواسطة نماذج التسلسل التي تستغل السياق لتحديد الامتدادات وأنواعها.
استخلاص العلاقات والأحداث: بالإضافة إلى الكيانات، يحدد استخلاص المعلومات كيفية ارتباط الكيانات والأحداث التي تحدث، مع تعبئة القوالب المهيكلة؛ وقد تبلور هذا الإطار الموجه نحو المهام من خلال مؤتمرات فهم الرسائل.
تعبئة قاعدة المعرفة: يمكن تجميع الكيانات والعلاقات المستخلصة لبناء أو توسيع قاعدة معرفة، وربط الإشارات بالكيانات القانونية وتجميع الحقائق من مجموعات نصية كبيرة.

Clinical relevance

يحول استخلاص المعلومات النصوص إلى بيانات قابلة للاستعلام لتطبيقات مثل استكشاف الأدبيات الطبية الحيوية، والتحليلات المالية والإخبارية، وبناء الرسوم البيانية المعرفية، وتعبئة قواعد البيانات من الوثائق، مما يجعل كميات كبيرة من النصوص غير المهيكلة قابلة للاستخدام بواسطة الأنظمة اللاحقة.

History

تأثر استخلاص المعلومات بمؤتمرات فهم الرسائل (MUC) في أواخر الثمانينيات والتسعينيات، والتي حددت مهامًا مثل التعرف على الكيانات المسماة وتعبئة القوالب وقدمت تقييمًا موحدًا. انتقل المجال من القواعد المصممة يدويًا إلى نماذج التسلسل الإحصائية ثم الأساليب العصبية، مع الحفاظ على هيكل مهامه.

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

ما هو التعرف على الكيانات المسماة؟: التعرف على الكيانات المسماة هو مهمة العثور على أجزاء من النص التي تسمي كيانات من العالم الحقيقي، مثل الأشخاص والمنظمات والمواقع والتواريخ، وتصنيفها. وعادة ما تكون هذه هي الخطوة الأولى في استخلاص المعلومات، حيث يتم ذكر العديد من العلاقات والأحداث بناءً على هذه الكيانات.
كيف يتم تقييم استخلاص المعلومات؟: يتم تقييم الاستخلاص عادةً بالدقة (نسبة العناصر المستخلصة الصحيحة) والاستدعاء (نسبة العناصر الصحيحة التي تم استخلاصها)، وغالبًا ما يتم دمجهما في مقياس F. وهذا يعكس المفاضلة بين استخلاص القليل جدًا واستخلاص معلومات غير صحيحة.