استخلاص المعلومات
استخلاص المعلومات هو مهمة التحديد التلقائي للمعلومات المهيكلة—الكيانات، والعلاقات، والأحداث—ضمن النصوص غير المهيكلة باللغة الطبيعية.
Definition
يحول استخلاص المعلومات النصوص غير المهيكلة إلى تمثيلات مهيكلة عن طريق الكشف عن وتصنيف الإشارات إلى الكيانات، والعلاقات فيما بينها، والأحداث التي تشارك فيها، غالبًا لتعبئة قاعدة بيانات أو قاعدة معرفة.
Scope
يغطي هذا الموضوع استخلاص الحقائق المهيكلة من النصوص: التعرف على الكيانات المسماة، واستخلاص العلاقات، واستخلاص الأحداث، وحل الإشارة المرجعية، وتعبئة القوالب أو قواعد المعرفة. ويتناول الأساليب القائمة على القواعد، وتصنيف التسلسلات الإحصائي، والأساليب الخاضعة للإشراف والإشراف عن بعد، وتقييم الاستخلاص بالدقة والاستدعاء. تنتمي أساليب التعلم الآلي العامة المستخدمة لتدريب المستخلصات إلى مجال التعلم الآلي الفرعي؛ هنا ينصب التركيز على مهام الاستخلاص وتحدياتها اللغوية.
Core questions
- كيف يتم الكشف عن وتصنيف الإشارات إلى الكيانات مثل الأشخاص والمنظمات والمواقع في النص؟
- كيف يتم تحديد واستخلاص العلاقات بين الكيانات؟
- كيف يتم التعرف على الأحداث والمشاركين فيها، وكيف يتم حل الإشارة المرجعية؟
- كيف يتم تقييم أداء الاستخلاص، وما هي المفاضلات التي تنشأ بين الدقة والاستدعاء؟
Key concepts
- التعرف على الكيانات المسماة
- استخلاص العلاقات
- استخلاص الأحداث
- حل الإشارة المرجعية
- تصنيف تسلسل BIO
- تعبئة القوالب
- تعبئة قاعدة المعرفة
- الدقة والاستدعاء
Key theories
- التعرف على الكيانات المسماة كتصنيف تسلسلي
- يُصاغ تحديد إشارات الكيانات عادةً على أنه تصنيف لكل رمز بعلامة (على سبيل المثال، باستخدام مخطط BIO)، ويتم حله بواسطة نماذج التسلسل التي تستغل السياق لتحديد الامتدادات وأنواعها.
- استخلاص العلاقات والأحداث
- بالإضافة إلى الكيانات، يحدد استخلاص المعلومات كيفية ارتباط الكيانات والأحداث التي تحدث، مع تعبئة القوالب المهيكلة؛ وقد تبلور هذا الإطار الموجه نحو المهام من خلال مؤتمرات فهم الرسائل.
- تعبئة قاعدة المعرفة
- يمكن تجميع الكيانات والعلاقات المستخلصة لبناء أو توسيع قاعدة معرفة، وربط الإشارات بالكيانات القانونية وتجميع الحقائق من مجموعات نصية كبيرة.
Clinical relevance
يحول استخلاص المعلومات النصوص إلى بيانات قابلة للاستعلام لتطبيقات مثل استكشاف الأدبيات الطبية الحيوية، والتحليلات المالية والإخبارية، وبناء الرسوم البيانية المعرفية، وتعبئة قواعد البيانات من الوثائق، مما يجعل كميات كبيرة من النصوص غير المهيكلة قابلة للاستخدام بواسطة الأنظمة اللاحقة.
History
تأثر استخلاص المعلومات بمؤتمرات فهم الرسائل (MUC) في أواخر الثمانينيات والتسعينيات، والتي حددت مهامًا مثل التعرف على الكيانات المسماة وتعبئة القوالب وقدمت تقييمًا موحدًا. انتقل المجال من القواعد المصممة يدويًا إلى نماذج التسلسل الإحصائية ثم الأساليب العصبية، مع الحفاظ على هيكل مهامه.
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- ما هو التعرف على الكيانات المسماة؟
- التعرف على الكيانات المسماة هو مهمة العثور على أجزاء من النص التي تسمي كيانات من العالم الحقيقي، مثل الأشخاص والمنظمات والمواقع والتواريخ، وتصنيفها. وعادة ما تكون هذه هي الخطوة الأولى في استخلاص المعلومات، حيث يتم ذكر العديد من العلاقات والأحداث بناءً على هذه الكيانات.
- كيف يتم تقييم استخلاص المعلومات؟
- يتم تقييم الاستخلاص عادةً بالدقة (نسبة العناصر المستخلصة الصحيحة) والاستدعاء (نسبة العناصر الصحيحة التي تم استخلاصها)، وغالبًا ما يتم دمجهما في مقياس F. وهذا يعكس المفاضلة بين استخلاص القليل جدًا واستخلاص معلومات غير صحيحة.