استخلاص المعلومات
تحويل النصوص غير المهيكلة إلى بيانات مهيكلة: الكشف عن الكيانات المسماة، والعلاقات بينها، والأحداث التي تشارك فيها، بحيث يمكن الاستعلام عن الوثائق وتجميعها.
Definition
استخلاص المعلومات هو التحديد التلقائي للحقائق المهيكلة — الكيانات والعلاقات والأحداث — من النصوص الطبيعية غير المهيكلة.
Scope
يغطي استخلاص المعلومات المهيكلة من النصوص — التعرف على الكيانات المسماة، واستخلاص العلاقات، واستخلاص الأحداث، وملء القوالب الزمنية. ويتناول كلاً من الأساليب القائمة على القواعد والأساليب المتعلمة، وتقاليد التقييم التي أُنشئت من خلال المهام المشتركة. وتُغطى نماذج تصنيف التسلسل الأساسية في مجال التحليل النحوي (parsing).
Core questions
- كيف تُكتشف وتُصنف الكيانات المسماة في النص؟
- كيف تُستخلص العلاقات والأحداث بين الكيانات؟
- كيف شكلت التقييمات المشتركة المهمة ومقاييسها؟
- كيف تُقارن طرق الاستخلاص القائمة على القواعد وطرق الاستخلاص المتعلمة؟
Key concepts
- التعرف على الكيانات المسماة
- استخلاص العلاقات
- استخلاص الأحداث
- ملء القوالب
- الحقل العشوائي الشرطي
- الإشراف عن بعد
- تعبئة الأنطولوجيا
- حملة التقييم
Key theories
- استخلاص المعلومات بملء القوالب
- تأطير الاستخلاص كملء قوالب مهيكلة بالكيانات والعلاقات الموجودة في النص، وهي الصيغة التي طُورت في مؤتمرات فهم الرسائل.
- استخلاص تصنيف التسلسل
- تصوير استخلاص الكيانات والنطاقات كتصنيف تسلسلي باستخدام نماذج مثل الحقول العشوائية الشرطية والمصنفات العصبية على الرموز.
History
تأثر استخلاص المعلومات بمؤتمرات فهم الرسائل (Message Understanding Conferences) في التسعينيات، والتي حددت مهام التعرف على الكيانات المسماة وملء القوالب وتقييمها. انتقل المجال من الأنماط المصممة يدويًا إلى النماذج الإحصائية للتسلسل مثل الحقول العشوائية الشرطية (conditional random fields)، ثم إلى الاستخلاص العصبي والمدعوم عن بعد على نطاق واسع.
Debates
- الاستخلاص الخاضع للإشراف مقابل الاستخلاص الخاضع للإشراف عن بعد
- ما إذا كان يجب الاعتماد على البيانات المصنفة يدويًا المكلفة أو البدء من قواعد المعرفة عبر الإشراف عن بعد، والذي يتوسع ولكنه يقدم تسميات مشوشة.
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- ما هو التعرف على الكيانات المسماة؟
- يحدد التعرف على الكيانات المسماة ويصنف النطاقات ذات الأسماء الصحيحة في النص، مثل الأشخاص والمنظمات والمواقع. وعادةً ما يكون الخطوة الأولى في استخلاص العلاقات والأحداث من الوثائق.