تحديد أجزاء الكلام وتصنيف المتتاليات
تعيين تصنيف لكل رمز في الجملة — سواء كان جزءًا من الكلام، أو نوع كيان مسمى، أو وسم مقطع — باستخدام نماذج متتالية احتمالية مثل نماذج ماركوف المخفية والحقول العشوائية الشرطية.
Definition
تصنيف المتتاليات هو مهمة تعيين تصنيف فئوي لكل عنصر في متتالية مدخلة، مع تحديد أجزاء الكلام كمثال نموذجي لها.
Scope
يغطي مهام تصنيف المتتاليات الأساسية للتحليل السطحي: تحديد أجزاء الكلام، والتعرف على الكيانات المسماة، وتقطيع الجمل. ويشمل النماذج القياسية — نماذج ماركوف المخفية، ونماذج ماركوف ذات الإنتروبيا القصوى، والحقول العشوائية الشرطية، ومصنفات المتتاليات العصبية — ومجموعات الوسوم مثل Penn Treebank و Universal POS. يتم تغطية التحليل النحوي الكامل في مواضيع ذات صلة.
Core questions
- كيف تحدد نماذج ماركوف المخفية متتالية الوسوم الأكثر احتمالاً؟
- لماذا تتفوق الحقول العشوائية الشرطية على النماذج المعيارية محليًا؟
- كيف يتم تصميم مجموعات الوسوم وتوحيدها عبر اللغات؟
- كيف يدعم تصنيف المتتاليات التحليل النحوي والاستخراج اللاحق؟
Key concepts
- وسم جزء من الكلام
- نموذج ماركوف المخفي
- خوارزمية فيتربي
- حقل عشوائي شرطي
- التعرف على الكيانات المسماة
- التقطيع
- مجموعة وسوم
- ترميز BIO
Key theories
- تصنيف نماذج ماركوف المخفية
- نمذجة متتالية الوسوم كسلسلة ماركوف تصدر كلمات ملاحظة، مع استعادة خوارزمية فيتربي لمتتالية الوسوم الأكثر احتمالاً بكفاءة.
- الحقول العشوائية الشرطية
- نماذج تمييزية معيارية عالميًا لتصنيف المتتاليات التي تعتمد على المدخلات بأكملها وتتجنب تحيز الوسم للنماذج المعيارية محليًا.
History
كان تحديد أجزاء الكلام (POS tagging) نجاحًا مبكرًا لمعالجة اللغات الطبيعية الإحصائية بمجرد توفر بيانات مشروحة كبيرة من Penn Treebank (1993). وقد أفسحت مصنفات نماذج ماركوف المخفية المجال لنماذج الإنتروبيا القصوى التمييزية والحقول العشوائية الشرطية حوالي عام 2001، والتي بدورها تم استيعابها في مصنفات المتتاليات العصبية في عقد 2010.
Debates
- النماذج المتتالية التوليدية مقابل التمييزية
- ما إذا كان يجب نمذجة التوزيع المشترك للكلمات والوسوم (نماذج ماركوف المخفية) أو تحديد الوسوم مباشرة بناءً على المدخلات (الحقول العشوائية الشرطية)؛ عادةً ما تتفوق النماذج التمييزية في الدقة عند توفر ميزات غنية.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- لماذا لا يعد تحديد أجزاء الكلام أمرًا بسيطًا؟
- العديد من الكلمات غامضة — فكلمة 'book' يمكن أن تكون اسمًا أو فعلاً — لذا فإن الوسم الصحيح يعتمد على السياق. تحل نماذج المتتاليات هذا الإشكال من خلال النظر في الكلمات والوسوم المحيطة بشكل مشترك.