الموارد المعجمية والمدونات اللغوية
قواعد البيانات والمعارف التي تعتمد عليها اللغويات الحاسوبية التجريبية: المدونات النصية، وقواعد البيانات المعجمية والأنطولوجيات، والمعالجات الحاسوبية لبنية الكلمة، والبنوك الشجرية الغنية بالتعليقات التوضيحية.
Definition
الموارد المعجمية والمدونات اللغوية هي مجموعات منظمة من البيانات اللغوية — نصوص، ومعاجم، وتعليقات توضيحية — تُبنى لدعم التحليل التجريبي وتدريب أنظمة معالجة اللغة.
Scope
يغطي بناء وتنظيم واستخدام الموارد اللغوية — المدونات المتوازنة ومدونات الويب، وقواعد البيانات المعجمية-الدلالية مثل WordNet، والصرف الحاسوبي والمعاجم، والبنوك الشجرية المشروحة. ويتناول تصميم المدونات، والتمثيلية، ومعايير التعليق التوضيحي، ودور الموارد في تدريب وتقييم الأنظمة. وتُغطى النمذجة الخوارزمية التي تستهلك هذه الموارد في مجالات أخرى.
Sub-topics
Core questions
- كيف تُصمم المدونات لتكون تمثيلية ومتوازنة؟
- كيف يمكن تنظيم معاني الكلمات في قواعد بيانات معجمية قابلة للقراءة آليًا؟
- كيف تُمثل بنية الكلمة حاسوبيًا عبر اللغات الغنية صرفيًا؟
- لماذا تُعد البنوك الشجرية المشروحة محورية في اللغويات القائمة على البيانات؟
Key concepts
- مدونة لغوية
- تمثيلية
- قاعدة بيانات معجمية
- ووردنت (WordNet)
- مجموعة مترادفات (synset)
- معجم صرفي
- بنك شجري
- معيار التعليق التوضيحي
Key theories
- التجريبية القائمة على المدونات
- الموقف المنهجي الذي يرى أن التعميمات اللغوية ومعلمات النظام يجب أن تستند إلى عينات كبيرة من الاستخدام الموثق بدلاً من الاستبطان وحده.
- الشبكات المعجمية-الدلالية
- تنظيم المعجم كشبكة من المعاني المرتبطة بعلاقات مثل الترادف والتضمن (hypernymy)، كما هو الحال في WordNet، مما يدعم مهام تتراوح من إزالة الغموض إلى التشابه الدلالي.
History
جعل التحول إلى المناهج التجريبية في التسعينيات المدونات والموارد المعجمية أساسية. قدم WordNet قاعدة بيانات معجمية-دلالية قابلة لإعادة الاستخدام، ووضعت المدونات المتوازنة مثل المدونة الوطنية البريطانية (British National Corpus) معايير التصميم، وأضفى عمل كيلغاريف وغريفينستيت (Kilgarriff and Grefenstette) الشرعية على الويب نفسه كمدونة ضخمة للدراسة اللغوية.
Debates
- المدونات المتوازنة مقابل الويب كمدونة
- ما إذا كانت المدونات المتوازنة بعناية أو الويب الفوضوي ولكن الضخم يخدم البحث اللغوي بشكل أفضل؛ يستخدم المجال كلاهما بشكل متزايد، موازنًا بين التمثيلية والحجم.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- ما الذي يجعل المدونة جيدة؟
- المدونة الجيدة كبيرة بما يكفي للإحصائيات الموثوقة وتمثل التنوع اللغوي الذي تتم دراسته، مع توثيق واضح لمصادرها، وأخذ العينات، وأي تعليقات توضيحية بحيث يمكن تفسير النتائج وإعادة إنتاجها.