بناء المجموعات النصية وتنظيمها
يعتمد كل تحليل حاسوبي على مجموعة نصية (corpus)، ولا توجد مجموعة نصية محايدة. فالخيارات المتعلقة بما يجب تضمينه، وكيفية تنظيف النصوص وهيكلتها، والبيانات الوصفية التي يجب إرفاقها، تشكل كل نتيجة تتبع ذلك — مما يجعل بناء المجموعة النصية عملاً بحثيًا بحد ذاته.
Definition
التجميع المبدئي والمعالجة والتوثيق والصيانة لمجموعات النصوص المستخدمة في التحليل الحاسوبي، مع اهتمام نقدي بكيفية اختيار هذه المجموعات وتشكيلها.
Scope
يغطي بناء وإدارة المجموعات النصية للتحليل الحاسوبي: الاختيار وأخذ العينات، التنظيف والتطبيع، التعرف البصري على الحروف والنسخ، البيانات الوصفية، والتوثيق. يتضمن تفكيراً نقدياً حول التمثيلية، والتحيز، والطبيعة المُنشأة لمجموعات بيانات العلوم الإنسانية. يُعالج هنا من منظور العلوم الإنسانية الرقمية بدلاً من كونه لغويات المجموعات النصية.
Core questions
- ماذا يعني أن تمثل مجموعة نصية جسماً أدبياً أو تاريخياً؟
- كيف تؤثر قرارات التنظيف، والتعرف البصري على الحروف (OCR)، والتطبيع على التحليل اللاحق؟
- ما هي البيانات الوصفية والوثائق التي تحتاجها المجموعة النصية القابلة لإعادة الاستخدام؟
- ما هي النصوص الغائبة عن المجموعات الرقمية المتاحة، ولماذا؟
Key concepts
- أخذ العينات
- التمثيلية
- التعرف البصري على الحروف (OCR)
- التطبيع
- المصدر
- التوثيق
Key theories
- البيانات كبناء، لا كمعطى
- جادل جيتلمان وزملاؤه بأن البيانات تُصنع دائمًا — تُختار، تُنظف، تُؤطر — لذا فإن مصطلح 'البيانات الخام' تسمية خاطئة، وكل مجموعة بيانات تحمل افتراضات بنائها.
- التمثيلية والمجموعة النصية الأدبية
- ناقش أندروود كيف يشكل تكوين المجموعات الرقمية وتحيزاتها الادعاءات حول التغير الأدبي، مما يجعل أخذ العينات والمصدر اهتمامات منهجية مركزية.
- المجموعات كحجج بحثية
- جادل بود بأن المجموعات الرقمية التي تستند إليها تاريخ الأدب الحاسوبي هي بحد ذاتها هياكل تفسيرية، وأن على الباحثين أن يوضحوا كيفية بناء المجموعة.
History
مع تزايد التحليل النصي الحاسوبي، أدرك الباحثون بشكل متزايد أن النتائج تعتمد على المجموعات النصية التي تستند إليها. تحدى مجلد جيتلمان (Gitelman) لعام 2013 فكرة البيانات المحايدة؛ وأوضح بود (Bode) (2018) وأندروود (Underwood) (2019) بناء المجموعات الأدبية وتحيزها، مما أرسى تنظيم المجموعات النصية كاهتمام منهجي ونقدي.
Debates
- التمثيلية مقابل التوفر
- غالبًا ما تُبنى المجموعات النصية مما تم رقمنته، مما يميل نحو لغات وفترات وأعمال قانونية معينة، مما يثير تساؤلاً حول مدى إمكانية تعميم الاستنتاجات.
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- لماذا لا يمكنني ببساطة تنزيل كومة كبيرة من النصوص وتحليلها؟
- لأن تكوين تلك الكومة يحدد نتائجك. المجموعات المتاحة غير متوازنة ومتحيزة نحو ما تم رقمنته، والتعرف البصري على الحروف (OCR) غير المصحح يُدخل أخطاء. توثيق الاختيار، والمصدر، والمعالجة أمر أساسي لتفسير أي نتيجة حاسوبية والثقة بها.