ساخت و مدیریت پیکره
هر خوانش محاسباتی به یک پیکره وابسته است و هیچ پیکرهای خنثی نیست. انتخابها در مورد اینکه چه چیزی گنجانده شود، چگونه متون پاکسازی و ساختاربندی شوند، و چه فرادادهای پیوست شود، هر نتیجهای را که در پی میآید شکل میدهد – و این امر ساخت پیکره را به یک عمل علمی مستقل تبدیل میکند.
Definition
گردآوری، پردازش، مستندسازی، و نگهداری اصولی مجموعههای متنی که برای تحلیل محاسباتی استفاده میشوند، همراه با توجه انتقادی به نحوه انتخاب و شکلگیری این مجموعهها.
Scope
این بخش به ساخت و مدیریت پیکرههای متنی برای تحلیل محاسباتی میپردازد: انتخاب و نمونهبرداری، پاکسازی و نرمالسازی، تشخیص نوری حروف و رونویسی، فراداده، و مستندسازی. شامل تأمل انتقادی بر نمایندگی، سوگیری، و ماهیت ساختهشده مجموعهدادههای علوم انسانی است. در اینجا از منظر علوم انسانی دیجیتال مورد بررسی قرار میگیرد تا زبانشناسی پیکرهای.
Core questions
- برای یک پیکره، نمایندگی یک مجموعه ادبی یا تاریخی به چه معناست؟
- تصمیمات مربوط به پاکسازی، OCR، و نرمالسازی چگونه بر تحلیلهای بعدی تأثیر میگذارند؟
- یک پیکره قابل استفاده مجدد به چه فراداده و مستنداتی نیاز دارد؟
- متون چه کسانی در مجموعههای دیجیتال موجود غایب هستند و چرا؟
Key concepts
- نمونهبرداری
- نمایندگی
- OCR
- نرمالسازی
- منشأ
- مستندسازی
Key theories
- دادهها به عنوان ساختهشده، نه دادهشده
- گیتلمن و همکارانش استدلال کردند که دادهها همیشه ساخته میشوند – انتخاب، پاکسازی، چارچوببندی – بنابراین «داده خام» یک نامگذاری غلط است و هر مجموعه دادهای مفروضات ساخت خود را به همراه دارد.
- نمایندگی و پیکره ادبی
- آندروود در مورد اینکه چگونه ترکیب و سوگیریهای مجموعههای دیجیتال ادعاهای مربوط به تغییرات ادبی را شکل میدهند، بحث کرد و نمونهبرداری و منشأ را به دغدغههای روششناختی اصلی تبدیل کرد.
- مجموعهها به عنوان استدلالهای علمی
- بود استدلال کرد که مجموعههای دیجیتالی که زیربنای تاریخ ادبیات محاسباتی هستند، خود سازههای تفسیری هستند و محققان باید چگونگی ساخت یک مجموعه را در نظر بگیرند.
History
با گسترش تحلیل متون محاسباتی، محققان به طور فزایندهای دریافتند که نتایج به پیکرههای پشتوانه آنها بستگی دارد. جلد ۲۰۱۳ گیتلمن ایده دادههای خنثی را به چالش کشید؛ بود (۲۰۱۸) و آندروود (۲۰۱۹) ساخت و سوگیری مجموعههای ادبی را آشکار ساختند و مدیریت پیکره را به عنوان یک دغدغه روششناختی و انتقادی تثبیت کردند.
Debates
- نمایندگی در برابر دسترسیپذیری
- پیکرهها اغلب از هر آنچه دیجیتالی شده است ساخته میشوند، که به سمت زبانها، دورهها، و آثار کانونی خاصی سوگیری دارد و این سؤال را مطرح میکند که نتایج تا چه حد میتوانند تعمیم یابند.
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- چرا نمیتوانم فقط یک انبوه بزرگ از متون را دانلود کرده و آنها را تحلیل کنم؟
- زیرا ترکیب آن انبوه نتایج شما را تعیین میکند. مجموعههای موجود ناهمگون و به سمت آنچه دیجیتالی شده است سوگیری دارند، و OCR تصحیح نشده خطاها را وارد میکند. مستندسازی انتخاب، منشأ، و پردازش برای تفسیر و اعتماد به هر یافته محاسباتی ضروری است.