چرا نمیتوانم فقط یک انبوه بزرگ از متون را دانلود کرده و آنها را تحلیل کنم؟

زیرا ترکیب آن انبوه نتایج شما را تعیین میکند. مجموعههای موجود ناهمگون و به سمت آنچه دیجیتالی شده است سوگیری دارند، و OCR تصحیح نشده خطاها را وارد میکند. مستندسازی انتخاب، منشأ، و پردازش برای تفسیر و اعتماد به هر یافته محاسباتی ضروری است.

ساخت و مدیریت پیکره

هر خوانش محاسباتی به یک پیکره وابسته است و هیچ پیکره‌ای خنثی نیست. انتخاب‌ها در مورد اینکه چه چیزی گنجانده شود، چگونه متون پاکسازی و ساختاربندی شوند، و چه فراداده‌ای پیوست شود، هر نتیجه‌ای را که در پی می‌آید شکل می‌دهد – و این امر ساخت پیکره را به یک عمل علمی مستقل تبدیل می‌کند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

گردآوری، پردازش، مستندسازی، و نگهداری اصولی مجموعه‌های متنی که برای تحلیل محاسباتی استفاده می‌شوند، همراه با توجه انتقادی به نحوه انتخاب و شکل‌گیری این مجموعه‌ها.

Scope

این بخش به ساخت و مدیریت پیکره‌های متنی برای تحلیل محاسباتی می‌پردازد: انتخاب و نمونه‌برداری، پاکسازی و نرمال‌سازی، تشخیص نوری حروف و رونویسی، فراداده، و مستندسازی. شامل تأمل انتقادی بر نمایندگی، سوگیری، و ماهیت ساخته‌شده مجموعه‌داده‌های علوم انسانی است. در اینجا از منظر علوم انسانی دیجیتال مورد بررسی قرار می‌گیرد تا زبان‌شناسی پیکره‌ای.

Core questions

برای یک پیکره، نمایندگی یک مجموعه ادبی یا تاریخی به چه معناست؟
تصمیمات مربوط به پاکسازی، OCR، و نرمال‌سازی چگونه بر تحلیل‌های بعدی تأثیر می‌گذارند؟
یک پیکره قابل استفاده مجدد به چه فراداده و مستنداتی نیاز دارد؟
متون چه کسانی در مجموعه‌های دیجیتال موجود غایب هستند و چرا؟

Key concepts

نمونه‌برداری
نمایندگی
OCR
نرمال‌سازی
منشأ
مستندسازی

Key theories

داده‌ها به عنوان ساخته‌شده، نه داده‌شده: گیتلمن و همکارانش استدلال کردند که داده‌ها همیشه ساخته می‌شوند – انتخاب، پاکسازی، چارچوب‌بندی – بنابراین «داده خام» یک نامگذاری غلط است و هر مجموعه داده‌ای مفروضات ساخت خود را به همراه دارد.
نمایندگی و پیکره ادبی: آندروود در مورد اینکه چگونه ترکیب و سوگیری‌های مجموعه‌های دیجیتال ادعاهای مربوط به تغییرات ادبی را شکل می‌دهند، بحث کرد و نمونه‌برداری و منشأ را به دغدغه‌های روش‌شناختی اصلی تبدیل کرد.
مجموعه‌ها به عنوان استدلال‌های علمی: بود استدلال کرد که مجموعه‌های دیجیتالی که زیربنای تاریخ ادبیات محاسباتی هستند، خود سازه‌های تفسیری هستند و محققان باید چگونگی ساخت یک مجموعه را در نظر بگیرند.

History

با گسترش تحلیل متون محاسباتی، محققان به طور فزاینده‌ای دریافتند که نتایج به پیکره‌های پشتوانه آن‌ها بستگی دارد. جلد ۲۰۱۳ گیتلمن ایده داده‌های خنثی را به چالش کشید؛ بود (۲۰۱۸) و آندروود (۲۰۱۹) ساخت و سوگیری مجموعه‌های ادبی را آشکار ساختند و مدیریت پیکره را به عنوان یک دغدغه روش‌شناختی و انتقادی تثبیت کردند.

Debates

نمایندگی در برابر دسترسی‌پذیری: پیکره‌ها اغلب از هر آنچه دیجیتالی شده است ساخته می‌شوند، که به سمت زبان‌ها، دوره‌ها، و آثار کانونی خاصی سوگیری دارد و این سؤال را مطرح می‌کند که نتایج تا چه حد می‌توانند تعمیم یابند.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

چرا نمی‌توانم فقط یک انبوه بزرگ از متون را دانلود کرده و آن‌ها را تحلیل کنم؟: زیرا ترکیب آن انبوه نتایج شما را تعیین می‌کند. مجموعه‌های موجود ناهمگون و به سمت آنچه دیجیتالی شده است سوگیری دارند، و OCR تصحیح نشده خطاها را وارد می‌کند. مستندسازی انتخاب، منشأ، و پردازش برای تفسیر و اعتماد به هر یافته محاسباتی ضروری است.