Derlem Oluşturma ve Kürasyonu
Her hesaplamalı okuma bir derleme bağlıdır ve hiçbir derlem tarafsız değildir. Ne dahil edileceği, metinlerin nasıl temizleneceği ve yapılandırılacağı, hangi meta verilerin ekleneceği gibi seçimler, ortaya çıkan her sonucu şekillendirmekte ve derlem oluşturmayı başlı başına bilimsel bir eylem haline getirmektedir.
Tanım
Hesaplamalı analiz için kullanılan metin koleksiyonlarının ilkeli bir şekilde bir araya getirilmesi, işlenmesi, belgelendirilmesi ve sürdürülmesi; bu koleksiyonların nasıl seçildiği ve şekillendirildiği konusunda eleştirel bir dikkatle birlikte.
Kapsam
Hesaplamalı analiz için metin derlemlerinin oluşturulmasını ve yönetimini kapsar: seçim ve örnekleme, temizleme ve normalizasyon, optik karakter tanıma (OCR) ve transkripsiyon, meta veriler ve belgelendirme. Temsil edicilik, yanlılık ve beşeri bilimler veri kümelerinin kurgusal doğası üzerine eleştirel bir değerlendirmeyi içerir. Konu, derlem dilbilimi (corpus linguistics) yerine dijital beşeri bilimler (digital humanities) perspektifinden ele alınmaktadır.
Temel sorular
- Bir derlemin bir edebiyat veya tarih külliyatını temsil etmesi ne anlama gelmektedir?
- Temizleme, OCR ve normalizasyon kararları sonraki analizleri nasıl etkilemektedir?
- Yeniden kullanılabilir bir derlemin hangi meta verilere ve belgelendirmeye ihtiyacı vardır?
- Mevcut dijital koleksiyonlarda kimlerin metinleri eksiktir ve neden?
Anahtar kavramlar
- Örnekleme
- Temsil Edicilik
- OCR
- Normalizasyon
- Köken (Provenans)
- Belgelendirme
Temel kuramlar
- Verinin kurgusal olması, verilmiş olmaması
- Gitelman ve katkıda bulunanlar, verinin her zaman oluşturulduğunu — seçildiğini, temizlendiğini, çerçevelendiğini — bu nedenle 'ham veri' teriminin yanlış olduğunu ve her veri kümesinin kendi oluşturulma varsayımlarını taşıdığını savunmuştur.
- Temsil edicilik ve edebi derlem
- Underwood, dijital koleksiyonların bileşimi ve yanlılıklarının edebi değişim hakkındaki iddiaları nasıl şekillendirdiğini tartışmış, örnekleme ve kökeni (provenans) merkezi metodolojik endişeler haline getirmiştir.
- Koleksiyonların bilimsel argümanlar olarak ele alınması
- Bode, hesaplamalı edebi tarihin temelini oluşturan dijital koleksiyonların kendilerinin yorumlayıcı yapılar olduğunu ve akademisyenlerin bir koleksiyonun nasıl oluşturulduğunu hesaba katması gerektiğini savunmuştur.
Tarihçe
Hesaplamalı metin analizi geliştikçe, akademisyenler, sonuçların arkalarındaki derlemlere bağlı olduğunu giderek daha fazla fark etmiştir. Gitelman'ın 2013 tarihli eseri, tarafsız veri fikrine meydan okumuştur; Bode (2018) ve Underwood (2019) ise edebi koleksiyonların oluşturulmasını ve yanlılığını açıkça ortaya koyarak, derlem kürasyonunu metodolojik ve eleştirel bir endişe alanı olarak belirlemiştir.
Tartışmalar
- Temsil edicilik ve erişilebilirlik
- Derlemler genellikle dijitalleştirilmiş olan her şeyden oluşturulmaktadır; bu durum belirli dillere, dönemlere ve kanonik eserlere doğru bir yanlılık göstermekte ve sonuçların ne ölçüde genellenebileceği sorusunu gündeme getirmektedir.
Öne çıkan isimler
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
İlgili konular
Temel eserler
- gitelman2013
- bode2018
- underwood2019
Sıkça sorulan sorular
- Neden sadece büyük bir metin yığınını indirip analiz edemiyorum?
- Çünkü o yığının bileşimi sonuçlarınızı belirlemektedir. Mevcut koleksiyonlar düzensizdir ve dijitalleştirilmiş olanlara doğru yanlılık göstermektedir; düzeltilmemiş OCR ise hatalara yol açmaktadır. Seçim, köken (provenans) ve işleme süreçlerinin belgelendirilmesi, herhangi bir hesaplamalı bulgunun yorumlanması ve güvenilirliği için esastır.