ScholarGate
Asistan

Derlem Oluşturma ve Kürasyonu

Her hesaplamalı okuma bir derleme bağlıdır ve hiçbir derlem tarafsız değildir. Ne dahil edileceği, metinlerin nasıl temizleneceği ve yapılandırılacağı, hangi meta verilerin ekleneceği gibi seçimler, ortaya çıkan her sonucu şekillendirmekte ve derlem oluşturmayı başlı başına bilimsel bir eylem haline getirmektedir.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Hesaplamalı analiz için kullanılan metin koleksiyonlarının ilkeli bir şekilde bir araya getirilmesi, işlenmesi, belgelendirilmesi ve sürdürülmesi; bu koleksiyonların nasıl seçildiği ve şekillendirildiği konusunda eleştirel bir dikkatle birlikte.

Kapsam

Hesaplamalı analiz için metin derlemlerinin oluşturulmasını ve yönetimini kapsar: seçim ve örnekleme, temizleme ve normalizasyon, optik karakter tanıma (OCR) ve transkripsiyon, meta veriler ve belgelendirme. Temsil edicilik, yanlılık ve beşeri bilimler veri kümelerinin kurgusal doğası üzerine eleştirel bir değerlendirmeyi içerir. Konu, derlem dilbilimi (corpus linguistics) yerine dijital beşeri bilimler (digital humanities) perspektifinden ele alınmaktadır.

Temel sorular

  • Bir derlemin bir edebiyat veya tarih külliyatını temsil etmesi ne anlama gelmektedir?
  • Temizleme, OCR ve normalizasyon kararları sonraki analizleri nasıl etkilemektedir?
  • Yeniden kullanılabilir bir derlemin hangi meta verilere ve belgelendirmeye ihtiyacı vardır?
  • Mevcut dijital koleksiyonlarda kimlerin metinleri eksiktir ve neden?

Anahtar kavramlar

  • Örnekleme
  • Temsil Edicilik
  • OCR
  • Normalizasyon
  • Köken (Provenans)
  • Belgelendirme

Temel kuramlar

Verinin kurgusal olması, verilmiş olmaması
Gitelman ve katkıda bulunanlar, verinin her zaman oluşturulduğunu — seçildiğini, temizlendiğini, çerçevelendiğini — bu nedenle 'ham veri' teriminin yanlış olduğunu ve her veri kümesinin kendi oluşturulma varsayımlarını taşıdığını savunmuştur.
Temsil edicilik ve edebi derlem
Underwood, dijital koleksiyonların bileşimi ve yanlılıklarının edebi değişim hakkındaki iddiaları nasıl şekillendirdiğini tartışmış, örnekleme ve kökeni (provenans) merkezi metodolojik endişeler haline getirmiştir.
Koleksiyonların bilimsel argümanlar olarak ele alınması
Bode, hesaplamalı edebi tarihin temelini oluşturan dijital koleksiyonların kendilerinin yorumlayıcı yapılar olduğunu ve akademisyenlerin bir koleksiyonun nasıl oluşturulduğunu hesaba katması gerektiğini savunmuştur.

Tarihçe

Hesaplamalı metin analizi geliştikçe, akademisyenler, sonuçların arkalarındaki derlemlere bağlı olduğunu giderek daha fazla fark etmiştir. Gitelman'ın 2013 tarihli eseri, tarafsız veri fikrine meydan okumuştur; Bode (2018) ve Underwood (2019) ise edebi koleksiyonların oluşturulmasını ve yanlılığını açıkça ortaya koyarak, derlem kürasyonunu metodolojik ve eleştirel bir endişe alanı olarak belirlemiştir.

Tartışmalar

Temsil edicilik ve erişilebilirlik
Derlemler genellikle dijitalleştirilmiş olan her şeyden oluşturulmaktadır; bu durum belirli dillere, dönemlere ve kanonik eserlere doğru bir yanlılık göstermekte ve sonuçların ne ölçüde genellenebileceği sorusunu gündeme getirmektedir.

Öne çıkan isimler

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

İlgili konular

Temel eserler

  • gitelman2013
  • bode2018
  • underwood2019

Sıkça sorulan sorular

Neden sadece büyük bir metin yığınını indirip analiz edemiyorum?
Çünkü o yığının bileşimi sonuçlarınızı belirlemektedir. Mevcut koleksiyonlar düzensizdir ve dijitalleştirilmiş olanlara doğru yanlılık göstermektedir; düzeltilmemiş OCR ise hatalara yol açmaktadır. Seçim, köken (provenans) ve işleme süreçlerinin belgelendirilmesi, herhangi bir hesaplamalı bulgunun yorumlanması ve güvenilirliği için esastır.

Bu kavram için yöntemler

İlgili kavramlar