ScholarGate
Asisten

Pembangunan dan Kurasi Korpus

Setiap pembacaan komputasi bergantung pada korpus, dan tidak ada korpus yang netral. Pilihan tentang apa yang akan disertakan, bagaimana membersihkan dan menyusun teks, serta metadata apa yang akan dilampirkan membentuk setiap hasil yang mengikutinya — menjadikan pembangunan korpus sebagai tindakan ilmiah tersendiri.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Perakitan, pemrosesan, dokumentasi, dan pemeliharaan koleksi teks yang berprinsip yang digunakan untuk analisis komputasi, bersama dengan perhatian kritis terhadap bagaimana koleksi tersebut dipilih dan dibentuk.

Scope

Mencakup pembangunan dan pengelolaan korpora teks untuk analisis komputasi: seleksi dan pengambilan sampel, pembersihan dan normalisasi, pengenalan karakter optik dan transkripsi, metadata, dan dokumentasi. Termasuk refleksi kritis tentang representativitas, bias, dan sifat konstruksi kumpulan data humaniora. Dibahas di sini dari perspektif humaniora digital daripada sebagai linguistik korpus.

Core questions

  • Apa artinya bagi sebuah korpus untuk merepresentasikan suatu karya sastra atau sejarah?
  • Bagaimana keputusan pembersihan, OCR, dan normalisasi memengaruhi analisis selanjutnya?
  • Metadata dan dokumentasi apa yang dibutuhkan oleh korpus yang dapat digunakan kembali?
  • Teks siapa yang hilang dari koleksi digital yang tersedia, dan mengapa?

Key concepts

  • Pengambilan Sampel
  • Representativitas
  • OCR
  • Normalisasi
  • Asal-usul
  • Dokumentasi

Key theories

Data sebagai hasil konstruksi, bukan pemberian
Gitelman dan kontributornya berpendapat bahwa data selalu dibuat — dipilih, dibersihkan, dibingkai — sehingga 'data mentah' adalah nama yang keliru dan setiap kumpulan data membawa asumsi konstruksinya.
Representativitas dan korpus sastra
Underwood membahas bagaimana komposisi dan bias koleksi digital membentuk klaim tentang perubahan sastra, menjadikan pengambilan sampel dan asal-usul sebagai perhatian metodologis utama.
Koleksi sebagai argumen ilmiah
Bode berpendapat bahwa koleksi digital yang mendasari sejarah sastra komputasi itu sendiri adalah konstruksi interpretatif, dan bahwa para sarjana harus mempertimbangkan bagaimana sebuah koleksi dibangun.

History

Seiring dengan berkembangnya analisis teks komputasi, para sarjana semakin menyadari bahwa hasil bergantung pada korpora di baliknya. Volume Gitelman tahun 2013 menantang gagasan data netral; Bode (2018) dan Underwood (2019) membuat pembangunan dan bias koleksi sastra menjadi eksplisit, menetapkan kurasi korpus sebagai perhatian metodologis dan kritis.

Debates

Representativitas versus ketersediaan
Korpora sering dibangun dari apa pun yang telah didigitalkan, yang cenderung bias terhadap bahasa, periode, dan karya kanonik tertentu, menimbulkan pertanyaan tentang sejauh mana kesimpulan dapat digeneralisasi.

Key figures

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

Related topics

Seminal works

  • gitelman2013
  • bode2018
  • underwood2019

Frequently asked questions

Mengapa saya tidak bisa begitu saja mengunduh tumpukan besar teks dan menganalisisnya?
Karena komposisi tumpukan tersebut menentukan hasil Anda. Koleksi yang tersedia tidak merata dan bias terhadap apa yang telah didigitalkan, dan OCR yang tidak dikoreksi menimbulkan kesalahan. Mendokumentasikan seleksi, asal-usul, dan pemrosesan sangat penting untuk menafsirkan dan mempercayai setiap temuan komputasi.

Methods for this concept

Related concepts