ScholarGate
ผู้ช่วย

การสร้างและการจัดการคลังข้อมูล

การอ่านเชิงคำนวณทุกครั้งขึ้นอยู่กับคลังข้อมูล และไม่มีคลังข้อมูลใดที่เป็นกลาง การเลือกสิ่งที่รวมเข้าไว้ วิธีการทำความสะอาดและจัดโครงสร้างข้อความ และข้อมูลเมตาที่จะแนบ ล้วนส่งผลต่อผลลัพธ์ที่ตามมา ทำให้การสร้างคลังข้อมูลเป็นกิจกรรมทางวิชาการในตัวของมันเอง

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การรวบรวม การประมวลผล การจัดทำเอกสาร และการบำรุงรักษาชุดข้อความที่ใช้สำหรับการวิเคราะห์เชิงคำนวณอย่างมีหลักการ พร้อมกับการให้ความสำคัญอย่างยิ่งต่อวิธีการเลือกและกำหนดรูปแบบของชุดข้อมูลเหล่านั้น

Scope

ครอบคลุมการสร้างและการดูแลคลังข้อความสำหรับการวิเคราะห์เชิงคำนวณ: การเลือกและการสุ่มตัวอย่าง, การทำความสะอาดและการทำให้เป็นมาตรฐาน, การรู้จำอักขระด้วยแสงและการถอดความ, ข้อมูลเมตา, และเอกสารประกอบ รวมถึงการสะท้อนเชิงวิพากษ์เกี่ยวกับความเป็นตัวแทน, อคติ, และลักษณะที่ถูกสร้างขึ้นของชุดข้อมูลทางมนุษยศาสตร์ ในที่นี้จะพิจารณาจากมุมมองของมนุษยศาสตร์ดิจิทัลมากกว่าภาษาศาสตร์คลังข้อมูล

Core questions

  • การที่คลังข้อมูลเป็นตัวแทนของวรรณกรรมหรือประวัติศาสตร์หมายความว่าอย่างไร?
  • การตัดสินใจเกี่ยวกับการทำความสะอาด, OCR, และการทำให้เป็นมาตรฐานส่งผลต่อการวิเคราะห์ขั้นปลายอย่างไร?
  • คลังข้อมูลที่นำกลับมาใช้ใหม่ได้ต้องการข้อมูลเมตาและเอกสารประกอบอะไรบ้าง?
  • ข้อความของใครที่ขาดหายไปจากชุดสะสมดิจิทัลที่มีอยู่ และเพราะเหตุใด?

Key concepts

  • การสุ่มตัวอย่าง
  • ความเป็นตัวแทน
  • OCR
  • การทำให้เป็นมาตรฐาน
  • แหล่งที่มา
  • เอกสารประกอบ

Key theories

ข้อมูลที่ถูกสร้างขึ้น ไม่ใช่ข้อมูลที่ได้รับมา
Gitelman และผู้ร่วมเขียนโต้แย้งว่าข้อมูลถูกสร้างขึ้นเสมอ — ถูกเลือก, ทำความสะอาด, จัดกรอบ — ดังนั้น 'ข้อมูลดิบ' จึงเป็นคำที่เรียกผิด และชุดข้อมูลทุกชุดมีความเชื่อที่แฝงอยู่ในการสร้างของมัน
ความเป็นตัวแทนและคลังข้อมูลวรรณกรรม
Underwood ได้กล่าวถึงว่าองค์ประกอบและอคติของชุดสะสมดิจิทัลกำหนดข้อกล่าวอ้างเกี่ยวกับการเปลี่ยนแปลงทางวรรณกรรมอย่างไร ทำให้การสุ่มตัวอย่างและแหล่งที่มาเป็นข้อกังวลทางระเบียบวิธีที่สำคัญ
ชุดสะสมในฐานะข้อโต้แย้งทางวิชาการ
Bode โต้แย้งว่าชุดสะสมดิจิทัลที่เป็นพื้นฐานของประวัติศาสตร์วรรณกรรมเชิงคำนวณนั้นเป็นโครงสร้างการตีความในตัวของมันเอง และนักวิชาการต้องอธิบายว่าชุดสะสมนั้นถูกสร้างขึ้นมาอย่างไร

History

เมื่อการวิเคราะห์ข้อความเชิงคำนวณเติบโตขึ้น นักวิชาการก็ตระหนักมากขึ้นว่าผลลัพธ์ขึ้นอยู่กับคลังข้อมูลที่อยู่เบื้องหลัง หนังสือของ Gitelman ในปี 2013 ได้ท้าทายแนวคิดเรื่องข้อมูลที่เป็นกลาง; Bode (2018) และ Underwood (2019) ได้ทำให้การสร้างและอคติของชุดสะสมวรรณกรรมเป็นที่ประจักษ์ โดยกำหนดให้การจัดการคลังข้อมูลเป็นข้อกังวลทางระเบียบวิธีและเชิงวิพากษ์

Debates

ความเป็นตัวแทนเทียบกับความพร้อมใช้งาน
คลังข้อมูลมักถูกสร้างขึ้นจากสิ่งที่ได้รับการแปลงเป็นดิจิทัล ซึ่งมีแนวโน้มที่จะเอนเอียงไปทางภาษา, ช่วงเวลา, และผลงานที่เป็นที่ยอมรับบางอย่าง ทำให้เกิดคำถามว่าข้อสรุปสามารถสรุปได้กว้างขวางเพียงใด

Key figures

  • Ted Underwood
  • Katherine Bode
  • Lisa Gitelman

Related topics

Seminal works

  • gitelman2013
  • bode2018
  • underwood2019

Frequently asked questions

ทำไมฉันถึงไม่สามารถดาวน์โหลดกองข้อความขนาดใหญ่แล้วนำมาวิเคราะห์ได้เลย?
เพราะองค์ประกอบของกองข้อความนั้นกำหนดผลลัพธ์ของคุณ ชุดสะสมที่มีอยู่ไม่สม่ำเสมอและมีอคติไปทางสิ่งที่ได้รับการแปลงเป็นดิจิทัล และ OCR ที่ไม่ได้รับการแก้ไขจะนำไปสู่ข้อผิดพลาด การจัดทำเอกสารการเลือก, แหล่งที่มา, และการประมวลผลเป็นสิ่งจำเป็นสำหรับการตีความและเชื่อถือผลการคำนวณใดๆ

Methods for this concept

Related concepts