การสร้างและการจัดการคลังข้อมูล
การอ่านเชิงคำนวณทุกครั้งขึ้นอยู่กับคลังข้อมูล และไม่มีคลังข้อมูลใดที่เป็นกลาง การเลือกสิ่งที่รวมเข้าไว้ วิธีการทำความสะอาดและจัดโครงสร้างข้อความ และข้อมูลเมตาที่จะแนบ ล้วนส่งผลต่อผลลัพธ์ที่ตามมา ทำให้การสร้างคลังข้อมูลเป็นกิจกรรมทางวิชาการในตัวของมันเอง
Definition
การรวบรวม การประมวลผล การจัดทำเอกสาร และการบำรุงรักษาชุดข้อความที่ใช้สำหรับการวิเคราะห์เชิงคำนวณอย่างมีหลักการ พร้อมกับการให้ความสำคัญอย่างยิ่งต่อวิธีการเลือกและกำหนดรูปแบบของชุดข้อมูลเหล่านั้น
Scope
ครอบคลุมการสร้างและการดูแลคลังข้อความสำหรับการวิเคราะห์เชิงคำนวณ: การเลือกและการสุ่มตัวอย่าง, การทำความสะอาดและการทำให้เป็นมาตรฐาน, การรู้จำอักขระด้วยแสงและการถอดความ, ข้อมูลเมตา, และเอกสารประกอบ รวมถึงการสะท้อนเชิงวิพากษ์เกี่ยวกับความเป็นตัวแทน, อคติ, และลักษณะที่ถูกสร้างขึ้นของชุดข้อมูลทางมนุษยศาสตร์ ในที่นี้จะพิจารณาจากมุมมองของมนุษยศาสตร์ดิจิทัลมากกว่าภาษาศาสตร์คลังข้อมูล
Core questions
- การที่คลังข้อมูลเป็นตัวแทนของวรรณกรรมหรือประวัติศาสตร์หมายความว่าอย่างไร?
- การตัดสินใจเกี่ยวกับการทำความสะอาด, OCR, และการทำให้เป็นมาตรฐานส่งผลต่อการวิเคราะห์ขั้นปลายอย่างไร?
- คลังข้อมูลที่นำกลับมาใช้ใหม่ได้ต้องการข้อมูลเมตาและเอกสารประกอบอะไรบ้าง?
- ข้อความของใครที่ขาดหายไปจากชุดสะสมดิจิทัลที่มีอยู่ และเพราะเหตุใด?
Key concepts
- การสุ่มตัวอย่าง
- ความเป็นตัวแทน
- OCR
- การทำให้เป็นมาตรฐาน
- แหล่งที่มา
- เอกสารประกอบ
Key theories
- ข้อมูลที่ถูกสร้างขึ้น ไม่ใช่ข้อมูลที่ได้รับมา
- Gitelman และผู้ร่วมเขียนโต้แย้งว่าข้อมูลถูกสร้างขึ้นเสมอ — ถูกเลือก, ทำความสะอาด, จัดกรอบ — ดังนั้น 'ข้อมูลดิบ' จึงเป็นคำที่เรียกผิด และชุดข้อมูลทุกชุดมีความเชื่อที่แฝงอยู่ในการสร้างของมัน
- ความเป็นตัวแทนและคลังข้อมูลวรรณกรรม
- Underwood ได้กล่าวถึงว่าองค์ประกอบและอคติของชุดสะสมดิจิทัลกำหนดข้อกล่าวอ้างเกี่ยวกับการเปลี่ยนแปลงทางวรรณกรรมอย่างไร ทำให้การสุ่มตัวอย่างและแหล่งที่มาเป็นข้อกังวลทางระเบียบวิธีที่สำคัญ
- ชุดสะสมในฐานะข้อโต้แย้งทางวิชาการ
- Bode โต้แย้งว่าชุดสะสมดิจิทัลที่เป็นพื้นฐานของประวัติศาสตร์วรรณกรรมเชิงคำนวณนั้นเป็นโครงสร้างการตีความในตัวของมันเอง และนักวิชาการต้องอธิบายว่าชุดสะสมนั้นถูกสร้างขึ้นมาอย่างไร
History
เมื่อการวิเคราะห์ข้อความเชิงคำนวณเติบโตขึ้น นักวิชาการก็ตระหนักมากขึ้นว่าผลลัพธ์ขึ้นอยู่กับคลังข้อมูลที่อยู่เบื้องหลัง หนังสือของ Gitelman ในปี 2013 ได้ท้าทายแนวคิดเรื่องข้อมูลที่เป็นกลาง; Bode (2018) และ Underwood (2019) ได้ทำให้การสร้างและอคติของชุดสะสมวรรณกรรมเป็นที่ประจักษ์ โดยกำหนดให้การจัดการคลังข้อมูลเป็นข้อกังวลทางระเบียบวิธีและเชิงวิพากษ์
Debates
- ความเป็นตัวแทนเทียบกับความพร้อมใช้งาน
- คลังข้อมูลมักถูกสร้างขึ้นจากสิ่งที่ได้รับการแปลงเป็นดิจิทัล ซึ่งมีแนวโน้มที่จะเอนเอียงไปทางภาษา, ช่วงเวลา, และผลงานที่เป็นที่ยอมรับบางอย่าง ทำให้เกิดคำถามว่าข้อสรุปสามารถสรุปได้กว้างขวางเพียงใด
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- ทำไมฉันถึงไม่สามารถดาวน์โหลดกองข้อความขนาดใหญ่แล้วนำมาวิเคราะห์ได้เลย?
- เพราะองค์ประกอบของกองข้อความนั้นกำหนดผลลัพธ์ของคุณ ชุดสะสมที่มีอยู่ไม่สม่ำเสมอและมีอคติไปทางสิ่งที่ได้รับการแปลงเป็นดิจิทัล และ OCR ที่ไม่ได้รับการแก้ไขจะนำไปสู่ข้อผิดพลาด การจัดทำเอกสารการเลือก, แหล่งที่มา, และการประมวลผลเป็นสิ่งจำเป็นสำหรับการตีความและเชื่อถือผลการคำนวณใดๆ