ทำไมฉันถึงไม่สามารถดาวน์โหลดกองข้อความขนาดใหญ่แล้วนำมาวิเคราะห์ได้เลย?

เพราะองค์ประกอบของกองข้อความนั้นกำหนดผลลัพธ์ของคุณ ชุดสะสมที่มีอยู่ไม่สม่ำเสมอและมีอคติไปทางสิ่งที่ได้รับการแปลงเป็นดิจิทัล และ OCR ที่ไม่ได้รับการแก้ไขจะนำไปสู่ข้อผิดพลาด การจัดทำเอกสารการเลือก, แหล่งที่มา, และการประมวลผลเป็นสิ่งจำเป็นสำหรับการตีความและเชื่อถือผลการคำนวณใดๆ

การสร้างและการจัดการคลังข้อมูล

การอ่านเชิงคำนวณทุกครั้งขึ้นอยู่กับคลังข้อมูล และไม่มีคลังข้อมูลใดที่เป็นกลาง การเลือกสิ่งที่รวมเข้าไว้ วิธีการทำความสะอาดและจัดโครงสร้างข้อความ และข้อมูลเมตาที่จะแนบ ล้วนส่งผลต่อผลลัพธ์ที่ตามมา ทำให้การสร้างคลังข้อมูลเป็นกิจกรรมทางวิชาการในตัวของมันเอง

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การรวบรวม การประมวลผล การจัดทำเอกสาร และการบำรุงรักษาชุดข้อความที่ใช้สำหรับการวิเคราะห์เชิงคำนวณอย่างมีหลักการ พร้อมกับการให้ความสำคัญอย่างยิ่งต่อวิธีการเลือกและกำหนดรูปแบบของชุดข้อมูลเหล่านั้น

Scope

ครอบคลุมการสร้างและการดูแลคลังข้อความสำหรับการวิเคราะห์เชิงคำนวณ: การเลือกและการสุ่มตัวอย่าง, การทำความสะอาดและการทำให้เป็นมาตรฐาน, การรู้จำอักขระด้วยแสงและการถอดความ, ข้อมูลเมตา, และเอกสารประกอบ รวมถึงการสะท้อนเชิงวิพากษ์เกี่ยวกับความเป็นตัวแทน, อคติ, และลักษณะที่ถูกสร้างขึ้นของชุดข้อมูลทางมนุษยศาสตร์ ในที่นี้จะพิจารณาจากมุมมองของมนุษยศาสตร์ดิจิทัลมากกว่าภาษาศาสตร์คลังข้อมูล

Core questions

การที่คลังข้อมูลเป็นตัวแทนของวรรณกรรมหรือประวัติศาสตร์หมายความว่าอย่างไร?
การตัดสินใจเกี่ยวกับการทำความสะอาด, OCR, และการทำให้เป็นมาตรฐานส่งผลต่อการวิเคราะห์ขั้นปลายอย่างไร?
คลังข้อมูลที่นำกลับมาใช้ใหม่ได้ต้องการข้อมูลเมตาและเอกสารประกอบอะไรบ้าง?
ข้อความของใครที่ขาดหายไปจากชุดสะสมดิจิทัลที่มีอยู่ และเพราะเหตุใด?

Key concepts

การสุ่มตัวอย่าง
ความเป็นตัวแทน
OCR
การทำให้เป็นมาตรฐาน
แหล่งที่มา
เอกสารประกอบ

Key theories

ข้อมูลที่ถูกสร้างขึ้น ไม่ใช่ข้อมูลที่ได้รับมา: Gitelman และผู้ร่วมเขียนโต้แย้งว่าข้อมูลถูกสร้างขึ้นเสมอ — ถูกเลือก, ทำความสะอาด, จัดกรอบ — ดังนั้น 'ข้อมูลดิบ' จึงเป็นคำที่เรียกผิด และชุดข้อมูลทุกชุดมีความเชื่อที่แฝงอยู่ในการสร้างของมัน
ความเป็นตัวแทนและคลังข้อมูลวรรณกรรม: Underwood ได้กล่าวถึงว่าองค์ประกอบและอคติของชุดสะสมดิจิทัลกำหนดข้อกล่าวอ้างเกี่ยวกับการเปลี่ยนแปลงทางวรรณกรรมอย่างไร ทำให้การสุ่มตัวอย่างและแหล่งที่มาเป็นข้อกังวลทางระเบียบวิธีที่สำคัญ
ชุดสะสมในฐานะข้อโต้แย้งทางวิชาการ: Bode โต้แย้งว่าชุดสะสมดิจิทัลที่เป็นพื้นฐานของประวัติศาสตร์วรรณกรรมเชิงคำนวณนั้นเป็นโครงสร้างการตีความในตัวของมันเอง และนักวิชาการต้องอธิบายว่าชุดสะสมนั้นถูกสร้างขึ้นมาอย่างไร

History

เมื่อการวิเคราะห์ข้อความเชิงคำนวณเติบโตขึ้น นักวิชาการก็ตระหนักมากขึ้นว่าผลลัพธ์ขึ้นอยู่กับคลังข้อมูลที่อยู่เบื้องหลัง หนังสือของ Gitelman ในปี 2013 ได้ท้าทายแนวคิดเรื่องข้อมูลที่เป็นกลาง; Bode (2018) และ Underwood (2019) ได้ทำให้การสร้างและอคติของชุดสะสมวรรณกรรมเป็นที่ประจักษ์ โดยกำหนดให้การจัดการคลังข้อมูลเป็นข้อกังวลทางระเบียบวิธีและเชิงวิพากษ์

Debates

ความเป็นตัวแทนเทียบกับความพร้อมใช้งาน: คลังข้อมูลมักถูกสร้างขึ้นจากสิ่งที่ได้รับการแปลงเป็นดิจิทัล ซึ่งมีแนวโน้มที่จะเอนเอียงไปทางภาษา, ช่วงเวลา, และผลงานที่เป็นที่ยอมรับบางอย่าง ทำให้เกิดคำถามว่าข้อสรุปสามารถสรุปได้กว้างขวางเพียงใด

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

ทำไมฉันถึงไม่สามารถดาวน์โหลดกองข้อความขนาดใหญ่แล้วนำมาวิเคราะห์ได้เลย?: เพราะองค์ประกอบของกองข้อความนั้นกำหนดผลลัพธ์ของคุณ ชุดสะสมที่มีอยู่ไม่สม่ำเสมอและมีอคติไปทางสิ่งที่ได้รับการแปลงเป็นดิจิทัล และ OCR ที่ไม่ได้รับการแก้ไขจะนำไปสู่ข้อผิดพลาด การจัดทำเอกสารการเลือก, แหล่งที่มา, และการประมวลผลเป็นสิ่งจำเป็นสำหรับการตีความและเชื่อถือผลการคำนวณใดๆ