ภาษามาร์กอัปและมาตรฐาน
มาร์กอัปคือชั้นของรหัสที่เปลี่ยนกระแสอักขระให้เป็นเอกสารที่มีโครงสร้าง ความแตกต่างระหว่างมาร์กอัปเชิงพรรณนา (descriptive markup) ซึ่งระบุว่าสิ่งนั้นคืออะไร และมาร์กอัปเชิงกระบวนการ (procedural markup) ซึ่งระบุวิธีการพิมพ์ ได้กำหนดรูปแบบมาตรฐาน — SGML, XML และรุ่นต่อๆ มา — ซึ่งเป็นรากฐานของการเข้ารหัสในสาขามนุษยศาสตร์
Definition
ภาษาที่เป็นทางการและมาตรฐานของชุมชน — โดยเฉพาะ SGML และ XML — ที่ใช้ในการเพิ่มรหัสที่มีโครงสร้างและเครื่องอ่านได้ลงในเอกสาร พร้อมด้วยหลักการที่ทำให้มาร์กอัปดังกล่าวเป็นเชิงพรรณนา สามารถตรวจสอบความถูกต้องได้ และสามารถแลกเปลี่ยนกันได้
Scope
ครอบคลุมภาษาและมาตรฐานที่เป็นรากฐานของการเข้ารหัสข้อความ: ประวัติของมาร์กอัปทั่วไปและเชิงพรรณนา, SGML และ XML รวมถึงภาษา Schema ของพวกมัน และหลักการที่แยกแยะมาร์กอัปที่แข็งแกร่งและสามารถแลกเปลี่ยนกันได้จากการเข้ารหัสที่เน้นการนำเสนอ รวมถึงอิทธิพลของมาตรฐานเหล่านี้ต่อการประมวลผลทางมนุษยศาสตร์
Core questions
- อะไรคือสิ่งที่แยกแยะมาร์กอัปเชิงพรรณนาออกจากมาร์กอัปเชิงกระบวนการและการนำเสนอ?
- เหตุใดสาขามนุษยศาสตร์จึงหันมาใช้ SGML และต่อมาคือ XML?
- Schema จำกัดและตรวจสอบความถูกต้องของเอกสารที่ถูกมาร์กอัปได้อย่างไร?
- ข้อจำกัดของภาษามาร์กอัปที่มีโครงสร้างแบบต้นไม้คืออะไร?
Key concepts
- SGML
- XML
- มาร์กอัปเชิงพรรณนาเทียบกับมาร์กอัปเชิงกระบวนการ
- Schema และ DTD
- ความสมบูรณ์ของรูปแบบและความถูกต้อง
Key theories
- มาร์กอัปเชิงพรรณนาเหนือมาร์กอัปเชิงกระบวนการ
- Coombs, Renear และ DeRose โต้แย้งว่ามาร์กอัปที่ระบุบทบาทเชิงตรรกะของข้อความ (เชิงพรรณนา) นั้นเหนือกว่าสำหรับการศึกษาทางวิชาการเมื่อเทียบกับมาร์กอัปที่ระบุลักษณะที่ปรากฏ (เชิงกระบวนการ) เนื่องจากเป็นการรักษาความหมายและสนับสนุนการนำกลับมาใช้ใหม่
- การเข้ารหัสทั่วไปและการแยกส่วนความรับผิดชอบ
- การแยกโครงสร้างเชิงตรรกะของเอกสารออกจากการนำเสนอ ทำให้แหล่งข้อมูลที่เข้ารหัสเพียงแหล่งเดียวสามารถขับเคลื่อนการวิเคราะห์ การค้นหา และการแสดงผลหลายรูปแบบ ซึ่งเป็นหลักการที่สืบทอดมาจาก SGML และนำมาใช้ใน XML
- แบบจำลองเอกสารแบบลำดับชั้น
- XML และรุ่นก่อนหน้าจำลองเอกสารเป็นโครงสร้างต้นไม้ที่มีลำดับ ซึ่งมีประสิทธิภาพสำหรับโครงสร้างที่ซ้อนกัน แต่มีข้อจำกัดสำหรับคุณสมบัติที่ทับซ้อนกันในลำดับชั้น
History
แนวคิดการเข้ารหัสทั่วไปในช่วงปลายทศวรรษ 1960 นำไปสู่ GML และต่อมาคือ SGML ซึ่งได้รับการกำหนดมาตรฐานในปี 1986 บทความของ Coombs-Renear-DeRose ในปี 1987 ได้นำเสนอแนวคิดของมาร์กอัปเชิงพรรณนาในงานวิชาการ XML ซึ่งเป็นโปรไฟล์ SGML ที่ปรับปรุงให้กระชับขึ้น ได้รับการเผยแพร่โดย W3C ในปี 1998 และกลายเป็นพื้นฐานสำหรับ TEI P5 และการเข้ารหัสส่วนใหญ่ในสาขามนุษยศาสตร์อย่างรวดเร็ว
Debates
- ความเพียงพอของมาร์กอัปแบบต้นไม้
- เนื่องจาก XML บังคับใช้ลำดับชั้นเดียว โครงสร้างที่ทับซ้อนกันซึ่งพบได้ทั่วไปในข้อความจริงจึงต้องใช้วิธีแก้ไข ซึ่งกระตุ้นให้เกิดการวิจัยเกี่ยวกับแบบจำลองมาร์กอัปทางเลือกหรือเพิ่มเติม
Key figures
- James H. Coombs
- Allen Renear
- Steven DeRose
Related topics
Seminal works
- coombs1987
- delittle1990
Frequently asked questions
- XML ยังคงมีความเกี่ยวข้องหรือไม่เมื่อพิจารณาถึงรูปแบบใหม่ๆ เช่น JSON?
- สำหรับการเข้ารหัสในสาขามนุษยศาสตร์ที่เน้นเอกสาร XML ยังคงเป็นที่โดดเด่นเนื่องจากสามารถแสดงโครงสร้างที่สมบูรณ์และตรวจสอบความถูกต้องได้ และเป็นพื้นฐานของ TEI JSON และรูปแบบอื่นๆ มักใช้สำหรับการแลกเปลี่ยนข้อมูล แต่ประเพณีมาร์กอัปเชิงพรรณนายังคงเป็นหัวใจสำคัญของการนำเสนอข้อความทางวิชาการ