Ngôn ngữ và Tiêu chuẩn Đánh dấu
Đánh dấu (markup) là lớp mã biến một chuỗi ký tự thành một tài liệu có cấu trúc. Sự phân biệt giữa đánh dấu mô tả (descriptive markup), tức là đặt tên cho bản chất của một đối tượng, và đánh dấu thủ tục (procedural markup), tức là chỉ cách in nó ra, đã định hình các tiêu chuẩn — SGML, XML và các phiên bản kế nhiệm của chúng — làm nền tảng cho việc mã hóa trong ngành nhân văn.
Definition
Các ngôn ngữ hình thức và tiêu chuẩn cộng đồng — đáng chú ý là SGML và XML — được sử dụng để thêm các mã có cấu trúc, có thể đọc được bằng máy vào tài liệu, cùng với các nguyên tắc làm cho việc đánh dấu đó có tính mô tả, có thể xác thực và có thể trao đổi được.
Scope
Bao gồm các ngôn ngữ và tiêu chuẩn làm nền tảng cho việc mã hóa văn bản: lịch sử của đánh dấu chung và mô tả, SGML và XML cùng các ngôn ngữ lược đồ của chúng, và các nguyên tắc phân biệt đánh dấu mạnh mẽ, có thể trao đổi được với mã hóa định hướng trình bày. Bao gồm ảnh hưởng của các tiêu chuẩn này đối với điện toán nhân văn.
Core questions
- Điều gì phân biệt đánh dấu mô tả với đánh dấu thủ tục và trình bày?
- Tại sao ngành nhân văn lại hội tụ vào SGML và sau đó là XML?
- Các lược đồ ràng buộc và xác thực các tài liệu được đánh dấu như thế nào?
- Giới hạn của các ngôn ngữ đánh dấu cấu trúc cây là gì?
Key concepts
- SGML
- XML
- Đánh dấu mô tả so với đánh dấu thủ tục
- Lược đồ và DTD
- Tính đúng dạng và tính hợp lệ
Key theories
- Đánh dấu mô tả ưu việt hơn đánh dấu thủ tục
- Coombs, Renear và DeRose lập luận rằng đánh dấu đặt tên cho vai trò logic của văn bản (mô tả) ưu việt hơn đối với học thuật so với đánh dấu chỉ định hình thức (thủ tục), vì nó bảo toàn ý nghĩa và hỗ trợ tái sử dụng.
- Mã hóa chung và phân tách các mối quan tâm
- Việc tách cấu trúc logic của tài liệu khỏi cách trình bày của nó cho phép một nguồn mã hóa duy nhất thúc đẩy phân tích, tìm kiếm và nhiều cách hiển thị khác nhau, một nguyên tắc được kế thừa từ SGML và được đưa vào XML.
- Mô hình tài liệu phân cấp
- XML và các phiên bản tiền nhiệm của nó mô hình hóa tài liệu dưới dạng cây có thứ tự, điều này mạnh mẽ đối với cấu trúc lồng nhau nhưng gặp khó khăn bởi các tính năng chồng chéo trên toàn bộ hệ thống phân cấp.
History
Các ý tưởng mã hóa chung vào cuối những năm 1960 đã dẫn đến GML và sau đó là SGML, được chuẩn hóa vào năm 1986. Bài báo năm 1987 của Coombs-Renear-DeRose đã đưa ra lập luận cho việc đánh dấu mô tả trong học thuật. XML, một hồ sơ SGML được tinh giản, đã được W3C công bố vào năm 1998 và nhanh chóng trở thành cơ sở cho TEI P5 và hầu hết các mã hóa trong ngành nhân văn.
Debates
- Tính đầy đủ của đánh dấu dựa trên cây
- Vì XML áp đặt một hệ thống phân cấp duy nhất, các cấu trúc chồng chéo phổ biến trong các văn bản thực tế đòi hỏi các giải pháp thay thế, thúc đẩy nghiên cứu về các mô hình đánh dấu thay thế hoặc bổ sung.
Key figures
- James H. Coombs
- Allen Renear
- Steven DeRose
Related topics
Seminal works
- coombs1987
- delittle1990
Frequently asked questions
- XML có còn phù hợp không khi có các định dạng mới hơn như JSON?
- Đối với mã hóa nhân văn tập trung vào tài liệu, XML vẫn chiếm ưu thế vì nó thể hiện cấu trúc phong phú, có thể xác thực và là nền tảng của TEI. JSON và các định dạng khác phổ biến cho việc trao đổi dữ liệu, nhưng truyền thống đánh dấu mô tả vẫn là trung tâm của việc biểu diễn văn bản học thuật.