TEI và Mô hình hóa Tài liệu
Sáng kiến Mã hóa Văn bản (Text Encoding Initiative - TEI) là tiêu chuẩn chủ đạo để mã hóa các văn bản nhân văn. Hướng dẫn của nó cung cấp một vốn từ vựng phong phú gồm các yếu tố để đánh dấu mọi thứ từ các dòng thơ đến hư hại bản thảo, trong khi mô hình hóa tài liệu quyết định những tính năng nào trong số đó mà một dự án nhất định sẽ nắm bắt và bằng cách nào.
Definition
Việc sử dụng các hướng dẫn của Sáng kiến Mã hóa Văn bản để tạo ra các biểu diễn văn bản có thể đọc được bằng máy, cùng với công việc phân tích để quyết định các tính năng tài liệu nào cần mô hình hóa và cách hạn chế đánh dấu của một dự án.
Scope
Bao gồm Hướng dẫn TEI và việc sử dụng chúng trong mô hình hóa tài liệu: cấu trúc của TEI P5, tiêu đề TEI và siêu dữ liệu, tùy chỉnh thông qua các lược đồ, và thực hành quyết định những gì cần mã hóa cho một nguồn và mục đích nhất định. Bao gồm lịch sử thể chế của Hiệp hội TEI và vai trò của các tiêu chuẩn cộng đồng trong mã hóa học thuật.
Core questions
- TEI mang lại những gì mà đánh dấu đặc biệt (ad hoc markup) không có?
- Một dự án tùy chỉnh TEI để phù hợp với các nguồn của nó như thế nào mà không làm mất khả năng trao đổi?
- Những tính năng nào của một tài liệu đáng để mô hình hóa, và với chi phí bao nhiêu?
- Tiêu đề TEI và siêu dữ liệu hỗ trợ việc khám phá và tái sử dụng như thế nào?
Key concepts
- Tiêu đề TEI
- Tùy chỉnh (ODD)
- Tập hợp phần tử
- Xác thực lược đồ
- Chú thích tách rời (Standoff annotation)
Key theories
- Tiêu chuẩn mã hóa do cộng đồng duy trì
- TEI được quản lý bởi một hiệp hội duy trì một vốn từ vựng có thể mở rộng, được ghi lại, để các lựa chọn mã hóa dựa trên thực hành chung thay vì được tạo lại cho mỗi dự án.
- Tùy chỉnh và ràng buộc
- Vì TEI đầy đủ rất lớn, các dự án xác định một tùy chỉnh (một lược đồ bị ràng buộc) chọn và điều chỉnh các phần tử, cân bằng phạm vi biểu đạt với tính nhất quán và xác thực.
History
TEI được khởi xướng vào năm 1987 bởi một hiệp hội các tổ chức học thuật nhằm chuẩn hóa mã hóa văn bản nhân văn. Các phiên bản đầu tiên (P1-P4) dựa trên SGML; TEI P5, được phát hành vào năm 2007 và liên tục được sửa đổi kể từ đó, được thể hiện bằng XML và hỗ trợ tùy chỉnh thông qua khung ODD (One Document Does it all). Tiêu chuẩn này hiện là nền tảng cho nhiều ấn bản, kho ngữ liệu và kho lưu trữ.
Debates
- Tính toàn diện so với khả năng sử dụng
- Phạm vi rộng lớn của TEI làm cho nó mạnh mẽ nhưng cũng khó sử dụng; cuộc tranh luận vẫn tiếp diễn về việc các dự án nên tùy chỉnh đến mức nào và liệu các tập con đơn giản hơn có phục vụ tốt hơn cho khả năng tương tác hay không.
Key figures
- Lou Burnard
- C. M. Sperberg-McQueen
- Nancy Ide
- Allen Renear
Related topics
Seminal works
- tei2024
- ide1995
- burnard2014
Frequently asked questions
- Tôi có phải sử dụng toàn bộ TEI để sử dụng TEI không?
- Không. Các dự án thường xác định một tùy chỉnh chọn các phần tử họ cần và ràng buộc cách chúng được sử dụng. Điều này giúp việc mã hóa dễ quản lý và nhất quán trong khi vẫn tương thích với tiêu chuẩn rộng hơn.