ScholarGate
Asistente

Codificación y Marcado de Texto

Antes de que un texto pueda ser analizado, buscado o renderizado por una computadora, debe ser representado en un formato legible por máquina. La codificación de texto es la práctica de añadir marcado estructurado a los documentos para que sus características —estructura, lenguaje, aparato editorial, entidades nombradas— se vuelvan explícitas y computables.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La aplicación sistemática de marcado estructurado y legible por máquina a un texto con el fin de hacer explícitas sus características, intercambiables y susceptibles de procesamiento computacional y análisis académico.

Scope

Cubre la teoría y la práctica de representar textos de humanidades en formato legible por máquina: la Iniciativa de Codificación de Texto (TEI) y sus directrices, lenguajes de marcado como XML, modelado de documentos y diseño de esquemas, estándares de metadatos y vocabularios controlados, y la codificación de literatura digital nativa y electrónica. Incluye debates fundamentales sobre la naturaleza del texto y las consecuencias de tratar los documentos como jerarquías ordenadas.

Sub-topics

Core questions

  • ¿Qué es un texto y cuáles de sus características debería explicitar la codificación?
  • ¿Cómo equilibran los estándares de marcado como TEI el poder expresivo con la interoperabilidad?
  • ¿Qué elecciones interpretativas están implícitas en cualquier decisión de codificar un documento de una manera en lugar de otra?
  • ¿Cómo deberían los metadatos y los vocabularios controlados describir y conectar los recursos codificados?

Key concepts

  • Marcado
  • Esquema
  • Elemento y atributo
  • Definición de Tipo de Documento
  • Jerarquías superpuestas
  • Interoperabilidad

Key theories

El texto como jerarquía ordenada de objetos de contenido (OHCO)
DeRose y sus colegas argumentaron que los textos se modelan mejor como jerarquías anidadas de objetos lógicos como capítulos, párrafos y oraciones, una visión que sustentó el marcado descriptivo pero que también provocó un debate sobre las estructuras superpuestas.
Marcado descriptivo
La codificación debe describir lo que es una característica textual en lugar de cómo debe aparecer, separando la estructura lógica de la presentación para que la misma fuente pueda soportar el análisis, la búsqueda y la renderización.
Intercambio a través de estándares comunitarios
La TEI proporciona un vocabulario compartido y extensible para que los textos codificados puedan intercambiarse y reutilizarse entre proyectos, haciendo de la interoperabilidad un objetivo central del marcado de humanidades.

History

El marcado de texto estructurado surgió de la publicación y la informática en las décadas de 1960 y 1970, lo que llevó a SGML y posteriormente a XML. La Iniciativa de Codificación de Texto, fundada en 1987, produjo directrices comunitarias para la codificación de textos de humanidades; los debates OHCO de principios de la década de 1990 aclararon lo que significa modelar un texto. TEI P5 y las revisiones sucesivas consolidaron la práctica de codificación en la edición digital, la construcción de corpus y los proyectos de archivo.

Debates

Si el texto es fundamentalmente jerárquico
La tesis OHCO fue desafiada por la prevalencia de estructuras superpuestas, como citas que abarcan límites de párrafo, lo que impulsó modelos alternativos y el marcado de separación (standoff markup).

Key figures

  • Allen Renear
  • Lou Burnard
  • Steven DeRose
  • C. M. Sperberg-McQueen

Related topics

Seminal works

  • delittle1990
  • tei2024
  • renear2004
  • burnard2014

Frequently asked questions

¿Por qué no simplemente almacenar textos como archivos planos o documentos de Word?
Los archivos planos o de procesador de texto mezclan el contenido con la presentación y dejan la estructura implícita. La codificación hace que características como los encabezados, los nombres y las notas editoriales sean explícitas y legibles por máquina, de modo que la misma fuente puede ser buscada, analizada y renderizada de muchas maneras y compartida entre proyectos.

Methods for this concept

Related concepts