ScholarGate
Asistente

Modelos semistructurados y de documentos

Los modelos de datos semistructurados y de documentos representan los datos como objetos anidados o árboles auto-descriptivos y de estructura irregular — como en XML y JSON — donde la estructura se transporta con los datos en lugar de ser fijada por un esquema rígido.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

Los datos semistructurados son datos que tienen alguna estructura organizativa pero no se ajustan a un esquema fijo, típicamente modelados como árboles etiquetados u objetos clave-valor anidados; los modelos de documentos almacenan dichos datos como documentos autocontenidos (comúnmente JSON o XML) en lugar de como filas en tablas fijas.

Scope

Este tema abarca los modelos de datos que relajan el requisito relacional de un esquema uniforme: datos semistructurados en forma de árbol y grafo, XML con sus DTD y esquemas, y modelos de documentos basados en JSON utilizados por los almacenes de documentos. Trata el anidamiento, los campos opcionales y repetidos, la flexibilidad del esquema y los lenguajes de consulta orientados a rutas y árboles (como XPath y XQuery) que operan sobre ellos. Excluye la ingeniería más amplia de los sistemas NoSQL y los modelos de consistencia, que se cubren en el área de big data y NoSQL.

Core questions

  • ¿En qué se diferencian los datos auto-descriptivos y de esquema flexible de las tablas relacionales rígidas?
  • ¿Cómo se utilizan XML y JSON para representar datos anidados e irregulares?
  • ¿Qué papel juegan los esquemas opcionales (DTDs, XML Schema, JSON Schema)?
  • ¿Cómo navegan los lenguajes de consulta de rutas y árboles, como XPath y XQuery, por los datos?
  • ¿Cuáles son las ventajas y desventajas de los modelos de documentos frente al modelo relacional?

Key concepts

  • datos semistructurados (árbol/grafo)
  • XML y DTD/XML Schema
  • JSON y almacenes de documentos
  • campos anidados y repetidos
  • esquema en lectura versus esquema en escritura
  • XPath y XQuery
  • datos auto-descriptivos
  • evolución del esquema

Key theories

Datos auto-descriptivos estructurados en árbol
Los datos semistructurados se modelan como árboles o grafos etiquetados en los que la estructura se codifica junto con los valores, lo que permite campos faltantes, opcionales y heterogéneos sin un esquema predefinido.
Flexibilidad del esquema versus imposición del esquema
Los modelos de documentos y semistructurados intercambian la integridad y las garantías de consulta de un esquema fijo por flexibilidad y facilidad de evolución, validando opcionalmente contra esquemas como XML Schema o JSON Schema cuando se necesitan garantías más sólidas.
Consulta basada en rutas
Lenguajes como XPath y XQuery seleccionan y transforman partes de documentos estructurados en árbol navegando por rutas y patrones, proporcionando un modelo de consulta adecuado para datos anidados e irregulares.

Clinical relevance

Los modelos semistructurados y de documentos sustentan el intercambio de datos web y el desarrollo de aplicaciones modernas: XML y JSON son los formatos dominantes para las API, la configuración y la mensajería, y las bases de datos de documentos almacenan datos flexibles y en evolución para sistemas web, móviles y de gestión de contenido donde los esquemas relacionales rígidos serían engorrosos.

History

Los datos semistructurados surgieron en la década de 1990 para describir datos web y de integración heterogéneos que no encajaban en esquemas fijos. XML se convirtió en un estándar del W3C en 1998 con los lenguajes de consulta asociados XPath y XQuery; JSON se convirtió más tarde en el formato ligero de facto para las API web, y las bases de datos de documentos popularizaron el almacenamiento directo de documentos JSON, reviviendo y extendiendo la tradición semistructurada.

Key figures

  • Serge Abiteboul
  • Peter Buneman
  • Dan Suciu

Related topics

Seminal works

  • abiteboul2000
  • garciamolina2008

Frequently asked questions

¿Es un modelo de documento lo mismo que no tener esquema?
No exactamente. Los modelos de documentos son flexibles en cuanto al esquema en lugar de carecer de él: los documentos individuales llevan su propia estructura, y se pueden aplicar esquemas opcionales (como JSON Schema o XML Schema) para la validación. La diferencia con el modelo relacional es que no se requiere que la estructura sea uniforme en todos los registros.
¿Cuándo son preferibles los modelos de documentos a las tablas relacionales?
Los modelos de documentos se adaptan a datos que son naturalmente anidados, heterogéneos o que evolucionan rápidamente — como perfiles de usuario, entradas de catálogo o eventos registrados — donde forzar un esquema de tabla uniforme sería incómodo. Los modelos relacionales siguen siendo preferibles cuando los datos son regulares y se necesitan una integridad sólida de múltiples registros y uniones complejas.

Methods for this concept

Related concepts