ScholarGate
Assistent

Semistrukturierte und Dokumentenmodelle

Semistrukturierte und Dokumenten-Datenmodelle stellen Daten als selbstbeschreibende, unregelmäßig strukturierte Bäume oder verschachtelte Objekte dar – wie in XML und JSON –, wobei die Struktur mit den Daten transportiert wird, anstatt durch ein starres Schema festgelegt zu sein.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Semistrukturierte Daten sind Daten, die eine gewisse Organisationsstruktur aufweisen, aber keinem festen Schema entsprechen, typischerweise modelliert als beschriftete Bäume oder verschachtelte Schlüssel-Wert-Objekte; Dokumentenmodelle speichern solche Daten als eigenständige Dokumente (üblicherweise JSON oder XML) anstatt als Zeilen in festen Tabellen.

Scope

Dieses Thema behandelt Datenmodelle, die die relationale Anforderung eines einheitlichen Schemas lockern: baum- und graphenförmige semistrukturierte Daten, XML mit seinen DTDs und Schemata sowie JSON-basierte Dokumentenmodelle, die von Dokumentenspeichern verwendet werden. Es behandelt Verschachtelung, optionale und wiederholte Felder, Schemflexibilität und die pfad- und baumorientierten Abfragesprachen (wie XPath und XQuery), die darauf operieren. Es schließt die breitere technische Umsetzung von NoSQL-Systemen und Konsistenzmodellen aus, die im Bereich Big Data und NoSQL behandelt werden.

Core questions

  • Wie unterscheiden sich selbstbeschreibende, schemaflexible Daten von starren relationalen Tabellen?
  • Wie werden XML und JSON verwendet, um verschachtelte und unregelmäßige Daten darzustellen?
  • Welche Rolle spielen optionale Schemata (DTDs, XML Schema, JSON Schema)?
  • Wie navigieren Pfad- und Baumabfragesprachen wie XPath und XQuery durch die Daten?
  • Welche Kompromisse ergeben sich bei Dokumentenmodellen im Vergleich zum relationalen Modell?

Key concepts

  • semistrukturierte (Baum-/Graph-)Daten
  • XML und DTD/XML Schema
  • JSON und Dokumentenspeicher
  • verschachtelte und wiederholte Felder
  • Schema-on-read versus Schema-on-write
  • XPath und XQuery
  • selbstbeschreibende Daten
  • Schema-Evolution

Key theories

Selbstbeschreibende baumstrukturierte Daten
Semistrukturierte Daten werden als beschriftete Bäume oder Graphen modelliert, in denen die Struktur zusammen mit den Werten kodiert ist, was fehlende, optionale und heterogene Felder ohne ein vordefiniertes Schema ermöglicht.
Schemaflexibilität versus Schemaerzwingung
Dokumenten- und semistrukturierte Modelle tauschen die Integritäts- und Abfragegarantien eines festen Schemas gegen Flexibilität und einfache Evolution ein, wobei optional eine Validierung gegen Schemata wie XML Schema oder JSON Schema erfolgen kann, wenn stärkere Garantien erforderlich sind.
Pfadbasierte Abfrage
Sprachen wie XPath und XQuery wählen und transformieren Teile baumstrukturierter Dokumente, indem sie Pfade und Muster navigieren, und bieten so ein Abfragemodell, das für verschachtelte, unregelmäßige Daten geeignet ist.

Clinical relevance

Semistrukturierte und Dokumentenmodelle bilden die Grundlage für den Datenaustausch im Web und die moderne Anwendungsentwicklung: XML und JSON sind die dominierenden Formate für APIs, Konfiguration und Messaging, und Dokumentendatenbanken speichern flexible, sich entwickelnde Daten für Web-, Mobil- und Content-Management-Systeme, wo starre relationale Schemata umständlich wären.

History

Semistrukturierte Daten entstanden in den 1990er Jahren, um heterogene Web- und Integrationsdaten zu beschreiben, die nicht in feste Schemata passten. XML wurde 1998 mit den zugehörigen Abfragesprachen XPath und XQuery zu einem W3C-Standard; JSON wurde später zum leichtgewichtigen De-facto-Format für Web-APIs, und Dokumentendatenbanken popularisierten das direkte Speichern von JSON-Dokumenten, wodurch die semistrukturierte Tradition wiederbelebt und erweitert wurde.

Key figures

  • Serge Abiteboul
  • Peter Buneman
  • Dan Suciu

Related topics

Seminal works

  • abiteboul2000
  • garciamolina2008

Frequently asked questions

Ist ein Dokumentenmodell dasselbe wie kein Schema zu haben?
Nicht genau. Dokumentenmodelle sind schemaflexibel statt schemafrei: Einzelne Dokumente tragen ihre eigene Struktur, und optionale Schemata (wie JSON Schema oder XML Schema) können zur Validierung angewendet werden. Der Unterschied zum relationalen Modell besteht darin, dass die Struktur nicht über alle Datensätze hinweg einheitlich sein muss.
Wann sind Dokumentenmodelle relationalen Tabellen vorzuziehen?
Dokumentenmodelle eignen sich für Daten, die von Natur aus verschachtelt, heterogen oder sich schnell entwickelnd sind – wie Benutzerprofile, Katalogeinträge oder protokollierte Ereignisse –, wo die Erzwingung eines einheitlichen Tabellenschemas umständlich wäre. Relationale Modelle bleiben vorzuziehen, wenn Daten regelmäßig sind und starke, datensatzübergreifende Integrität sowie komplexe Joins erforderlich sind.

Methods for this concept

Related concepts