Yarı Yapılandırılmış ve Belge Modelleri
Yarı yapılandırılmış ve belge veri modelleri, veriyi kendi kendini tanımlayan, düzensiz yapılı ağaçlar veya iç içe geçmiş nesneler (XML ve JSON'da olduğu gibi) olarak temsil etmektedir; bu modellerde yapı, katı bir şema ile sabitlenmek yerine veriyle birlikte taşınmaktadır.
Tanım
Yarı yapılandırılmış veri, belirli bir organizasyonel yapıya sahip olan ancak sabit bir şemaya uymayan, genellikle etiketli ağaçlar veya iç içe geçmiş anahtar-değer nesneleri olarak modellenen veridir; belge modelleri ise bu tür verileri sabit tablolardaki satırlar yerine kendi içinde bütünleşik belgeler (genellikle JSON veya XML) olarak depolamaktadır.
Kapsam
Bu konu, tek tip bir şema ilişkisel gereksinimini gevşeten veri modellerini kapsamaktadır: ağaç ve grafik şekilli yarı yapılandırılmış veriler, DTD'leri ve şemaları ile XML ve belge depoları tarafından kullanılan JSON tabanlı belge modelleri. İç içe yerleştirme, isteğe bağlı ve tekrarlanan alanlar, şema esnekliği ve bunlar üzerinde çalışan yol ve ağaç odaklı sorgu dilleri (XPath ve XQuery gibi) ele alınmaktadır. NoSQL sistemlerinin ve tutarlılık modellerinin daha geniş mühendisliği bu kapsamın dışındadır; bunlar büyük veri ve NoSQL alanında ele alınmaktadır.
Temel sorular
- Kendi kendini tanımlayan, şema esnekliğine sahip veri, katı ilişkisel tablolardan nasıl farklılaşmaktadır?
- XML ve JSON, iç içe geçmiş ve düzensiz verileri temsil etmek için nasıl kullanılmaktadır?
- İsteğe bağlı şemalar (DTD'ler, XML Şeması, JSON Şeması) hangi rolü oynamaktadır?
- XPath ve XQuery gibi yol ve ağaç sorgu dilleri verilerde nasıl gezinmektedir?
- Belge modellerinin ilişkisel modele göre avantajları ve dezavantajları nelerdir?
Anahtar kavramlar
- yarı yapılandırılmış (ağaç/grafik) veri
- XML ve DTD/XML Şeması
- JSON ve belge depoları
- iç içe geçmiş ve tekrarlanan alanlar
- okuma anında şema (schema-on-read) ve yazma anında şema (schema-on-write)
- XPath ve XQuery
- kendi kendini tanımlayan veri
- şema evrimi
Temel kuramlar
- Kendi kendini tanımlayan ağaç yapılı veri
- Yarı yapılandırılmış veri, yapının değerlerle birlikte kodlandığı etiketli ağaçlar veya grafikler olarak modellenmektedir; bu durum, önceden tanımlanmış bir şema olmaksızın eksik, isteğe bağlı ve heterojen alanlara izin vermektedir.
- Şema esnekliği ve şema zorunluluğu
- Belge ve yarı yapılandırılmış modeller, sabit bir şemanın bütünlük ve sorgu garantilerini esneklik ve evrim kolaylığı ile takas etmektedir; daha güçlü garantilere ihtiyaç duyulduğunda isteğe bağlı olarak XML Şeması veya JSON Şeması gibi şemalara göre doğrulama yapılabilmektedir.
- Yol tabanlı sorgulama
- XPath ve XQuery gibi diller, ağaç yapılı belgelerin bölümlerini yolları ve desenleri gezerek seçmekte ve dönüştürmektedir; bu durum, iç içe geçmiş, düzensiz verilere uygun bir sorgu modeli sunmaktadır.
Klinik önem
Yarı yapılandırılmış ve belge modelleri, web veri alışverişinin ve modern uygulama geliştirmenin temelini oluşturmaktadır: XML ve JSON, API'ler, yapılandırma ve mesajlaşma için baskın formatlardır ve belge veritabanları, katı ilişkisel şemaların hantal olacağı web, mobil ve içerik yönetim sistemleri için esnek, gelişen verileri depolamaktadır.
Tarihçe
Yarı yapılandırılmış veri, 1990'larda sabit şemalara uymayan heterojen web ve entegrasyon verilerini tanımlamak için ortaya çıkmıştır. XML, 1998'de ilişkili sorgu dilleri XPath ve XQuery ile bir W3C standardı haline gelmiştir; JSON daha sonra web API'leri için hafif fiili format olmuştur ve belge veritabanları, JSON belgelerini doğrudan depolamayı yaygınlaştırarak yarı yapılandırılmış geleneği yeniden canlandırmış ve genişletmiştir.
Öne çıkan isimler
- Serge Abiteboul
- Peter Buneman
- Dan Suciu
İlgili konular
Temel eserler
- abiteboul2000
- garciamolina2008
Sıkça sorulan sorular
- Belge modeli, şemasız olmakla aynı anlama mı gelmektedir?
- Tam olarak değil. Belge modelleri şemasız olmaktan ziyade şema esnekliğine sahiptir: bireysel belgeler kendi yapılarını taşımaktadır ve doğrulama için isteğe bağlı şemalar (JSON Şeması veya XML Şeması gibi) uygulanabilmektedir. İlişkisel modelden farkı, yapının tüm kayıtlarda tek tip olmasının zorunlu olmamasıdır.
- Belge modelleri ilişkisel tablolara ne zaman tercih edilmektedir?
- Belge modelleri, kullanıcı profilleri, katalog girişleri veya kaydedilmiş olaylar gibi doğal olarak iç içe geçmiş, heterojen veya hızla gelişen verilere uygun düşmektedir; bu tür durumlarda tek tip bir tablo şeması zorlamak hantal olacaktır. Verilerin düzenli olduğu ve güçlü, çoklu kayıt bütünlüğü ile karmaşık birleştirmelerin gerektiği durumlarda ilişkisel modeller tercih edilmeye devam etmektedir.