Metin Kodlama ve İşaretleme
Bir metnin bilgisayar tarafından analiz edilebilmesi, aranabilmesi veya görüntülenebilmesi için makine tarafından okunabilir bir biçimde temsil edilmesi gerekmektedir. Metin kodlama, belgelerin yapı, dil, editoryal aygıt ve adlandırılmış varlıklar gibi özelliklerinin açık ve hesaplanabilir hale gelmesini sağlamak amacıyla onlara yapılandırılmış işaretleme (markup) ekleme uygulamasıdır.
Tanım
Bir metnin özelliklerini açık, değiştirilebilir ve hesaplamalı işlemeye ve akademik analize uygun hale getirmek amacıyla yapılandırılmış, makine tarafından okunabilir işaretlemenin metne sistematik olarak uygulanmasıdır.
Kapsam
Beşeri bilimler metinlerinin makine tarafından okunabilir biçimde temsil edilmesinin kuramını ve pratiğini kapsar: Metin Kodlama Girişimi (TEI) ve yönergeleri, XML gibi işaretleme dilleri, belge modellemesi ve şema tasarımı, metaveri standartları ve kontrollü kelime dağarcıkları ile doğuştan dijital ve elektronik edebiyatın kodlanması. Metnin doğası ve belgeleri sıralı hiyerarşiler olarak ele almanın sonuçları hakkındaki temel tartışmaları içermektedir.
Alt konular
Temel sorular
- Metin nedir ve kodlama, metnin hangi özelliklerini açık hale getirmelidir?
- TEI gibi işaretleme standartları, ifade gücü ile birlikte çalışabilirliği nasıl dengelemektedir?
- Bir belgeyi bir şekilde kodlama kararı, başka bir şekilde kodlama kararına kıyasla hangi yorumsal seçimleri içermektedir?
- Metaveri ve kontrollü kelime dağarcıkları, kodlanmış kaynakları nasıl tanımlamalı ve birbirine bağlamalıdır?
Anahtar kavramlar
- İşaretleme
- Şema
- Öğe ve öznitelik
- Belge Tipi Tanımı
- Örtüşen hiyerarşiler
- Birlikte çalışabilirlik
Temel kuramlar
- İçerik Nesnelerinin Sıralı Hiyerarşisi Olarak Metin (OHCO)
- DeRose ve meslektaşları, metinlerin bölümler, paragraflar ve cümleler gibi mantıksal nesnelerin iç içe geçmiş hiyerarşileri olarak en iyi şekilde modellendiğini savunmuşlardır; bu görüş tanımlayıcı işaretlemenin temelini oluşturmuş ancak aynı zamanda örtüşen yapılar hakkında tartışmalara da yol açmıştır.
- Tanımlayıcı işaretleme
- Kodlama, metinsel bir özelliğin nasıl görünmesi gerektiğini değil, ne olduğunu tanımlamalıdır; böylece mantıksal yapı sunumdan ayrılarak aynı kaynağın analiz, arama ve görüntülemeyi desteklemesi sağlanır.
- Topluluk standartları aracılığıyla değişim
- TEI, kodlanmış metinlerin projeler arasında değiş tokuş edilebilmesi ve yeniden kullanılabilmesi için paylaşılan, genişletilebilir bir kelime dağarcığı sağlamakta, böylece birlikte çalışabilirliği beşeri bilimler işaretlemesinin temel bir hedefi haline getirmektedir.
Tarihçe
Yapılandırılmış metin işaretleme, 1960'lı ve 1970'li yıllarda yayıncılık ve bilişim alanlarından ortaya çıkmış, SGML ve daha sonra XML'e yol açmıştır. 1987'de kurulan Metin Kodlama Girişimi, beşeri bilimler metinlerini kodlamak için topluluk yönergeleri oluşturmuştur; 1990'ların başındaki OHCO tartışmaları, bir metni modellemenin ne anlama geldiğini açıklığa kavuşturmuştur. TEI P5 ve sonraki revizyonlar, dijital düzenleme, derlem oluşturma ve arşiv projeleri genelinde kodlama pratiğini pekiştirmiştir.
Tartışmalar
- Metnin temel olarak hiyerarşik olup olmadığı
- OHCO tezi, paragraf sınırlarını aşan alıntılar gibi örtüşen yapıların yaygınlığı nedeniyle sorgulanmış, bu da alternatif modellerin ve bağımsız işaretlemenin (standoff markup) ortaya çıkmasına neden olmuştur.
Öne çıkan isimler
- Allen Renear
- Lou Burnard
- Steven DeRose
- C. M. Sperberg-McQueen
İlgili konular
Temel eserler
- delittle1990
- tei2024
- renear2004
- burnard2014
Sıkça sorulan sorular
- Metinleri neden sadece düz metin dosyaları veya Word belgeleri olarak saklamıyoruz?
- Düz metin veya kelime işlemci dosyaları içeriği sunumla karıştırır ve yapıyı örtük bırakır. Kodlama, başlıklar, isimler ve editoryal notlar gibi özellikleri açık ve makine tarafından okunabilir hale getirir, böylece aynı kaynak birçok farklı şekilde aranabilir, analiz edilebilir, görüntülenebilir ve projeler arasında paylaşılabilir.