Derlem Dilbilimi ve Web Derlemleri
Dilin büyük otantik metin örnekleri aracılığıyla incelenmesi: derlemlerin oluşturulması ve sorgulanması, birlikte kullanımların (collocation) ve sıklıkların ölçülmesi ve Web'in geniş bir dilbilimsel kaynak olarak kullanılması.
Tanım
Derlem dilbilimi, doğal olarak oluşan metinlerin sistematik koleksiyonlarına dayanan, sıklık, konkordans ve ilişkilendirme ölçütleriyle analiz edilen dilin ampirik çalışmasıdır.
Kapsam
Metin derlemlerinin tasarımı, derlenmesi ve analizini kapsar — örnekleme ve denge, konkordanslama ve anahtar kelime analizi, karşılıklı bilgi (mutual information) gibi sıklık ve birlikte kullanım (collocation) istatistikleri ve Web'in bir derlem olarak kullanımı. Hem betimleyici derlem dilbilimini hem de hesaplamalı sistemler için veri tedarikini ele almaktadır. Ek açıklama şemaları (annotation schemes) ve ağaç bankaları (treebanks) ilgili başka bir konuda ele alınmaktadır.
Temel sorular
- Derlemler, bir dil çeşidini adil bir şekilde temsil etmek için nasıl örneklenir?
- Karşılıklı bilgi (mutual information) gibi ilişkilendirme ölçütleri, birlikte kullanımları (collocation) nasıl ortaya çıkarır?
- Web'i bir derlem olarak kullanmanın faydaları ve zorlukları nelerdir?
- Konkordanslar, dilbilimsel ve leksikografik analizi nasıl destekler?
Anahtar kavramlar
- derlem tasarımı
- konkordans
- birlikte kullanım (collocation)
- noktasal karşılıklı bilgi (pointwise mutual information)
- sıklık dağılımı
- anahtar kelime analizi
- derlem olarak Web
- dengeli derlem
Temel kuramlar
- Birlikte kullanım (collocation) için ilişkilendirme ölçütleri
- Noktasal karşılıklı bilgi (pointwise mutual information) gibi istatistikleri kullanarak, rastlantıdan daha sık birlikte ortaya çıkan kelime çiftlerini tespit etmek, birlikte kullanımları (collocation) ortaya çıkarmak ve leksikografiyi desteklemek.
- Derlem olarak Web
- Web'i, kontrolsüz olsa da, devasa bir derlem olarak ele almak; nadir görülen olguların ve düşük kaynaklı çeşitlerin incelenmesini sağlamakla birlikte, temsil edilebilirlik (representativeness) sorularını da gündeme getirmektedir.
Tarihçe
Derlem dilbilimi, Sinclair'in leksikografik projelerinden ve dengeli derlemlerin oluşturulmasından gelişmiştir; Church ve Hanks'in 1989'daki karşılıklı bilgi (mutual information) üzerine çalışmaları ise istatistiksel ilişkilendirme ölçütlerini ana akıma taşımıştır. Kilgarriff ve Grefenstette daha sonra Web'i, gürültülü olsa da, eşi benzeri görülmemiş ölçekte meşru bir derlem olarak kabul ettirmişlerdir.
Tartışmalar
- Web verilerinin temsil edilebilirliği
- Web derlemleri çok büyük olmakla birlikte dengesizdir ve karakterize edilmesi zordur; bu durum, onlardan elde edilen sonuçların bir bütün olarak dile ne kadar genellenebileceği konusunda tartışmalara yol açmaktadır.
Öne çıkan isimler
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
İlgili konular
Temel eserler
- church1989
- kilgarriff2003
Sıkça sorulan sorular
- Birlikte kullanım (collocation) nedir?
- Birlikte kullanım (collocation), 'strong tea' yerine 'powerful tea' gibi, rastlantıdan daha sık birlikte ortaya çıkan kelime çifti veya grubudur. İlişkilendirme ölçütleri, bunları otomatik olarak tespit etmeye yardımcı olmaktadır.