Sözlüksel ve Korpus Kaynakları
Ampirik hesaplamalı dilbilimin dayandığı veri ve bilgi tabanları: metin korpusları, sözlüksel veritabanları ve ontolojiler, kelime yapısının hesaplamalı işlenmesi ve zengin ek açıklamalı ağaçbanklar.
Tanım
Sözlüksel ve korpus kaynakları, ampirik analizi ve dil işleme sistemlerinin eğitimini desteklemek amacıyla oluşturulmuş, metinler, sözlükler ve ek açıklamalar gibi yapılandırılmış dil verisi koleksiyonlarıdır.
Kapsam
Dil kaynaklarının (dengeli ve web korpusları, WordNet gibi sözlüksel-anlamsal veritabanları, hesaplamalı morfoloji ve sözlükler ile ek açıklamalı ağaçbanklar) oluşturulması, düzenlenmesi ve kullanımını kapsar. Korpus tasarımı, temsil edicilik, ek açıklama standartları ve kaynakların sistemlerin eğitimi ve değerlendirmesindeki rolünü ele almaktadır. Bu kaynakları kullanan algoritmik modelleme diğer alanlarda incelenmektedir.
Alt konular
Temel sorular
- Korpuslar, temsil edici ve dengeli olacak şekilde nasıl tasarlanmaktadır?
- Kelime anlamları, makine tarafından okunabilir sözlüksel veritabanlarına nasıl organize edilebilir?
- Morfolojik olarak zengin dillerde kelime yapısı hesaplamalı olarak nasıl temsil edilmektedir?
- Ek açıklamalı ağaçbanklar, veriye dayalı dilbilim için neden merkezi bir öneme sahiptir?
Anahtar kavramlar
- korpus
- temsil edicilik
- sözlüksel veritabanı
- WordNet
- eşanlamlılar kümesi (synset)
- morfolojik sözlük
- ağaçbank (treebank)
- ek açıklama standardı
Temel kuramlar
- Korpusa dayalı ampirizm
- Dilbilimsel genellemelerin ve sistem parametrelerinin yalnızca içgörüye değil, doğrulanmış kullanımın geniş örneklemlerine dayanması gerektiğini savunan metodolojik duruştur.
- Sözlüksel-anlamsal ağlar
- Sözlüğün, WordNet'te olduğu gibi eşanlamlılık ve üst kavram (hypernymy) gibi ilişkilerle birbirine bağlı anlamlar grafiği olarak düzenlenmesi; anlam belirsizliğini gidermeden anlamsal benzerliğe kadar çeşitli görevleri desteklemektedir.
Tarihçe
1990'larda ampirik yöntemlere geçiş, korpusları ve sözlüksel kaynakları temel hale getirmiştir. WordNet, yeniden kullanılabilir bir sözlüksel-anlamsal veritabanı sağlamış, British National Corpus gibi dengeli korpuslar tasarım standartlarını belirlemiş ve Kilgarriff ile Grefenstette'nin çalışmaları, Web'in kendisini dilbilimsel çalışma için geniş bir korpus olarak meşrulaştırmıştır.
Tartışmalar
- Dengeli korpuslar ile Web'in korpus olarak kullanımı tartışması
- Dikkatlice dengelenmiş korpusların mı yoksa karmaşık ama devasa Web'in mi dilbilimsel araştırmalara daha iyi hizmet ettiği; alan, temsil edicilik ile ölçeği karşılaştırarak giderek her ikisini de kullanmaktadır.
Öne çıkan isimler
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
İlgili konular
Temel eserler
- fellbaum1998
- kilgarriff2003
- manning1999
Sıkça sorulan sorular
- İyi bir korpusu ne oluşturur?
- İyi bir korpus, güvenilir istatistikler için yeterince büyük olmalı ve incelenen dil çeşidini temsil etmelidir; kaynakları, örneklemesi ve herhangi bir ek açıklaması açıkça belgelenmiş olmalıdır ki sonuçlar yorumlanabilsin ve yeniden üretilebilsin.