ScholarGate
Asistan

Sözlüksel ve Korpus Kaynakları

Ampirik hesaplamalı dilbilimin dayandığı veri ve bilgi tabanları: metin korpusları, sözlüksel veritabanları ve ontolojiler, kelime yapısının hesaplamalı işlenmesi ve zengin ek açıklamalı ağaçbanklar.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Sözlüksel ve korpus kaynakları, ampirik analizi ve dil işleme sistemlerinin eğitimini desteklemek amacıyla oluşturulmuş, metinler, sözlükler ve ek açıklamalar gibi yapılandırılmış dil verisi koleksiyonlarıdır.

Kapsam

Dil kaynaklarının (dengeli ve web korpusları, WordNet gibi sözlüksel-anlamsal veritabanları, hesaplamalı morfoloji ve sözlükler ile ek açıklamalı ağaçbanklar) oluşturulması, düzenlenmesi ve kullanımını kapsar. Korpus tasarımı, temsil edicilik, ek açıklama standartları ve kaynakların sistemlerin eğitimi ve değerlendirmesindeki rolünü ele almaktadır. Bu kaynakları kullanan algoritmik modelleme diğer alanlarda incelenmektedir.

Alt konular

Temel sorular

  • Korpuslar, temsil edici ve dengeli olacak şekilde nasıl tasarlanmaktadır?
  • Kelime anlamları, makine tarafından okunabilir sözlüksel veritabanlarına nasıl organize edilebilir?
  • Morfolojik olarak zengin dillerde kelime yapısı hesaplamalı olarak nasıl temsil edilmektedir?
  • Ek açıklamalı ağaçbanklar, veriye dayalı dilbilim için neden merkezi bir öneme sahiptir?

Anahtar kavramlar

  • korpus
  • temsil edicilik
  • sözlüksel veritabanı
  • WordNet
  • eşanlamlılar kümesi (synset)
  • morfolojik sözlük
  • ağaçbank (treebank)
  • ek açıklama standardı

Temel kuramlar

Korpusa dayalı ampirizm
Dilbilimsel genellemelerin ve sistem parametrelerinin yalnızca içgörüye değil, doğrulanmış kullanımın geniş örneklemlerine dayanması gerektiğini savunan metodolojik duruştur.
Sözlüksel-anlamsal ağlar
Sözlüğün, WordNet'te olduğu gibi eşanlamlılık ve üst kavram (hypernymy) gibi ilişkilerle birbirine bağlı anlamlar grafiği olarak düzenlenmesi; anlam belirsizliğini gidermeden anlamsal benzerliğe kadar çeşitli görevleri desteklemektedir.

Tarihçe

1990'larda ampirik yöntemlere geçiş, korpusları ve sözlüksel kaynakları temel hale getirmiştir. WordNet, yeniden kullanılabilir bir sözlüksel-anlamsal veritabanı sağlamış, British National Corpus gibi dengeli korpuslar tasarım standartlarını belirlemiş ve Kilgarriff ile Grefenstette'nin çalışmaları, Web'in kendisini dilbilimsel çalışma için geniş bir korpus olarak meşrulaştırmıştır.

Tartışmalar

Dengeli korpuslar ile Web'in korpus olarak kullanımı tartışması
Dikkatlice dengelenmiş korpusların mı yoksa karmaşık ama devasa Web'in mi dilbilimsel araştırmalara daha iyi hizmet ettiği; alan, temsil edicilik ile ölçeği karşılaştırarak giderek her ikisini de kullanmaktadır.

Öne çıkan isimler

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

İlgili konular

Temel eserler

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Sıkça sorulan sorular

İyi bir korpusu ne oluşturur?
İyi bir korpus, güvenilir istatistikler için yeterince büyük olmalı ve incelenen dil çeşidini temsil etmelidir; kaynakları, örneklemesi ve herhangi bir ek açıklaması açıkça belgelenmiş olmalıdır ki sonuçlar yorumlanabilsin ve yeniden üretilebilsin.

Bu kavram için yöntemler

İlgili kavramlar