ScholarGate
Asistan

Hesaplamalı Morfoloji

Kelimelerin iç yapısının makine tarafından modellenmesi — analiz, üretim, kök bulma (stemming), lemmalaştırma (lemmatization) ve alt kelime segmentasyonu — sonlu durum morfolojisinden modern sinirsel sistemler tarafından kullanılan bayt-çifti kodlamasına kadar.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Hesaplamalı morfoloji, kelime biçimlerinin kurucu morfemleri ve morfolojik özellikleri açısından algoritmik analizi ve üretimidir.

Kapsam

Kelime yapısının hesaplamalı olarak ele alınmasını kapsar: sonlu durum dönüştürücüleri (finite-state transducers) ile morfolojik analiz ve üretim, iki seviyeli morfoloji, kök bulma (stemming) ve lemmalaştırma (lemmatization) ile bayt-çifti kodlaması gibi veri odaklı alt kelime segmentasyonu. Tipolojik olarak farklı dillerdeki çekim (inflection), türetme (derivation) ve birleşik kelime oluşturma (compounding) konularını ele almaktadır. Temel sonlu durum mekanizması, temel kavramlar alanında detaylandırılmaktadır.

Temel sorular

  • Morfolojik değişimler sonlu durum dönüştürücüleri ile nasıl modellenmektedir?
  • Kök bulma (stemming) ve lemmalaştırma (lemmatization) arasındaki fark nedir?
  • Alt kelime segmentasyonu, sinirsel modellerde nadir ve görülmemiş kelimeleri nasıl ele almaktadır?
  • Morfoloji, eklemeli (agglutinative) ve şablonlu (templatic) diller için neden daha zordur?

Anahtar kavramlar

  • morfem
  • çekim (inflection) ve türetme (derivation)
  • iki seviyeli morfoloji
  • sonlu durum dönüştürücü (finite-state transducer)
  • kök bulma (stemming)
  • lemmalaştırma (lemmatization)
  • bayt-çifti kodlaması (byte-pair encoding)
  • eklemleme (agglutination)

Temel kuramlar

İki seviyeli morfoloji
Koskenniemi'nin yüzey ve sözlüksel kelime biçimlerini paralel sonlu durum kuralları aracılığıyla ilişkilendiren modeli, tek bir dilbilgisinin hem biçimleri analiz etmesini hem de üretmesini sağlamaktadır.
Veri odaklı alt kelime segmentasyonu
Bayt-çifti kodlamasında olduğu gibi sık kullanılan karakter dizilerinden oluşan bir kelime dağarcığı öğrenilmesi, sinirsel modellerin herhangi bir kelimeyi alt kelime birimlerinin bir dizisi olarak temsil edebilmesini sağlamaktadır.

Tarihçe

Koskenniemi'nin 1983 tarihli iki seviyeli morfolojisi, morfolojik işleme için sonlu durum yöntemlerini standart olarak belirlemiş ve Beesley ve Karttunen'in el kitabında pekiştirilmiştir. Sinirsel modellerin yükselişiyle birlikte, elle oluşturulan morfolojik analizciler, nadir kelimeleri işlerken açık morfolojiyi atlayan bayt-çifti kodlaması gibi öğrenilmiş alt kelime segmentasyonu ile tamamlanmıştır.

Tartışmalar

Açık morfolojiye karşı alt kelime birimleri
Sinirsel sistemlerin dilbilimsel olarak bilgilendirilmiş morfolojik analize mi yoksa istatistiksel alt kelime segmentasyonunun yeterli olup olmadığına dair bir tartışmadır; cevap, dil tipine ve veri ölçeğine bağlı görünmektedir.

Öne çıkan isimler

  • Kimmo Koskenniemi
  • Lauri Karttunen
  • Kenneth Beesley
  • Rico Sennrich

İlgili konular

Temel eserler

  • koskenniemi1983
  • beesley2003
  • sennrich2016

Sıkça sorulan sorular

Kök bulma (stemming) ve lemmalaştırma (lemmatization) arasındaki fark nedir?
Kök bulma (stemming), ekleri kabaca ortak bir köke ayırır (örn. 'studies' kelimesini 'studi'ye dönüştürmek gibi), lemmalaştırma (lemmatization) ise morfolojik bilgi kullanarak bir kelimeyi sözlük biçimine eşler (örn. 'studies' kelimesini 'study'ye eşlemek gibi).

Bu kavram için yöntemler

İlgili kavramlar