Sözdizimsel Ayrıştırma ve Dilbilgisel Biçimcilikler
Cümlelerin dilbilgisel yapısının makine tarafından elde edilmesi: Yasal yapıları tanımlayan dilbilgisel biçimcilikler ve bileşen ağaçlarından bağımlılık grafiklerine kadar bu yapıları hesaplayan algoritmalar.
Tanım
Ayrıştırma, bir dilbilgisine göre bir girdi dizisine dilbilgisel yapının hesaplamalı olarak atanmasıdır; dilbilgisel biçimcilikler ise hangi yapıların yasal olduğunu belirtmek için kullanılan sistemlerdir.
Kapsam
Hesaplamalı dilbilimde sözdizimsel analizi kapsamaktadır — bağlamdan bağımsız bileşen ayrıştırmasını ve bunun olasılıksal ve çizelge tabanlı algoritmalarını, bağımlılık ayrıştırmasını, basit bağlamdan bağımsız dilbilgilerinin ötesindeki başlıca dilbilgisel biçimcilikleri ve ayrıştırmayı besleyen dizi etiketleme görevlerini (sözcük türü etiketleme gibi). Hesaplamalı anlambilimde ele alınan anlamsal yorumlama ve temellerde kapsanan temel otomat teorisi kapsam dışıdır.
Alt konular
Temel sorular
- Bir cümleye sözdizimsel bir ağaç veya bağımlılık grafiği verimli bir şekilde nasıl atanabilir?
- Hangi dilbilgisel biçimcilikler doğal dil sözdizimini yeterince yakalamaktadır?
- Olasılıklar, birçok olası ayrıştırma arasındaki belirsizliği gidermeye nasıl yardımcı olmaktadır?
- Etiketleme ve öbekleme tam ayrıştırmayı nasıl desteklemektedir?
Anahtar kavramlar
- bileşen ayrıştırması
- bağımlılık ayrıştırması
- bağlamdan bağımsız dilbilgisi
- çizelge ayrıştırması
- olasılıksal dilbilgisi
- sözcük türü etiketleme
- ağaç bankası (treebank)
- yapısal belirsizlik
Temel kuramlar
- Çizelge ayrıştırması
- CKY ve Earley gibi, paylaşılan alt ayrıştırmaları yeniden kullanarak bir cümlenin tüm olası analizlerini polinom zamanda hesaplayan dinamik programlama algoritmaları.
- Olasılıksal bağlamdan bağımsız dilbilgileri
- Doğal dilin yaygın yapısal belirsizliğini ele alarak, en olası ayrıştırmanın seçilebilmesi için dilbilgisi kurallarına olasılıklar eklenmesi.
Tarihçe
Erken dönem ayrıştırma, elle oluşturulmuş dilbilgilerine ve kapsamlı aramaya dayanmaktaydı; CKY ve Earley algoritmaları bağlamdan bağımsız ayrıştırmayı verimli hale getirdi. 1990'larda ağaç bankalarının (treebank) yayımlanması veri odaklı olasılıksal ayrıştırmayı mümkün kıldı ve 2000'li yıllarda bağımlılık ayrıştırması diller arası sağlamlığı nedeniyle öne çıktı, daha sonra sinirsel ayrıştırıcılar tarafından kapsandı.
Tartışmalar
- Bileşen mi bağımlılık gösterimi mi?
- Sözdiziminin en iyi şekilde iç içe geçmiş ifadeler olarak mı yoksa etiketli baş-bağımlı ilişkiler olarak mı temsil edildiği; her ikisi de yaygın olarak kullanılmakta olup, bağımlılık serbest sözdizimli diller ve sonraki görevler için tercih edilmektedir.
Öne çıkan isimler
- Jay Earley
- Joakim Nivre
- Christopher Manning
- Mitchell Marcus
İlgili konular
Temel eserler
- manning1999
- kubler2009
- jurafsky2025
Sıkça sorulan sorular
- Dilbilgisi kuralları biliniyorsa ayrıştırma neden zordur?
- Doğal cümleler aşırı derecede belirsizdir: tek bir dizi birçok yasal yapıya sahip olabilmektedir. Bu nedenle ayrıştırma sadece yapıları bulmakla kalmamalı, aynı zamanda onları sıralamalıdır; bu da olasılıksal ve öğrenilmiş modellerin neden temel olduğunu açıklamaktadır.