Bilgi Çıkarımı
Yapılandırılmamış metni yapılandırılmış veriye dönüştürme: adlandırılmış varlıkları, aralarındaki ilişkileri ve katıldıkları olayları tespit ederek belgelerin sorgulanabilir ve bir araya getirilebilir hale gelmesini sağlama.
Tanım
Bilgi çıkarımı, yapılandırılmamış doğal dil metninden yapılandırılmış olguların — varlıklar, ilişkiler ve olaylar — otomatik olarak belirlenmesidir.
Kapsam
Metinden yapılandırılmış bilgi çıkarımını — adlandırılmış varlık tanıma, ilişki çıkarımı, olay çıkarımı ve zamansal ve şablon doldurmayı — kapsar. Hem kural tabanlı hem de öğrenilmiş yaklaşımları ve ortak görevlerle oluşturulan değerlendirme geleneklerini ele almaktadır. Temel dizi etiketleme modelleri ayrıştırma alanında incelenmektedir.
Temel sorular
- Metinde adlandırılmış varlıklar nasıl tespit edilir ve sınıflandırılır?
- Varlıklar arasındaki ilişkiler ve olaylar nasıl çıkarılır?
- Ortak değerlendirmeler görevi ve metriklerini nasıl şekillendirmiştir?
- Kural tabanlı ve öğrenilmiş çıkarım yöntemleri nasıl karşılaştırılır?
Anahtar kavramlar
- adlandırılmış varlık tanıma
- ilişki çıkarımı
- olay çıkarımı
- şablon doldurma
- koşullu rastgele alan (conditional random field)
- uzaktan denetim
- ontoloji popülasyonu
- değerlendirme kampanyası
Temel kuramlar
- Şablon doldurmalı bilgi çıkarımı
- Çıkarımı, metinde bulunan varlıklar ve ilişkilerle yapılandırılmış şablonları doldurma olarak çerçeveleyen, Mesaj Anlama Konferansları'nda geliştirilen formülasyon.
- Dizi etiketleme çıkarımı
- Varlık ve aralık çıkarımını, koşullu rastgele alanlar (conditional random fields) ve belirteçler (tokens) üzerinde sinirsel etiketleyiciler (neural taggers) gibi modellerle dizi etiketleme olarak ele alma.
Tarihçe
Bilgi çıkarımı, 1990'lardaki Mesaj Anlama Konferansları (Message Understanding Conferences) tarafından şekillendirilmiştir; bu konferanslar adlandırılmış varlık ve şablon doldurma görevlerini ve bunların değerlendirmesini tanımlamıştır. Alan, elle oluşturulmuş kalıplardan koşullu rastgele alanlar (conditional random fields) gibi istatistiksel dizi modellerine, ardından da büyük ölçekli sinirsel ve uzaktan denetimli çıkarıma doğru ilerlemiştir.
Tartışmalar
- Denetimliye karşı uzaktan denetimli çıkarım
- Maliyetli elle etiketlenmiş verilere güvenmek mi yoksa uzaktan denetim yoluyla bilgi tabanlarından önyükleme yapmak mı gerektiği tartışması; uzaktan denetim ölçeklenebilir olsa da gürültülü etiketler (noisy labels) ortaya çıkarabilmektedir.
Öne çıkan isimler
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
İlgili konular
Temel eserler
- grishman1996
- lafferty2001
Sıkça sorulan sorular
- Adlandırılmış varlık tanıma nedir?
- Adlandırılmış varlık tanıma, metindeki kişi, kuruluş ve konum gibi özel ad aralıklarını bulur ve sınıflandırır. Genellikle belgelerden ilişkileri ve olayları çıkarmada ilk adım olarak kabul edilmektedir.