ScholarGate
Asistan

Bilgi Çıkarımı

Bilgi çıkarımı, yapılandırılmamış doğal dil metinleri içerisindeki yapılandırılmış bilgileri (varlıklar, ilişkiler ve olaylar) otomatik olarak tanımlama görevidir.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Bilgi çıkarımı, varlıkların bahsedildiği yerleri, aralarındaki ilişkileri ve katıldıkları olayları tespit edip sınıflandırarak yapılandırılmamış metni yapılandırılmış gösterimlere dönüştürmektedir; bu genellikle bir veritabanını veya bilgi tabanını doldurmak amacıyla yapılmaktadır.

Kapsam

Bu konu, metinden yapılandırılmış olguların çıkarılmasını kapsamaktadır: adlandırılmış varlık tanıma, ilişki çıkarımı, olay çıkarımı, eş başvuru çözümlemesi ve şablonların veya bilgi tabanlarının doldurulması. Kural tabanlı, istatistiksel dizi etiketleme, denetimli ve uzaktan denetimli yaklaşımları ile çıkarımın kesinlik (precision) ve geri çağırma (recall) ile değerlendirilmesini ele almaktadır. Çıkarıcıları eğitmek için kullanılan genel makine öğrenimi yöntemleri makine öğrenimi alt alanına aittir; burada vurgu, çıkarım görevleri ve bunların dilbilimsel zorlukları üzerinedir.

Temel sorular

  • Metinde kişiler, kuruluşlar ve konumlar gibi varlıkların bahsedildiği yerler nasıl tespit edilmekte ve sınıflandırılmaktadır?
  • Varlıklar arasındaki ilişkiler nasıl tanımlanmakta ve çıkarılmaktadır?
  • Olaylar ve katılımcıları nasıl tanınmakta ve eş başvuru nasıl çözümlenmektedir?
  • Çıkarım performansı nasıl değerlendirilmekte ve kesinlik (precision) ile geri çağırma (recall) arasında ne gibi ödünleşimler ortaya çıkmaktadır?

Anahtar kavramlar

  • adlandırılmış varlık tanıma
  • ilişki çıkarımı
  • olay çıkarımı
  • eş başvuru çözümlemesi
  • BIO dizi etiketleme
  • şablon doldurma
  • bilgi tabanı doldurma
  • kesinlik (precision) ve geri çağırma (recall)

Temel kuramlar

Dizi etiketleme olarak adlandırılmış varlık tanıma
Varlık bahsedilmelerinin tanımlanması genellikle her bir belirteci (token) bir etiketle (örneğin, bir BIO şeması kullanarak) etiketleme olarak çerçevelenmektedir; bu, bağlamı kullanarak metin parçalarını ve türlerini işaretleyen dizi modelleri tarafından çözülmektedir.
İlişki ve olay çıkarımı
Varlıkların ötesinde, bilgi çıkarımı varlıkların nasıl ilişkili olduğunu ve hangi olayların meydana geldiğini belirleyerek yapılandırılmış şablonları doldurmaktadır; bu görev odaklı çerçeve Mesaj Anlama Konferansları tarafından netleştirilmiştir.
Bilgi tabanı doldurma
Çıkarılan varlıklar ve ilişkiler, bir bilgi tabanı oluşturmak veya genişletmek, bahsedilenleri kanonik varlıklara bağlamak ve büyük metin koleksiyonlarından olguları biriktirmek için bir araya getirilebilmektedir.

Klinik önem

Bilgi çıkarımı, metni biyomedikal literatür madenciliği, finansal ve haber analizi, bilgi grafikleri oluşturma ve belgelerden veritabanlarını doldurma gibi uygulamalar için sorgulanabilir verilere dönüştürerek, büyük hacimli yapılandırılmamış metinlerin sonraki sistemler tarafından kullanılabilir hale gelmesini sağlamaktadır.

Tarihçe

Bilgi çıkarımı, 1980'lerin sonları ve 1990'lardaki Mesaj Anlama Konferansları (MUC) tarafından şekillendirilmiştir; bu konferanslar adlandırılmış varlık tanıma ve şablon doldurma gibi görevleri tanımlamış ve standartlaştırılmış değerlendirmeyi tanıtmıştır. Alan, el yapımı kurallardan istatistiksel dizi modellerine ve daha sonra sinirsel yöntemlere doğru ilerlemiş, ancak görev yapısını korumuştur.

Öne çıkan isimler

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

İlgili konular

Temel eserler

  • grishman1996
  • jurafsky2023

Sıkça sorulan sorular

Adlandırılmış varlık tanıma nedir?
Adlandırılmış varlık tanıma, kişiler, kuruluşlar, konumlar ve tarihler gibi gerçek dünya varlıklarını adlandıran metin parçalarını bulma ve sınıflandırma görevidir. Birçok ilişki ve olay bu varlıklar cinsinden ifade edildiğinden, genellikle bilgi çıkarımında ilk adımdır.
Bilgi çıkarımı nasıl değerlendirilmektedir?
Çıkarım genellikle kesinlik (precision) (çıkarılan öğelerin ne kadarının doğru olduğu) ve geri çağırma (recall) (doğru öğelerin ne kadarının çıkarıldığı) ile değerlendirilmekte olup, bu metrikler genellikle bir F-ölçütü olarak birleştirilmektedir. Bu durum, çok az bilgi çıkarma ile yanlış bilgi çıkarma arasındaki ödünleşimi yansıtmaktadır.

Bu kavram için yöntemler

İlgili kavramlar