ScholarGate
Asisten

Ekstraksi Informasi

Ekstraksi informasi adalah tugas mengidentifikasi informasi terstruktur—entitas, relasi, dan peristiwa—secara otomatis dalam teks bahasa alami yang tidak terstruktur.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Ekstraksi informasi mengubah teks tidak terstruktur menjadi representasi terstruktur dengan mendeteksi dan mengklasifikasikan penyebutan entitas, relasi di antara mereka, dan peristiwa yang mereka ikuti, seringkali untuk mengisi basis data atau basis pengetahuan.

Scope

Topik ini mencakup ekstraksi fakta terstruktur dari teks: pengenalan entitas bernama, ekstraksi relasi, ekstraksi peristiwa, resolusi koreferensi, dan pengisian templat atau basis pengetahuan. Ini membahas pendekatan berbasis aturan, pelabelan urutan statistik, serta pendekatan yang diawasi dan diawasi secara tidak langsung, serta evaluasi ekstraksi berdasarkan presisi dan recall. Metode pembelajaran mesin umum yang digunakan untuk melatih ekstraktor termasuk dalam subbidang pembelajaran mesin; di sini penekanannya adalah pada tugas ekstraksi dan tantangan linguistiknya.

Core questions

  • Bagaimana penyebutan entitas seperti orang, organisasi, dan lokasi dideteksi dan diklasifikasikan dalam teks?
  • Bagaimana relasi antar entitas diidentifikasi dan diekstraksi?
  • Bagaimana peristiwa dan partisipannya dikenali, dan bagaimana koreferensi diselesaikan?
  • Bagaimana kinerja ekstraksi dievaluasi, dan pertukaran apa yang muncul antara presisi dan recall?

Key concepts

  • pengenalan entitas bernama
  • ekstraksi relasi
  • ekstraksi peristiwa
  • resolusi koreferensi
  • pelabelan urutan BIO
  • pengisian templat
  • pengisian basis pengetahuan
  • presisi dan recall

Key theories

Pengenalan entitas bernama sebagai pelabelan urutan
Mengidentifikasi penyebutan entitas umumnya dibingkai sebagai pelabelan setiap token dengan tag (misalnya, menggunakan skema BIO), diselesaikan oleh model urutan yang memanfaatkan konteks untuk menandai rentang dan jenisnya.
Ekstraksi relasi dan peristiwa
Selain entitas, ekstraksi informasi mengidentifikasi bagaimana entitas berhubungan dan peristiwa apa yang terjadi, mengisi templat terstruktur; pembingkaian berbasis tugas ini dikristalisasi oleh Message Understanding Conferences.
Pengisian basis pengetahuan
Entitas dan relasi yang diekstraksi dapat diagregasikan untuk membangun atau memperluas basis pengetahuan, menghubungkan penyebutan ke entitas kanonis dan mengumpulkan fakta dari koleksi teks yang besar.

Clinical relevance

Ekstraksi informasi mengubah teks menjadi data yang dapat ditanyakan untuk aplikasi seperti penambangan literatur biomedis, analisis keuangan dan berita, pembangunan grafik pengetahuan, dan pengisian basis data dari dokumen, membuat sejumlah besar teks tidak terstruktur dapat digunakan oleh sistem hilir.

History

Ekstraksi informasi dibentuk oleh Message Understanding Conferences (MUC) pada akhir 1980-an dan 1990-an, yang mendefinisikan tugas-tugas seperti pengenalan entitas bernama dan pengisian templat serta memperkenalkan evaluasi terstandardisasi. Bidang ini beralih dari aturan yang dibuat secara manual ke model urutan statistik dan kemudian metode neural, sambil mempertahankan struktur tugasnya.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

Apa itu pengenalan entitas bernama?
Pengenalan entitas bernama adalah tugas menemukan dan mengklasifikasikan rentang teks yang menamai entitas dunia nyata, seperti orang, organisasi, lokasi, dan tanggal. Ini biasanya merupakan langkah pertama dalam ekstraksi informasi, karena banyak relasi dan peristiwa dinyatakan dalam entitas-entitas ini.
Bagaimana ekstraksi informasi dievaluasi?
Ekstraksi biasanya dievaluasi dengan presisi (berapa fraksi item yang diekstraksi benar) dan recall (berapa fraksi item yang benar diekstraksi), seringkali digabungkan menjadi F-measure. Ini mencerminkan pertukaran antara mengekstraksi terlalu sedikit dan mengekstraksi informasi yang salah.

Methods for this concept

Related concepts