Apa itu pengenalan entitas bernama?

Pengenalan entitas bernama adalah tugas menemukan dan mengklasifikasikan rentang teks yang menamai entitas dunia nyata, seperti orang, organisasi, lokasi, dan tanggal. Ini biasanya merupakan langkah pertama dalam ekstraksi informasi, karena banyak relasi dan peristiwa dinyatakan dalam entitas-entitas ini.

Bagaimana ekstraksi informasi dievaluasi?

Ekstraksi biasanya dievaluasi dengan presisi (berapa fraksi item yang diekstraksi benar) dan recall (berapa fraksi item yang benar diekstraksi), seringkali digabungkan menjadi F-measure. Ini mencerminkan pertukaran antara mengekstraksi terlalu sedikit dan mengekstraksi informasi yang salah.

Ekstraksi Informasi

Ekstraksi informasi adalah tugas mengidentifikasi informasi terstruktur—entitas, relasi, dan peristiwa—secara otomatis dalam teks bahasa alami yang tidak terstruktur.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Ekstraksi informasi mengubah teks tidak terstruktur menjadi representasi terstruktur dengan mendeteksi dan mengklasifikasikan penyebutan entitas, relasi di antara mereka, dan peristiwa yang mereka ikuti, seringkali untuk mengisi basis data atau basis pengetahuan.

Scope

Topik ini mencakup ekstraksi fakta terstruktur dari teks: pengenalan entitas bernama, ekstraksi relasi, ekstraksi peristiwa, resolusi koreferensi, dan pengisian templat atau basis pengetahuan. Ini membahas pendekatan berbasis aturan, pelabelan urutan statistik, serta pendekatan yang diawasi dan diawasi secara tidak langsung, serta evaluasi ekstraksi berdasarkan presisi dan recall. Metode pembelajaran mesin umum yang digunakan untuk melatih ekstraktor termasuk dalam subbidang pembelajaran mesin; di sini penekanannya adalah pada tugas ekstraksi dan tantangan linguistiknya.

Core questions

Bagaimana penyebutan entitas seperti orang, organisasi, dan lokasi dideteksi dan diklasifikasikan dalam teks?
Bagaimana relasi antar entitas diidentifikasi dan diekstraksi?
Bagaimana peristiwa dan partisipannya dikenali, dan bagaimana koreferensi diselesaikan?
Bagaimana kinerja ekstraksi dievaluasi, dan pertukaran apa yang muncul antara presisi dan recall?

Key concepts

pengenalan entitas bernama
ekstraksi relasi
ekstraksi peristiwa
resolusi koreferensi
pelabelan urutan BIO
pengisian templat
pengisian basis pengetahuan
presisi dan recall

Key theories

Pengenalan entitas bernama sebagai pelabelan urutan: Mengidentifikasi penyebutan entitas umumnya dibingkai sebagai pelabelan setiap token dengan tag (misalnya, menggunakan skema BIO), diselesaikan oleh model urutan yang memanfaatkan konteks untuk menandai rentang dan jenisnya.
Ekstraksi relasi dan peristiwa: Selain entitas, ekstraksi informasi mengidentifikasi bagaimana entitas berhubungan dan peristiwa apa yang terjadi, mengisi templat terstruktur; pembingkaian berbasis tugas ini dikristalisasi oleh Message Understanding Conferences.
Pengisian basis pengetahuan: Entitas dan relasi yang diekstraksi dapat diagregasikan untuk membangun atau memperluas basis pengetahuan, menghubungkan penyebutan ke entitas kanonis dan mengumpulkan fakta dari koleksi teks yang besar.

Clinical relevance

Ekstraksi informasi mengubah teks menjadi data yang dapat ditanyakan untuk aplikasi seperti penambangan literatur biomedis, analisis keuangan dan berita, pembangunan grafik pengetahuan, dan pengisian basis data dari dokumen, membuat sejumlah besar teks tidak terstruktur dapat digunakan oleh sistem hilir.

History

Ekstraksi informasi dibentuk oleh Message Understanding Conferences (MUC) pada akhir 1980-an dan 1990-an, yang mendefinisikan tugas-tugas seperti pengenalan entitas bernama dan pengisian templat serta memperkenalkan evaluasi terstandardisasi. Bidang ini beralih dari aturan yang dibuat secara manual ke model urutan statistik dan kemudian metode neural, sambil mempertahankan struktur tugasnya.

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

Apa itu pengenalan entitas bernama?: Pengenalan entitas bernama adalah tugas menemukan dan mengklasifikasikan rentang teks yang menamai entitas dunia nyata, seperti orang, organisasi, lokasi, dan tanggal. Ini biasanya merupakan langkah pertama dalam ekstraksi informasi, karena banyak relasi dan peristiwa dinyatakan dalam entitas-entitas ini.
Bagaimana ekstraksi informasi dievaluasi?: Ekstraksi biasanya dievaluasi dengan presisi (berapa fraksi item yang diekstraksi benar) dan recall (berapa fraksi item yang benar diekstraksi), seringkali digabungkan menjadi F-measure. Ini mencerminkan pertukaran antara mengekstraksi terlalu sedikit dan mengekstraksi informasi yang salah.