การรู้จำเอนทิตีที่มีชื่อคืออะไร?

การรู้จำเอนทิตีที่มีชื่อคืองานของการค้นหาและจำแนกช่วงของข้อความที่ระบุเอนทิตีในโลกแห่งความเป็นจริง เช่น บุคคล องค์กร สถานที่ และวันที่ โดยทั่วไปแล้วเป็นขั้นตอนแรกในการสกัดสารสนเทศ เนื่องจากความสัมพันธ์และเหตุการณ์จำนวนมากถูกระบุในรูปของเอนทิตีเหล่านี้

การสกัดสารสนเทศได้รับการประเมินอย่างไร?

การสกัดมักจะได้รับการประเมินด้วยความแม่นยำ (สัดส่วนของรายการที่สกัดถูกต้อง) และการระลึกคืน (สัดส่วนของรายการที่ถูกต้องที่ถูกสกัด) ซึ่งมักจะรวมกันเป็นค่า F-measure สิ่งนี้สะท้อนถึงการแลกเปลี่ยนระหว่างการสกัดน้อยเกินไปและการสกัดข้อมูลที่ไม่ถูกต้อง

การสกัดสารสนเทศ

การสกัดสารสนเทศคืองานของการระบุสารสนเทศที่มีโครงสร้างโดยอัตโนมัติ ไม่ว่าจะเป็นเอนทิตี ความสัมพันธ์ และเหตุการณ์ ภายในข้อความภาษาธรรมชาติที่ไม่มีโครงสร้าง

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การสกัดสารสนเทศจะแปลงข้อความที่ไม่มีโครงสร้างให้เป็นรูปแบบที่มีโครงสร้างโดยการตรวจจับและจำแนกการกล่าวถึงเอนทิตี ความสัมพันธ์ระหว่างเอนทิตีเหล่านั้น และเหตุการณ์ที่เอนทิตีเหล่านั้นมีส่วนร่วม ซึ่งมักจะใช้เพื่อเติมฐานข้อมูลหรือฐานความรู้

Scope

หัวข้อนี้ครอบคลุมการสกัดข้อเท็จจริงที่มีโครงสร้างจากข้อความ: การรู้จำเอนทิตีที่มีชื่อ การสกัดความสัมพันธ์ การสกัดเหตุการณ์ การแก้ปัญหาการอ้างอิงร่วม และการเติมเทมเพลตหรือฐานความรู้ โดยกล่าวถึงวิธีการที่ใช้กฎเกณฑ์ การติดป้ายลำดับทางสถิติ และวิธีการแบบมีผู้สอนและแบบมีผู้สอนทางไกล รวมถึงการประเมินการสกัดโดยใช้ความแม่นยำและการระลึกคืน วิธีการเรียนรู้ของเครื่องทั่วไปที่ใช้ในการฝึกตัวสกัดจัดอยู่ในสาขาย่อยของการเรียนรู้ของเครื่อง; ในที่นี้จะเน้นที่งานการสกัดและความท้าทายทางภาษาศาสตร์

Core questions

การกล่าวถึงเอนทิตี เช่น บุคคล องค์กร และสถานที่ ถูกตรวจจับและจำแนกในข้อความได้อย่างไร?
ความสัมพันธ์ระหว่างเอนทิตีถูกระบุและสกัดได้อย่างไร?
เหตุการณ์และผู้เข้าร่วมถูกจดจำได้อย่างไร และการแก้ปัญหาการอ้างอิงร่วมทำได้อย่างไร?
ประสิทธิภาพการสกัดถูกประเมินอย่างไร และเกิดการแลกเปลี่ยนระหว่างความแม่นยำและการระลึกคืนอย่างไร?

Key concepts

การรู้จำเอนทิตีที่มีชื่อ
การสกัดความสัมพันธ์
การสกัดเหตุการณ์
การแก้ปัญหาการอ้างอิงร่วม
การติดป้ายลำดับ BIO
การเติมเทมเพลต
การเติมฐานความรู้
ความแม่นยำและการระลึกคืน

Key theories

การรู้จำเอนทิตีที่มีชื่อในฐานะการติดป้ายลำดับ: การระบุการกล่าวถึงเอนทิตีมักถูกกำหนดให้เป็นการติดป้ายแต่ละโทเค็นด้วยแท็ก (เช่น การใช้โครงร่าง BIO) ซึ่งแก้ไขโดยแบบจำลองลำดับที่ใช้ประโยชน์จากบริบทเพื่อทำเครื่องหมายช่วงและประเภทของช่วงนั้น
การสกัดความสัมพันธ์และเหตุการณ์: นอกเหนือจากเอนทิตีแล้ว การสกัดสารสนเทศยังระบุว่าเอนทิตีมีความสัมพันธ์กันอย่างไรและเกิดเหตุการณ์อะไรขึ้น โดยเติมเทมเพลตที่มีโครงสร้าง; กรอบงานที่ขับเคลื่อนด้วยงานนี้ได้รับการตกผลึกโดยการประชุม Message Understanding Conferences
การเติมฐานความรู้: เอนทิตีและความสัมพันธ์ที่สกัดได้สามารถนำมารวมกันเพื่อสร้างหรือขยายฐานความรู้ โดยเชื่อมโยงการกล่าวถึงกับเอนทิตีที่เป็นมาตรฐานและรวบรวมข้อเท็จจริงจากชุดข้อความขนาดใหญ่

Clinical relevance

การสกัดสารสนเทศเปลี่ยนข้อความเป็นข้อมูลที่สามารถสอบถามได้สำหรับการใช้งาน เช่น การทำเหมืองวรรณกรรมชีวการแพทย์ การวิเคราะห์ทางการเงินและข่าว การสร้างกราฟความรู้ และการเติมฐานข้อมูลจากเอกสาร ทำให้ข้อความที่ไม่มีโครงสร้างจำนวนมากสามารถนำไปใช้โดยระบบปลายน้ำได้

History

การสกัดสารสนเทศได้รับอิทธิพลจากการประชุม Message Understanding Conferences (MUC) ในช่วงปลายทศวรรษ 1980 และ 1990 ซึ่งกำหนดงานต่างๆ เช่น การรู้จำเอนทิตีที่มีชื่อและการเติมเทมเพลต และนำเสนอการประเมินที่เป็นมาตรฐาน สาขาได้เปลี่ยนจากกฎที่สร้างด้วยมือไปสู่แบบจำลองลำดับทางสถิติ และต่อมาเป็นวิธีการทางประสาทเทียม ในขณะที่ยังคงรักษากรอบงานไว้

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

การรู้จำเอนทิตีที่มีชื่อคืออะไร?: การรู้จำเอนทิตีที่มีชื่อคืองานของการค้นหาและจำแนกช่วงของข้อความที่ระบุเอนทิตีในโลกแห่งความเป็นจริง เช่น บุคคล องค์กร สถานที่ และวันที่ โดยทั่วไปแล้วเป็นขั้นตอนแรกในการสกัดสารสนเทศ เนื่องจากความสัมพันธ์และเหตุการณ์จำนวนมากถูกระบุในรูปของเอนทิตีเหล่านี้
การสกัดสารสนเทศได้รับการประเมินอย่างไร?: การสกัดมักจะได้รับการประเมินด้วยความแม่นยำ (สัดส่วนของรายการที่สกัดถูกต้อง) และการระลึกคืน (สัดส่วนของรายการที่ถูกต้องที่ถูกสกัด) ซึ่งมักจะรวมกันเป็นค่า F-measure สิ่งนี้สะท้อนถึงการแลกเปลี่ยนระหว่างการสกัดน้อยเกินไปและการสกัดข้อมูลที่ไม่ถูกต้อง