ScholarGate
ผู้ช่วย

การสกัดสารสนเทศ

การสกัดสารสนเทศคืองานของการระบุสารสนเทศที่มีโครงสร้างโดยอัตโนมัติ ไม่ว่าจะเป็นเอนทิตี ความสัมพันธ์ และเหตุการณ์ ภายในข้อความภาษาธรรมชาติที่ไม่มีโครงสร้าง

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การสกัดสารสนเทศจะแปลงข้อความที่ไม่มีโครงสร้างให้เป็นรูปแบบที่มีโครงสร้างโดยการตรวจจับและจำแนกการกล่าวถึงเอนทิตี ความสัมพันธ์ระหว่างเอนทิตีเหล่านั้น และเหตุการณ์ที่เอนทิตีเหล่านั้นมีส่วนร่วม ซึ่งมักจะใช้เพื่อเติมฐานข้อมูลหรือฐานความรู้

Scope

หัวข้อนี้ครอบคลุมการสกัดข้อเท็จจริงที่มีโครงสร้างจากข้อความ: การรู้จำเอนทิตีที่มีชื่อ การสกัดความสัมพันธ์ การสกัดเหตุการณ์ การแก้ปัญหาการอ้างอิงร่วม และการเติมเทมเพลตหรือฐานความรู้ โดยกล่าวถึงวิธีการที่ใช้กฎเกณฑ์ การติดป้ายลำดับทางสถิติ และวิธีการแบบมีผู้สอนและแบบมีผู้สอนทางไกล รวมถึงการประเมินการสกัดโดยใช้ความแม่นยำและการระลึกคืน วิธีการเรียนรู้ของเครื่องทั่วไปที่ใช้ในการฝึกตัวสกัดจัดอยู่ในสาขาย่อยของการเรียนรู้ของเครื่อง; ในที่นี้จะเน้นที่งานการสกัดและความท้าทายทางภาษาศาสตร์

Core questions

  • การกล่าวถึงเอนทิตี เช่น บุคคล องค์กร และสถานที่ ถูกตรวจจับและจำแนกในข้อความได้อย่างไร?
  • ความสัมพันธ์ระหว่างเอนทิตีถูกระบุและสกัดได้อย่างไร?
  • เหตุการณ์และผู้เข้าร่วมถูกจดจำได้อย่างไร และการแก้ปัญหาการอ้างอิงร่วมทำได้อย่างไร?
  • ประสิทธิภาพการสกัดถูกประเมินอย่างไร และเกิดการแลกเปลี่ยนระหว่างความแม่นยำและการระลึกคืนอย่างไร?

Key concepts

  • การรู้จำเอนทิตีที่มีชื่อ
  • การสกัดความสัมพันธ์
  • การสกัดเหตุการณ์
  • การแก้ปัญหาการอ้างอิงร่วม
  • การติดป้ายลำดับ BIO
  • การเติมเทมเพลต
  • การเติมฐานความรู้
  • ความแม่นยำและการระลึกคืน

Key theories

การรู้จำเอนทิตีที่มีชื่อในฐานะการติดป้ายลำดับ
การระบุการกล่าวถึงเอนทิตีมักถูกกำหนดให้เป็นการติดป้ายแต่ละโทเค็นด้วยแท็ก (เช่น การใช้โครงร่าง BIO) ซึ่งแก้ไขโดยแบบจำลองลำดับที่ใช้ประโยชน์จากบริบทเพื่อทำเครื่องหมายช่วงและประเภทของช่วงนั้น
การสกัดความสัมพันธ์และเหตุการณ์
นอกเหนือจากเอนทิตีแล้ว การสกัดสารสนเทศยังระบุว่าเอนทิตีมีความสัมพันธ์กันอย่างไรและเกิดเหตุการณ์อะไรขึ้น โดยเติมเทมเพลตที่มีโครงสร้าง; กรอบงานที่ขับเคลื่อนด้วยงานนี้ได้รับการตกผลึกโดยการประชุม Message Understanding Conferences
การเติมฐานความรู้
เอนทิตีและความสัมพันธ์ที่สกัดได้สามารถนำมารวมกันเพื่อสร้างหรือขยายฐานความรู้ โดยเชื่อมโยงการกล่าวถึงกับเอนทิตีที่เป็นมาตรฐานและรวบรวมข้อเท็จจริงจากชุดข้อความขนาดใหญ่

Clinical relevance

การสกัดสารสนเทศเปลี่ยนข้อความเป็นข้อมูลที่สามารถสอบถามได้สำหรับการใช้งาน เช่น การทำเหมืองวรรณกรรมชีวการแพทย์ การวิเคราะห์ทางการเงินและข่าว การสร้างกราฟความรู้ และการเติมฐานข้อมูลจากเอกสาร ทำให้ข้อความที่ไม่มีโครงสร้างจำนวนมากสามารถนำไปใช้โดยระบบปลายน้ำได้

History

การสกัดสารสนเทศได้รับอิทธิพลจากการประชุม Message Understanding Conferences (MUC) ในช่วงปลายทศวรรษ 1980 และ 1990 ซึ่งกำหนดงานต่างๆ เช่น การรู้จำเอนทิตีที่มีชื่อและการเติมเทมเพลต และนำเสนอการประเมินที่เป็นมาตรฐาน สาขาได้เปลี่ยนจากกฎที่สร้างด้วยมือไปสู่แบบจำลองลำดับทางสถิติ และต่อมาเป็นวิธีการทางประสาทเทียม ในขณะที่ยังคงรักษากรอบงานไว้

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

การรู้จำเอนทิตีที่มีชื่อคืออะไร?
การรู้จำเอนทิตีที่มีชื่อคืองานของการค้นหาและจำแนกช่วงของข้อความที่ระบุเอนทิตีในโลกแห่งความเป็นจริง เช่น บุคคล องค์กร สถานที่ และวันที่ โดยทั่วไปแล้วเป็นขั้นตอนแรกในการสกัดสารสนเทศ เนื่องจากความสัมพันธ์และเหตุการณ์จำนวนมากถูกระบุในรูปของเอนทิตีเหล่านี้
การสกัดสารสนเทศได้รับการประเมินอย่างไร?
การสกัดมักจะได้รับการประเมินด้วยความแม่นยำ (สัดส่วนของรายการที่สกัดถูกต้อง) และการระลึกคืน (สัดส่วนของรายการที่ถูกต้องที่ถูกสกัด) ซึ่งมักจะรวมกันเป็นค่า F-measure สิ่งนี้สะท้อนถึงการแลกเปลี่ยนระหว่างการสกัดน้อยเกินไปและการสกัดข้อมูลที่ไม่ถูกต้อง

Methods for this concept

Related concepts