การสกัดสารสนเทศ
การสกัดสารสนเทศคืองานของการระบุสารสนเทศที่มีโครงสร้างโดยอัตโนมัติ ไม่ว่าจะเป็นเอนทิตี ความสัมพันธ์ และเหตุการณ์ ภายในข้อความภาษาธรรมชาติที่ไม่มีโครงสร้าง
Definition
การสกัดสารสนเทศจะแปลงข้อความที่ไม่มีโครงสร้างให้เป็นรูปแบบที่มีโครงสร้างโดยการตรวจจับและจำแนกการกล่าวถึงเอนทิตี ความสัมพันธ์ระหว่างเอนทิตีเหล่านั้น และเหตุการณ์ที่เอนทิตีเหล่านั้นมีส่วนร่วม ซึ่งมักจะใช้เพื่อเติมฐานข้อมูลหรือฐานความรู้
Scope
หัวข้อนี้ครอบคลุมการสกัดข้อเท็จจริงที่มีโครงสร้างจากข้อความ: การรู้จำเอนทิตีที่มีชื่อ การสกัดความสัมพันธ์ การสกัดเหตุการณ์ การแก้ปัญหาการอ้างอิงร่วม และการเติมเทมเพลตหรือฐานความรู้ โดยกล่าวถึงวิธีการที่ใช้กฎเกณฑ์ การติดป้ายลำดับทางสถิติ และวิธีการแบบมีผู้สอนและแบบมีผู้สอนทางไกล รวมถึงการประเมินการสกัดโดยใช้ความแม่นยำและการระลึกคืน วิธีการเรียนรู้ของเครื่องทั่วไปที่ใช้ในการฝึกตัวสกัดจัดอยู่ในสาขาย่อยของการเรียนรู้ของเครื่อง; ในที่นี้จะเน้นที่งานการสกัดและความท้าทายทางภาษาศาสตร์
Core questions
- การกล่าวถึงเอนทิตี เช่น บุคคล องค์กร และสถานที่ ถูกตรวจจับและจำแนกในข้อความได้อย่างไร?
- ความสัมพันธ์ระหว่างเอนทิตีถูกระบุและสกัดได้อย่างไร?
- เหตุการณ์และผู้เข้าร่วมถูกจดจำได้อย่างไร และการแก้ปัญหาการอ้างอิงร่วมทำได้อย่างไร?
- ประสิทธิภาพการสกัดถูกประเมินอย่างไร และเกิดการแลกเปลี่ยนระหว่างความแม่นยำและการระลึกคืนอย่างไร?
Key concepts
- การรู้จำเอนทิตีที่มีชื่อ
- การสกัดความสัมพันธ์
- การสกัดเหตุการณ์
- การแก้ปัญหาการอ้างอิงร่วม
- การติดป้ายลำดับ BIO
- การเติมเทมเพลต
- การเติมฐานความรู้
- ความแม่นยำและการระลึกคืน
Key theories
- การรู้จำเอนทิตีที่มีชื่อในฐานะการติดป้ายลำดับ
- การระบุการกล่าวถึงเอนทิตีมักถูกกำหนดให้เป็นการติดป้ายแต่ละโทเค็นด้วยแท็ก (เช่น การใช้โครงร่าง BIO) ซึ่งแก้ไขโดยแบบจำลองลำดับที่ใช้ประโยชน์จากบริบทเพื่อทำเครื่องหมายช่วงและประเภทของช่วงนั้น
- การสกัดความสัมพันธ์และเหตุการณ์
- นอกเหนือจากเอนทิตีแล้ว การสกัดสารสนเทศยังระบุว่าเอนทิตีมีความสัมพันธ์กันอย่างไรและเกิดเหตุการณ์อะไรขึ้น โดยเติมเทมเพลตที่มีโครงสร้าง; กรอบงานที่ขับเคลื่อนด้วยงานนี้ได้รับการตกผลึกโดยการประชุม Message Understanding Conferences
- การเติมฐานความรู้
- เอนทิตีและความสัมพันธ์ที่สกัดได้สามารถนำมารวมกันเพื่อสร้างหรือขยายฐานความรู้ โดยเชื่อมโยงการกล่าวถึงกับเอนทิตีที่เป็นมาตรฐานและรวบรวมข้อเท็จจริงจากชุดข้อความขนาดใหญ่
Clinical relevance
การสกัดสารสนเทศเปลี่ยนข้อความเป็นข้อมูลที่สามารถสอบถามได้สำหรับการใช้งาน เช่น การทำเหมืองวรรณกรรมชีวการแพทย์ การวิเคราะห์ทางการเงินและข่าว การสร้างกราฟความรู้ และการเติมฐานข้อมูลจากเอกสาร ทำให้ข้อความที่ไม่มีโครงสร้างจำนวนมากสามารถนำไปใช้โดยระบบปลายน้ำได้
History
การสกัดสารสนเทศได้รับอิทธิพลจากการประชุม Message Understanding Conferences (MUC) ในช่วงปลายทศวรรษ 1980 และ 1990 ซึ่งกำหนดงานต่างๆ เช่น การรู้จำเอนทิตีที่มีชื่อและการเติมเทมเพลต และนำเสนอการประเมินที่เป็นมาตรฐาน สาขาได้เปลี่ยนจากกฎที่สร้างด้วยมือไปสู่แบบจำลองลำดับทางสถิติ และต่อมาเป็นวิธีการทางประสาทเทียม ในขณะที่ยังคงรักษากรอบงานไว้
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- การรู้จำเอนทิตีที่มีชื่อคืออะไร?
- การรู้จำเอนทิตีที่มีชื่อคืองานของการค้นหาและจำแนกช่วงของข้อความที่ระบุเอนทิตีในโลกแห่งความเป็นจริง เช่น บุคคล องค์กร สถานที่ และวันที่ โดยทั่วไปแล้วเป็นขั้นตอนแรกในการสกัดสารสนเทศ เนื่องจากความสัมพันธ์และเหตุการณ์จำนวนมากถูกระบุในรูปของเอนทิตีเหล่านี้
- การสกัดสารสนเทศได้รับการประเมินอย่างไร?
- การสกัดมักจะได้รับการประเมินด้วยความแม่นยำ (สัดส่วนของรายการที่สกัดถูกต้อง) และการระลึกคืน (สัดส่วนของรายการที่ถูกต้องที่ถูกสกัด) ซึ่งมักจะรวมกันเป็นค่า F-measure สิ่งนี้สะท้อนถึงการแลกเปลี่ยนระหว่างการสกัดน้อยเกินไปและการสกัดข้อมูลที่ไม่ถูกต้อง