การติดป้ายระบุชนิดของคำและการติดป้ายลำดับ
การกำหนดป้ายกำกับให้กับแต่ละโทเค็นในประโยค ไม่ว่าจะเป็นชนิดของคำ ประเภทของหน่วยงานที่ระบุชื่อ หรือป้ายกำกับกลุ่มคำ โดยใช้แบบจำลองลำดับความน่าจะเป็น เช่น แบบจำลองมาร์คอฟซ่อนเร้นและฟิลด์สุ่มแบบมีเงื่อนไข
Definition
การติดป้ายลำดับคืองานของการกำหนดป้ายกำกับเชิงหมวดหมู่ให้กับแต่ละองค์ประกอบของลำดับอินพุต โดยมีตัวอย่างที่เป็นแบบฉบับคือการติดป้ายระบุชนิดของคำ
Scope
ครอบคลุมงานการติดป้ายลำดับที่เป็นหัวใจของการวิเคราะห์เบื้องต้น ได้แก่ การติดป้ายระบุชนิดของคำ การรู้จำหน่วยงานที่ระบุชื่อ และการจัดกลุ่มคำ ซึ่งรวมถึงแบบจำลองมาตรฐาน เช่น แบบจำลองมาร์คอฟซ่อนเร้น แบบจำลองมาร์คอฟเอนโทรปีสูงสุด ฟิลด์สุ่มแบบมีเงื่อนไข และตัวติดป้ายลำดับโครงข่ายประสาทเทียม รวมถึงชุดป้ายกำกับ เช่น Penn Treebank และ Universal POS การวิเคราะห์โครงสร้างประโยคแบบเต็มรูปแบบจะครอบคลุมในหัวข้อที่เกี่ยวข้อง
Core questions
- แบบจำลองมาร์คอฟซ่อนเร้นกำหนดลำดับป้ายกำกับที่มีแนวโน้มมากที่สุดได้อย่างไร?
- เหตุใดฟิลด์สุ่มแบบมีเงื่อนไขจึงมีประสิทธิภาพดีกว่าแบบจำลองที่ปรับให้เป็นมาตรฐานเฉพาะที่?
- ชุดป้ายกำกับได้รับการออกแบบและกำหนดมาตรฐานในภาษาต่างๆ ได้อย่างไร?
- การติดป้ายลำดับสนับสนุนการวิเคราะห์โครงสร้างประโยคและการสกัดข้อมูลขั้นปลายได้อย่างไร?
Key concepts
- ป้ายกำกับชนิดของคำ
- แบบจำลองมาร์คอฟซ่อนเร้น
- อัลกอริทึม Viterbi
- ฟิลด์สุ่มแบบมีเงื่อนไข
- การรู้จำหน่วยงานที่ระบุชื่อ
- การจัดกลุ่มคำ
- ชุดป้ายกำกับ
- การเข้ารหัส BIO
Key theories
- การติดป้ายแบบจำลองมาร์คอฟซ่อนเร้น
- การสร้างแบบจำลองลำดับป้ายกำกับเป็นลูกโซ่มาร์คอฟที่ปล่อยคำที่สังเกตได้ โดยมีอัลกอริทึม Viterbi ที่สามารถกู้คืนลำดับป้ายกำกับที่มีความน่าจะเป็นมากที่สุดได้อย่างมีประสิทธิภาพ
- ฟิลด์สุ่มแบบมีเงื่อนไข
- แบบจำลองจำแนกที่ปรับให้เป็นมาตรฐานทั่วโลกสำหรับการติดป้ายลำดับที่กำหนดเงื่อนไขจากอินพุตทั้งหมดและหลีกเลี่ยงอคติของป้ายกำกับในแบบจำลองที่ปรับให้เป็นมาตรฐานเฉพาะที่
History
การติดป้าย POS ประสบความสำเร็จในช่วงแรกของการประมวลผลภาษาธรรมชาติเชิงสถิติ เมื่อ Penn Treebank (1993) ได้จัดหาข้อมูลที่มีการกำกับจำนวนมาก ตัวติดป้ายแบบจำลองมาร์คอฟซ่อนเร้นได้ถูกแทนที่ด้วยแบบจำลองเอนโทรปีสูงสุดแบบจำแนกและแบบจำลองฟิลด์สุ่มแบบมีเงื่อนไขประมาณปี 2001 ซึ่งต่อมาได้ถูกรวมเข้ากับตัวติดป้ายลำดับโครงข่ายประสาทเทียมในช่วงทศวรรษ 2010
Debates
- แบบจำลองลำดับแบบสร้างเทียบกับแบบจำแนก
- ว่าจะสร้างแบบจำลองการแจกแจงร่วมของคำและป้ายกำกับ (HMMs) หรือกำหนดเงื่อนไขป้ายกำกับโดยตรงจากอินพุต (CRFs) โดยทั่วไปแล้วแบบจำลองจำแนกมักจะให้ความแม่นยำที่ดีกว่าเมื่อมีคุณลักษณะที่หลากหลาย
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- เหตุใดการติดป้ายระบุชนิดของคำจึงไม่ใช่เรื่องง่าย?
- คำหลายคำมีความกำกวม เช่น 'book' อาจเป็นคำนามหรือคำกริยา ดังนั้นป้ายกำกับที่ถูกต้องจึงขึ้นอยู่กับบริบท แบบจำลองลำดับจะแก้ไขปัญหานี้โดยพิจารณาคำและป้ายกำกับโดยรอบร่วมกัน