แบบจำลองภาษาโครงข่ายประสาทและเวิร์ดเอ็มเบดดิง
การเรียนรู้การนำเสนอแบบเวกเตอร์หนาแน่นของคำและบริบทจากข้อความดิบ — ตั้งแต่เวิร์ดเอ็มเบดดิงแบบ word2vec ไปจนถึงการนำเสนอเชิงบริบท เช่น BERT — ซึ่งเข้ารหัสความหมายในเชิงเรขาคณิต
Definition
เวิร์ดเอ็มเบดดิงคือเวกเตอร์ค่าจริงแบบหนาแน่นที่แสดงถึงความหมายของคำ ซึ่งเรียนรู้เพื่อให้ความคล้ายคลึงกันของการกระจายสะท้อนอยู่ในความใกล้ชิดของปริภูมิเวกเตอร์; เอ็มเบดดิงเชิงบริบทขยายแนวคิดนี้ไปสู่การนำเสนอที่ขึ้นอยู่กับข้อความโดยรอบ
Scope
ครอบคลุมการนำเสนอภาษาแบบกระจายและแบบโครงข่ายประสาท: สมมติฐานการกระจาย (distributional hypothesis), เวิร์ดเอ็มเบดดิงแบบคงที่ เช่น word2vec และ GloVe, แบบจำลองภาษาโครงข่ายประสาท, และเอ็มเบดดิงเชิงบริบทจากหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้า เช่น BERT หัวข้อนี้กล่าวถึงวิธีการฝึกอบรม, การประเมิน, และการถ่ายโอนการนำเสนอไปยังงานปลายน้ำ รายละเอียดสถาปัตยกรรมหม้อแปลงและการสร้างจะครอบคลุมในหัวข้อที่เกี่ยวข้อง
Core questions
- สมมติฐานการกระจายคืออะไร และเอ็มเบดดิงนำไปใช้ได้อย่างไร?
- word2vec เรียนรู้เวกเตอร์คำจากการเกิดร่วมกันได้อย่างไร?
- เอ็มเบดดิงเชิงบริบทแตกต่างจากเอ็มเบดดิงแบบคงที่อย่างไร?
- เหตุใดการฝึกอบรมล่วงหน้าและการเรียนรู้แบบถ่ายโอนจึงเปลี่ยนแปลง NLP?
Key concepts
- สมมติฐานการกระจาย
- เวิร์ดเอ็มเบดดิง
- word2vec
- skip-gram
- เอ็มเบดดิงเชิงบริบท
- การฝึกอบรมล่วงหน้าและการปรับแต่ง
- การเรียนรู้แบบถ่ายโอน
- การสร้างแบบจำลองภาษาแบบมาสก์
Key theories
- สมมติฐานการกระจาย
- แนวคิดที่ว่าคำที่ปรากฏในบริบทที่คล้ายกันมีความหมายคล้ายกัน ซึ่งเป็นพื้นฐานของวิธีการเอ็มเบดดิงทั้งหมดโดยการดึงความหมายจากสถิติการเกิดร่วมกัน
- การฝึกอบรมล่วงหน้าเชิงบริบท
- การฝึกอบรมแบบจำลองสองทิศทางเชิงลึกบนข้อความขนาดใหญ่ที่ไม่มีป้ายกำกับ เช่นใน BERT เพื่อสร้างการนำเสนอที่ไวต่อบริบทซึ่งสามารถถ่ายโอนไปยังงานปลายน้ำหลายอย่างโดยมีการปรับแต่งเพียงเล็กน้อย
History
สมมติฐานการกระจายของ Harris ได้รับการนำไปใช้ครั้งแรกโดยแบบจำลองปริภูมิเวกเตอร์ที่อิงการนับ จากนั้นโดยแบบจำลองภาษาโครงข่ายประสาทของ Bengio (2003) และ word2vec ที่มีประสิทธิภาพของ Mikolov (2013) การมาถึงของแบบจำลองเชิงบริบท เช่น ELMo และ BERT ในปี 2018–2019 ทำให้การฝึกอบรมล่วงหน้าและการปรับแต่งกลายเป็นกระบวนทัศน์ที่โดดเด่น
Debates
- เอ็มเบดดิงเข้ารหัสอะไรกันแน่?
- ไม่ว่าการนำเสนอที่เรียนรู้จะจับโครงสร้างทางความหมายและไวยากรณ์ที่แท้จริง หรือเป็นเพียงความสม่ำเสมอของการเกิดร่วมกันและอคติที่มีอยู่ในข้อมูลการฝึกอบรม ซึ่งเป็นคำถามสำคัญสำหรับการตีความ
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- ความแตกต่างระหว่างเอ็มเบดดิงแบบคงที่และเอ็มเบดดิงเชิงบริบทคืออะไร?
- เอ็มเบดดิงแบบคงที่ให้เวกเตอร์คงที่หนึ่งเดียวแก่คำโดยไม่คำนึงถึงบริบท ดังนั้น 'bank' จึงมีการนำเสนอเพียงครั้งเดียว เอ็มเบดดิงเชิงบริบทสร้างเวกเตอร์ที่แตกต่างกันสำหรับการปรากฏแต่ละครั้ง โดยแยกความแตกต่างระหว่าง 'river bank' (ตลิ่งแม่น้ำ) กับ 'financial bank' (ธนาคารการเงิน)