ความแตกต่างระหว่างเอ็มเบดดิงแบบคงที่และเอ็มเบดดิงเชิงบริบทคืออะไร?

เอ็มเบดดิงแบบคงที่ให้เวกเตอร์คงที่หนึ่งเดียวแก่คำโดยไม่คำนึงถึงบริบท ดังนั้น 'bank' จึงมีการนำเสนอเพียงครั้งเดียว เอ็มเบดดิงเชิงบริบทสร้างเวกเตอร์ที่แตกต่างกันสำหรับการปรากฏแต่ละครั้ง โดยแยกความแตกต่างระหว่าง 'river bank' (ตลิ่งแม่น้ำ) กับ 'financial bank' (ธนาคารการเงิน)

แบบจำลองภาษาโครงข่ายประสาทและเวิร์ดเอ็มเบดดิง

การเรียนรู้การนำเสนอแบบเวกเตอร์หนาแน่นของคำและบริบทจากข้อความดิบ — ตั้งแต่เวิร์ดเอ็มเบดดิงแบบ word2vec ไปจนถึงการนำเสนอเชิงบริบท เช่น BERT — ซึ่งเข้ารหัสความหมายในเชิงเรขาคณิต

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

เวิร์ดเอ็มเบดดิงคือเวกเตอร์ค่าจริงแบบหนาแน่นที่แสดงถึงความหมายของคำ ซึ่งเรียนรู้เพื่อให้ความคล้ายคลึงกันของการกระจายสะท้อนอยู่ในความใกล้ชิดของปริภูมิเวกเตอร์; เอ็มเบดดิงเชิงบริบทขยายแนวคิดนี้ไปสู่การนำเสนอที่ขึ้นอยู่กับข้อความโดยรอบ

Scope

ครอบคลุมการนำเสนอภาษาแบบกระจายและแบบโครงข่ายประสาท: สมมติฐานการกระจาย (distributional hypothesis), เวิร์ดเอ็มเบดดิงแบบคงที่ เช่น word2vec และ GloVe, แบบจำลองภาษาโครงข่ายประสาท, และเอ็มเบดดิงเชิงบริบทจากหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้า เช่น BERT หัวข้อนี้กล่าวถึงวิธีการฝึกอบรม, การประเมิน, และการถ่ายโอนการนำเสนอไปยังงานปลายน้ำ รายละเอียดสถาปัตยกรรมหม้อแปลงและการสร้างจะครอบคลุมในหัวข้อที่เกี่ยวข้อง

Core questions

สมมติฐานการกระจายคืออะไร และเอ็มเบดดิงนำไปใช้ได้อย่างไร?
word2vec เรียนรู้เวกเตอร์คำจากการเกิดร่วมกันได้อย่างไร?
เอ็มเบดดิงเชิงบริบทแตกต่างจากเอ็มเบดดิงแบบคงที่อย่างไร?
เหตุใดการฝึกอบรมล่วงหน้าและการเรียนรู้แบบถ่ายโอนจึงเปลี่ยนแปลง NLP?

Key concepts

สมมติฐานการกระจาย
เวิร์ดเอ็มเบดดิง
word2vec
skip-gram
เอ็มเบดดิงเชิงบริบท
การฝึกอบรมล่วงหน้าและการปรับแต่ง
การเรียนรู้แบบถ่ายโอน
การสร้างแบบจำลองภาษาแบบมาสก์

Key theories

สมมติฐานการกระจาย: แนวคิดที่ว่าคำที่ปรากฏในบริบทที่คล้ายกันมีความหมายคล้ายกัน ซึ่งเป็นพื้นฐานของวิธีการเอ็มเบดดิงทั้งหมดโดยการดึงความหมายจากสถิติการเกิดร่วมกัน
การฝึกอบรมล่วงหน้าเชิงบริบท: การฝึกอบรมแบบจำลองสองทิศทางเชิงลึกบนข้อความขนาดใหญ่ที่ไม่มีป้ายกำกับ เช่นใน BERT เพื่อสร้างการนำเสนอที่ไวต่อบริบทซึ่งสามารถถ่ายโอนไปยังงานปลายน้ำหลายอย่างโดยมีการปรับแต่งเพียงเล็กน้อย

History

สมมติฐานการกระจายของ Harris ได้รับการนำไปใช้ครั้งแรกโดยแบบจำลองปริภูมิเวกเตอร์ที่อิงการนับ จากนั้นโดยแบบจำลองภาษาโครงข่ายประสาทของ Bengio (2003) และ word2vec ที่มีประสิทธิภาพของ Mikolov (2013) การมาถึงของแบบจำลองเชิงบริบท เช่น ELMo และ BERT ในปี 2018–2019 ทำให้การฝึกอบรมล่วงหน้าและการปรับแต่งกลายเป็นกระบวนทัศน์ที่โดดเด่น

Debates

เอ็มเบดดิงเข้ารหัสอะไรกันแน่?: ไม่ว่าการนำเสนอที่เรียนรู้จะจับโครงสร้างทางความหมายและไวยากรณ์ที่แท้จริง หรือเป็นเพียงความสม่ำเสมอของการเกิดร่วมกันและอคติที่มีอยู่ในข้อมูลการฝึกอบรม ซึ่งเป็นคำถามสำคัญสำหรับการตีความ

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

ความแตกต่างระหว่างเอ็มเบดดิงแบบคงที่และเอ็มเบดดิงเชิงบริบทคืออะไร?: เอ็มเบดดิงแบบคงที่ให้เวกเตอร์คงที่หนึ่งเดียวแก่คำโดยไม่คำนึงถึงบริบท ดังนั้น 'bank' จึงมีการนำเสนอเพียงครั้งเดียว เอ็มเบดดิงเชิงบริบทสร้างเวกเตอร์ที่แตกต่างกันสำหรับการปรากฏแต่ละครั้ง โดยแยกความแตกต่างระหว่าง 'river bank' (ตลิ่งแม่น้ำ) กับ 'financial bank' (ธนาคารการเงิน)