ScholarGate
ผู้ช่วย

แบบจำลองภาษาโครงข่ายประสาทและเวิร์ดเอ็มเบดดิง

การเรียนรู้การนำเสนอแบบเวกเตอร์หนาแน่นของคำและบริบทจากข้อความดิบ — ตั้งแต่เวิร์ดเอ็มเบดดิงแบบ word2vec ไปจนถึงการนำเสนอเชิงบริบท เช่น BERT — ซึ่งเข้ารหัสความหมายในเชิงเรขาคณิต

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

เวิร์ดเอ็มเบดดิงคือเวกเตอร์ค่าจริงแบบหนาแน่นที่แสดงถึงความหมายของคำ ซึ่งเรียนรู้เพื่อให้ความคล้ายคลึงกันของการกระจายสะท้อนอยู่ในความใกล้ชิดของปริภูมิเวกเตอร์; เอ็มเบดดิงเชิงบริบทขยายแนวคิดนี้ไปสู่การนำเสนอที่ขึ้นอยู่กับข้อความโดยรอบ

Scope

ครอบคลุมการนำเสนอภาษาแบบกระจายและแบบโครงข่ายประสาท: สมมติฐานการกระจาย (distributional hypothesis), เวิร์ดเอ็มเบดดิงแบบคงที่ เช่น word2vec และ GloVe, แบบจำลองภาษาโครงข่ายประสาท, และเอ็มเบดดิงเชิงบริบทจากหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้า เช่น BERT หัวข้อนี้กล่าวถึงวิธีการฝึกอบรม, การประเมิน, และการถ่ายโอนการนำเสนอไปยังงานปลายน้ำ รายละเอียดสถาปัตยกรรมหม้อแปลงและการสร้างจะครอบคลุมในหัวข้อที่เกี่ยวข้อง

Core questions

  • สมมติฐานการกระจายคืออะไร และเอ็มเบดดิงนำไปใช้ได้อย่างไร?
  • word2vec เรียนรู้เวกเตอร์คำจากการเกิดร่วมกันได้อย่างไร?
  • เอ็มเบดดิงเชิงบริบทแตกต่างจากเอ็มเบดดิงแบบคงที่อย่างไร?
  • เหตุใดการฝึกอบรมล่วงหน้าและการเรียนรู้แบบถ่ายโอนจึงเปลี่ยนแปลง NLP?

Key concepts

  • สมมติฐานการกระจาย
  • เวิร์ดเอ็มเบดดิง
  • word2vec
  • skip-gram
  • เอ็มเบดดิงเชิงบริบท
  • การฝึกอบรมล่วงหน้าและการปรับแต่ง
  • การเรียนรู้แบบถ่ายโอน
  • การสร้างแบบจำลองภาษาแบบมาสก์

Key theories

สมมติฐานการกระจาย
แนวคิดที่ว่าคำที่ปรากฏในบริบทที่คล้ายกันมีความหมายคล้ายกัน ซึ่งเป็นพื้นฐานของวิธีการเอ็มเบดดิงทั้งหมดโดยการดึงความหมายจากสถิติการเกิดร่วมกัน
การฝึกอบรมล่วงหน้าเชิงบริบท
การฝึกอบรมแบบจำลองสองทิศทางเชิงลึกบนข้อความขนาดใหญ่ที่ไม่มีป้ายกำกับ เช่นใน BERT เพื่อสร้างการนำเสนอที่ไวต่อบริบทซึ่งสามารถถ่ายโอนไปยังงานปลายน้ำหลายอย่างโดยมีการปรับแต่งเพียงเล็กน้อย

History

สมมติฐานการกระจายของ Harris ได้รับการนำไปใช้ครั้งแรกโดยแบบจำลองปริภูมิเวกเตอร์ที่อิงการนับ จากนั้นโดยแบบจำลองภาษาโครงข่ายประสาทของ Bengio (2003) และ word2vec ที่มีประสิทธิภาพของ Mikolov (2013) การมาถึงของแบบจำลองเชิงบริบท เช่น ELMo และ BERT ในปี 2018–2019 ทำให้การฝึกอบรมล่วงหน้าและการปรับแต่งกลายเป็นกระบวนทัศน์ที่โดดเด่น

Debates

เอ็มเบดดิงเข้ารหัสอะไรกันแน่?
ไม่ว่าการนำเสนอที่เรียนรู้จะจับโครงสร้างทางความหมายและไวยากรณ์ที่แท้จริง หรือเป็นเพียงความสม่ำเสมอของการเกิดร่วมกันและอคติที่มีอยู่ในข้อมูลการฝึกอบรม ซึ่งเป็นคำถามสำคัญสำหรับการตีความ

Key figures

  • Yoshua Bengio
  • Tomas Mikolov
  • Jacob Devlin
  • Zellig Harris

Related topics

Seminal works

  • bengio2003
  • mikolov2013
  • devlin2019

Frequently asked questions

ความแตกต่างระหว่างเอ็มเบดดิงแบบคงที่และเอ็มเบดดิงเชิงบริบทคืออะไร?
เอ็มเบดดิงแบบคงที่ให้เวกเตอร์คงที่หนึ่งเดียวแก่คำโดยไม่คำนึงถึงบริบท ดังนั้น 'bank' จึงมีการนำเสนอเพียงครั้งเดียว เอ็มเบดดิงเชิงบริบทสร้างเวกเตอร์ที่แตกต่างกันสำหรับการปรากฏแต่ละครั้ง โดยแยกความแตกต่างระหว่าง 'river bank' (ตลิ่งแม่น้ำ) กับ 'financial bank' (ธนาคารการเงิน)

Methods for this concept

Related concepts