ScholarGate
ผู้ช่วย

การสร้างแบบจำลองภาษา

การกำหนดความน่าจะเป็นให้กับลำดับของคำ ซึ่งเป็นภารกิจพื้นฐานที่ช่วยให้ระบบสามารถคาดการณ์ ให้คะแนน และสร้างข้อความได้ ตั้งแต่ตัวนับ n-gram แบบดั้งเดิมไปจนถึงแบบจำลองภาษาเชิงโครงข่ายประสาทเทียม

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

แบบจำลองภาษาคือการแจกแจงความน่าจะเป็นเหนือลำดับของคำหรือโทเค็น ซึ่งโดยทั่วไปแล้วจะถูกกำหนดโดยการทำนายแต่ละโทเค็นจากบริบทที่นำหน้า

Scope

ครอบคลุมภารกิจการสร้างแบบจำลองภาษาโดยตรง: การประมาณความน่าจะเป็นของคำเมื่อพิจารณาจากบริบท แบบจำลอง n-gram และเทคนิคการปรับเรียบ การประเมินด้วยค่าความกำกวม (perplexity) และการเปลี่ยนผ่านไปสู่การนำเสนอแบบโครงข่ายประสาทเทียมและแบบกระจาย (distributed representations) โดยระบุว่าแบบจำลองภาษาขนาดใหญ่เป็นรูปแบบที่ทันสมัยของภารกิจเดียวกัน สถาปัตยกรรมโครงข่ายประสาทเทียมโดยละเอียดจะได้รับการกล่าวถึงในสาขา NLP เชิงสถิติและโครงข่ายประสาทเทียม

Core questions

  • ความน่าจะเป็นของประโยคสามารถแยกย่อยออกเป็นความน่าจะเป็นของคำแบบมีเงื่อนไขได้อย่างไร?
  • การปรับเรียบ (smoothing) จัดการกับลำดับคำที่ไม่เคยพบในการฝึกฝนได้อย่างไร?
  • ค่าความกำกวม (perplexity) ถูกนำมาใช้ในการประเมินและเปรียบเทียบแบบจำลองภาษาได้อย่างไร?
  • แบบจำลองภาษาเชิงโครงข่ายประสาทเทียมเปลี่ยนแปลงอะไรบ้างเมื่อเทียบกับแบบจำลอง n-gram?

Key concepts

  • n-gram
  • สมมติฐานมาร์คอฟ (Markov assumption)
  • การปรับเรียบ (smoothing)
  • ค่าความกำกวม (perplexity)
  • การถอยกลับและการประมาณค่าในช่วง (backoff and interpolation)
  • การนำเสนอคำแบบกระจาย (distributed word representations)
  • เอนโทรปีไขว้ (cross-entropy)
  • การทำนายโทเค็นถัดไป (next-token prediction)

Key theories

การสร้างแบบจำลองมาร์คอฟแบบ N-gram
การประมาณความน่าจะเป็นของคำโดยพิจารณาจากคำ n-1 คำก่อนหน้าเท่านั้น ทำให้การสร้างแบบจำลองภาษากลายเป็นปัญหาที่สามารถจัดการได้ด้วยการนับและการปรับเรียบ
แบบจำลองภาษาเชิงความน่าจะเป็นแบบโครงข่ายประสาทเทียม
การแทนที่การนับ n-gram แบบกระจัดกระจายด้วยโครงข่ายประสาทเทียมที่เรียนรู้การนำเสนอคำแบบกระจาย (distributed word representations) ซึ่งช่วยลดปัญหา curse of dimensionality และทำให้สามารถสรุปผลไปยังบริบทที่ไม่เคยพบเห็นได้

History

ทฤษฎีสารสนเทศของ Shannon ได้กำหนดให้ภาษาเป็นแหล่งกำเนิดสุ่มที่สามารถคาดการณ์ได้ และชุมชนการรู้จำเสียงพูดที่ IBM ได้ทำให้การสร้างแบบจำลอง n-gram เป็นหัวใจสำคัญในช่วงทศวรรษ 1980 Bengio และคณะได้นำเสนอแบบจำลองภาษาเชิงความน่าจะเป็นแบบโครงข่ายประสาทเทียมในปี 2003 ซึ่งเป็นจุดเริ่มต้นของแนวทางการนำเสนอแบบกระจาย (distributed-representation) ที่เมื่อขยายขนาดแล้วได้ก่อให้เกิดแบบจำลองภาษาขนาดใหญ่ในปัจจุบัน

Debates

การนับเทียบกับการนำเสนอที่เรียนรู้
ไม่ว่าภาษาจะถูกสร้างแบบจำลองได้ดีที่สุดด้วยการนับแบบปรับเรียบเหนือลำดับที่ไม่ต่อเนื่อง หรือด้วยโครงข่ายประสาทเทียมที่เรียนรู้การนำเสนอแบบต่อเนื่อง วิธีการเชิงโครงข่ายประสาทเทียมในปัจจุบันมีอิทธิพลเหนือกว่า แต่ยังคงสืบทอดวัตถุประสงค์เชิงความน่าจะเป็นเดียวกัน

Key figures

  • Claude Shannon
  • Frederick Jelinek
  • Yoshua Bengio
  • Daniel Jurafsky

Related topics

Seminal works

  • shannon1948
  • bengio2003
  • jurafsky2025

Frequently asked questions

ค่าความกำกวม (perplexity) คืออะไร?
ค่าความกำกวมวัดว่าแบบจำลองภาษามีความประหลาดใจต่อข้อความที่ไม่ได้ใช้ในการฝึกฝนมากน้อยเพียงใด ค่าความกำกวมที่ต่ำกว่าหมายความว่าแบบจำลองกำหนดความน่าจะเป็นที่สูงกว่าให้กับคำที่สังเกตได้ ซึ่งบ่งชี้ถึงความเหมาะสมที่ดีกว่า
เหตุใดการสร้างแบบจำลองภาษาจึงต้องมีการปรับเรียบ (smoothing)?
คลังข้อมูลใดๆ ที่มีขนาดจำกัดจะละเว้นลำดับคำที่ถูกต้องจำนวนมาก ดังนั้นแบบจำลองที่ไม่มีการปรับเรียบจะกำหนดความน่าจะเป็นเป็นศูนย์ให้กับลำดับเหล่านั้น การปรับเรียบจะกระจายมวลความน่าจะเป็นเล็กน้อยไปยังเหตุการณ์ที่ไม่เคยพบเห็น เพื่อให้แบบจำลองสามารถจัดการกับข้อความใหม่ได้

Methods for this concept

Related concepts