ค่าความกำกวม (perplexity) คืออะไร?

ค่าความกำกวมวัดว่าแบบจำลองภาษามีความประหลาดใจต่อข้อความที่ไม่ได้ใช้ในการฝึกฝนมากน้อยเพียงใด ค่าความกำกวมที่ต่ำกว่าหมายความว่าแบบจำลองกำหนดความน่าจะเป็นที่สูงกว่าให้กับคำที่สังเกตได้ ซึ่งบ่งชี้ถึงความเหมาะสมที่ดีกว่า

เหตุใดการสร้างแบบจำลองภาษาจึงต้องมีการปรับเรียบ (smoothing)?

คลังข้อมูลใดๆ ที่มีขนาดจำกัดจะละเว้นลำดับคำที่ถูกต้องจำนวนมาก ดังนั้นแบบจำลองที่ไม่มีการปรับเรียบจะกำหนดความน่าจะเป็นเป็นศูนย์ให้กับลำดับเหล่านั้น การปรับเรียบจะกระจายมวลความน่าจะเป็นเล็กน้อยไปยังเหตุการณ์ที่ไม่เคยพบเห็น เพื่อให้แบบจำลองสามารถจัดการกับข้อความใหม่ได้

การสร้างแบบจำลองภาษา

การกำหนดความน่าจะเป็นให้กับลำดับของคำ ซึ่งเป็นภารกิจพื้นฐานที่ช่วยให้ระบบสามารถคาดการณ์ ให้คะแนน และสร้างข้อความได้ ตั้งแต่ตัวนับ n-gram แบบดั้งเดิมไปจนถึงแบบจำลองภาษาเชิงโครงข่ายประสาทเทียม

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

แบบจำลองภาษาคือการแจกแจงความน่าจะเป็นเหนือลำดับของคำหรือโทเค็น ซึ่งโดยทั่วไปแล้วจะถูกกำหนดโดยการทำนายแต่ละโทเค็นจากบริบทที่นำหน้า

Scope

ครอบคลุมภารกิจการสร้างแบบจำลองภาษาโดยตรง: การประมาณความน่าจะเป็นของคำเมื่อพิจารณาจากบริบท แบบจำลอง n-gram และเทคนิคการปรับเรียบ การประเมินด้วยค่าความกำกวม (perplexity) และการเปลี่ยนผ่านไปสู่การนำเสนอแบบโครงข่ายประสาทเทียมและแบบกระจาย (distributed representations) โดยระบุว่าแบบจำลองภาษาขนาดใหญ่เป็นรูปแบบที่ทันสมัยของภารกิจเดียวกัน สถาปัตยกรรมโครงข่ายประสาทเทียมโดยละเอียดจะได้รับการกล่าวถึงในสาขา NLP เชิงสถิติและโครงข่ายประสาทเทียม

Core questions

ความน่าจะเป็นของประโยคสามารถแยกย่อยออกเป็นความน่าจะเป็นของคำแบบมีเงื่อนไขได้อย่างไร?
การปรับเรียบ (smoothing) จัดการกับลำดับคำที่ไม่เคยพบในการฝึกฝนได้อย่างไร?
ค่าความกำกวม (perplexity) ถูกนำมาใช้ในการประเมินและเปรียบเทียบแบบจำลองภาษาได้อย่างไร?
แบบจำลองภาษาเชิงโครงข่ายประสาทเทียมเปลี่ยนแปลงอะไรบ้างเมื่อเทียบกับแบบจำลอง n-gram?

Key concepts

n-gram
สมมติฐานมาร์คอฟ (Markov assumption)
การปรับเรียบ (smoothing)
ค่าความกำกวม (perplexity)
การถอยกลับและการประมาณค่าในช่วง (backoff and interpolation)
การนำเสนอคำแบบกระจาย (distributed word representations)
เอนโทรปีไขว้ (cross-entropy)
การทำนายโทเค็นถัดไป (next-token prediction)

Key theories

การสร้างแบบจำลองมาร์คอฟแบบ N-gram: การประมาณความน่าจะเป็นของคำโดยพิจารณาจากคำ n-1 คำก่อนหน้าเท่านั้น ทำให้การสร้างแบบจำลองภาษากลายเป็นปัญหาที่สามารถจัดการได้ด้วยการนับและการปรับเรียบ
แบบจำลองภาษาเชิงความน่าจะเป็นแบบโครงข่ายประสาทเทียม: การแทนที่การนับ n-gram แบบกระจัดกระจายด้วยโครงข่ายประสาทเทียมที่เรียนรู้การนำเสนอคำแบบกระจาย (distributed word representations) ซึ่งช่วยลดปัญหา curse of dimensionality และทำให้สามารถสรุปผลไปยังบริบทที่ไม่เคยพบเห็นได้

History

ทฤษฎีสารสนเทศของ Shannon ได้กำหนดให้ภาษาเป็นแหล่งกำเนิดสุ่มที่สามารถคาดการณ์ได้ และชุมชนการรู้จำเสียงพูดที่ IBM ได้ทำให้การสร้างแบบจำลอง n-gram เป็นหัวใจสำคัญในช่วงทศวรรษ 1980 Bengio และคณะได้นำเสนอแบบจำลองภาษาเชิงความน่าจะเป็นแบบโครงข่ายประสาทเทียมในปี 2003 ซึ่งเป็นจุดเริ่มต้นของแนวทางการนำเสนอแบบกระจาย (distributed-representation) ที่เมื่อขยายขนาดแล้วได้ก่อให้เกิดแบบจำลองภาษาขนาดใหญ่ในปัจจุบัน

Debates

การนับเทียบกับการนำเสนอที่เรียนรู้: ไม่ว่าภาษาจะถูกสร้างแบบจำลองได้ดีที่สุดด้วยการนับแบบปรับเรียบเหนือลำดับที่ไม่ต่อเนื่อง หรือด้วยโครงข่ายประสาทเทียมที่เรียนรู้การนำเสนอแบบต่อเนื่อง วิธีการเชิงโครงข่ายประสาทเทียมในปัจจุบันมีอิทธิพลเหนือกว่า แต่ยังคงสืบทอดวัตถุประสงค์เชิงความน่าจะเป็นเดียวกัน

Key figures

Claude Shannon
Frederick Jelinek
Yoshua Bengio
Daniel Jurafsky

Seminal works

shannon1948
bengio2003
jurafsky2025

Frequently asked questions

ค่าความกำกวม (perplexity) คืออะไร?: ค่าความกำกวมวัดว่าแบบจำลองภาษามีความประหลาดใจต่อข้อความที่ไม่ได้ใช้ในการฝึกฝนมากน้อยเพียงใด ค่าความกำกวมที่ต่ำกว่าหมายความว่าแบบจำลองกำหนดความน่าจะเป็นที่สูงกว่าให้กับคำที่สังเกตได้ ซึ่งบ่งชี้ถึงความเหมาะสมที่ดีกว่า
เหตุใดการสร้างแบบจำลองภาษาจึงต้องมีการปรับเรียบ (smoothing)?: คลังข้อมูลใดๆ ที่มีขนาดจำกัดจะละเว้นลำดับคำที่ถูกต้องจำนวนมาก ดังนั้นแบบจำลองที่ไม่มีการปรับเรียบจะกำหนดความน่าจะเป็นเป็นศูนย์ให้กับลำดับเหล่านั้น การปรับเรียบจะกระจายมวลความน่าจะเป็นเล็กน้อยไปยังเหตุการณ์ที่ไม่เคยพบเห็น เพื่อให้แบบจำลองสามารถจัดการกับข้อความใหม่ได้