การสร้างแบบจำลองภาษา
การกำหนดความน่าจะเป็นให้กับลำดับของคำ ซึ่งเป็นภารกิจพื้นฐานที่ช่วยให้ระบบสามารถคาดการณ์ ให้คะแนน และสร้างข้อความได้ ตั้งแต่ตัวนับ n-gram แบบดั้งเดิมไปจนถึงแบบจำลองภาษาเชิงโครงข่ายประสาทเทียม
Definition
แบบจำลองภาษาคือการแจกแจงความน่าจะเป็นเหนือลำดับของคำหรือโทเค็น ซึ่งโดยทั่วไปแล้วจะถูกกำหนดโดยการทำนายแต่ละโทเค็นจากบริบทที่นำหน้า
Scope
ครอบคลุมภารกิจการสร้างแบบจำลองภาษาโดยตรง: การประมาณความน่าจะเป็นของคำเมื่อพิจารณาจากบริบท แบบจำลอง n-gram และเทคนิคการปรับเรียบ การประเมินด้วยค่าความกำกวม (perplexity) และการเปลี่ยนผ่านไปสู่การนำเสนอแบบโครงข่ายประสาทเทียมและแบบกระจาย (distributed representations) โดยระบุว่าแบบจำลองภาษาขนาดใหญ่เป็นรูปแบบที่ทันสมัยของภารกิจเดียวกัน สถาปัตยกรรมโครงข่ายประสาทเทียมโดยละเอียดจะได้รับการกล่าวถึงในสาขา NLP เชิงสถิติและโครงข่ายประสาทเทียม
Core questions
- ความน่าจะเป็นของประโยคสามารถแยกย่อยออกเป็นความน่าจะเป็นของคำแบบมีเงื่อนไขได้อย่างไร?
- การปรับเรียบ (smoothing) จัดการกับลำดับคำที่ไม่เคยพบในการฝึกฝนได้อย่างไร?
- ค่าความกำกวม (perplexity) ถูกนำมาใช้ในการประเมินและเปรียบเทียบแบบจำลองภาษาได้อย่างไร?
- แบบจำลองภาษาเชิงโครงข่ายประสาทเทียมเปลี่ยนแปลงอะไรบ้างเมื่อเทียบกับแบบจำลอง n-gram?
Key concepts
- n-gram
- สมมติฐานมาร์คอฟ (Markov assumption)
- การปรับเรียบ (smoothing)
- ค่าความกำกวม (perplexity)
- การถอยกลับและการประมาณค่าในช่วง (backoff and interpolation)
- การนำเสนอคำแบบกระจาย (distributed word representations)
- เอนโทรปีไขว้ (cross-entropy)
- การทำนายโทเค็นถัดไป (next-token prediction)
Key theories
- การสร้างแบบจำลองมาร์คอฟแบบ N-gram
- การประมาณความน่าจะเป็นของคำโดยพิจารณาจากคำ n-1 คำก่อนหน้าเท่านั้น ทำให้การสร้างแบบจำลองภาษากลายเป็นปัญหาที่สามารถจัดการได้ด้วยการนับและการปรับเรียบ
- แบบจำลองภาษาเชิงความน่าจะเป็นแบบโครงข่ายประสาทเทียม
- การแทนที่การนับ n-gram แบบกระจัดกระจายด้วยโครงข่ายประสาทเทียมที่เรียนรู้การนำเสนอคำแบบกระจาย (distributed word representations) ซึ่งช่วยลดปัญหา curse of dimensionality และทำให้สามารถสรุปผลไปยังบริบทที่ไม่เคยพบเห็นได้
History
ทฤษฎีสารสนเทศของ Shannon ได้กำหนดให้ภาษาเป็นแหล่งกำเนิดสุ่มที่สามารถคาดการณ์ได้ และชุมชนการรู้จำเสียงพูดที่ IBM ได้ทำให้การสร้างแบบจำลอง n-gram เป็นหัวใจสำคัญในช่วงทศวรรษ 1980 Bengio และคณะได้นำเสนอแบบจำลองภาษาเชิงความน่าจะเป็นแบบโครงข่ายประสาทเทียมในปี 2003 ซึ่งเป็นจุดเริ่มต้นของแนวทางการนำเสนอแบบกระจาย (distributed-representation) ที่เมื่อขยายขนาดแล้วได้ก่อให้เกิดแบบจำลองภาษาขนาดใหญ่ในปัจจุบัน
Debates
- การนับเทียบกับการนำเสนอที่เรียนรู้
- ไม่ว่าภาษาจะถูกสร้างแบบจำลองได้ดีที่สุดด้วยการนับแบบปรับเรียบเหนือลำดับที่ไม่ต่อเนื่อง หรือด้วยโครงข่ายประสาทเทียมที่เรียนรู้การนำเสนอแบบต่อเนื่อง วิธีการเชิงโครงข่ายประสาทเทียมในปัจจุบันมีอิทธิพลเหนือกว่า แต่ยังคงสืบทอดวัตถุประสงค์เชิงความน่าจะเป็นเดียวกัน
Key figures
- Claude Shannon
- Frederick Jelinek
- Yoshua Bengio
- Daniel Jurafsky
Related topics
Seminal works
- shannon1948
- bengio2003
- jurafsky2025
Frequently asked questions
- ค่าความกำกวม (perplexity) คืออะไร?
- ค่าความกำกวมวัดว่าแบบจำลองภาษามีความประหลาดใจต่อข้อความที่ไม่ได้ใช้ในการฝึกฝนมากน้อยเพียงใด ค่าความกำกวมที่ต่ำกว่าหมายความว่าแบบจำลองกำหนดความน่าจะเป็นที่สูงกว่าให้กับคำที่สังเกตได้ ซึ่งบ่งชี้ถึงความเหมาะสมที่ดีกว่า
- เหตุใดการสร้างแบบจำลองภาษาจึงต้องมีการปรับเรียบ (smoothing)?
- คลังข้อมูลใดๆ ที่มีขนาดจำกัดจะละเว้นลำดับคำที่ถูกต้องจำนวนมาก ดังนั้นแบบจำลองที่ไม่มีการปรับเรียบจะกำหนดความน่าจะเป็นเป็นศูนย์ให้กับลำดับเหล่านั้น การปรับเรียบจะกระจายมวลความน่าจะเป็นเล็กน้อยไปยังเหตุการณ์ที่ไม่เคยพบเห็น เพื่อให้แบบจำลองสามารถจัดการกับข้อความใหม่ได้