การประมวลผลภาษาธรรมชาติเชิงสถิติและโครงข่ายประสาทเทียม
หัวใจสำคัญที่ขับเคลื่อนการประมวลผลภาษาธรรมชาติในยุคปัจจุบัน: วิธีการเรียนรู้ของเครื่องที่เรียนรู้จากข้อความ ตั้งแต่ตัวจำแนกเชิงสถิติและการฝังคำ ไปจนถึงโครงข่ายประสาทเทียมแบบ Transformer และแบบจำลองภาษาขนาดใหญ่
Definition
การประมวลผลภาษาธรรมชาติเชิงสถิติและโครงข่ายประสาทเทียม คือชุดของวิธีการเรียนรู้ของเครื่องที่อนุมานความสามารถในการประมวลผลภาษาจากข้อมูล แทนที่จะเป็นกฎที่เขียนขึ้นด้วยมือ
Scope
ครอบคลุมวิธีการเรียนรู้ที่โดดเด่นในการประมวลผลภาษาธรรมชาติร่วมสมัย ได้แก่ การจำแนกข้อความแบบมีผู้สอน การนำเสนอคำแบบกระจาย และแบบจำลองภาษาโครงข่ายประสาทเทียม สถาปัตยกรรมแบบลำดับต่อลำดับ (sequence-to-sequence) และ Transformer รวมถึงการแปลภาษาด้วยเครื่องในฐานะแอปพลิเคชันหลัก เนื้อหานี้จะเชื่อมโยงการปฏิวัติเชิงสถิติในทศวรรษ 1990 และการปฏิวัติโครงข่ายประสาทเทียมในทศวรรษ 2010 เข้าด้วยกันในเส้นทางที่ต่อเนื่องกัน การนำเสนอทางภาษาและแอปพลิเคชันจะครอบคลุมในส่วนที่เกี่ยวข้อง
Sub-topics
Core questions
- งานด้านภาษาถูกกำหนดให้เป็นปัญหาการเรียนรู้แบบมีผู้สอนได้อย่างไร?
- การนำเสนอแบบกระจายสามารถจับความหมายของคำและประโยคได้อย่างไร?
- อะไรที่ทำให้สถาปัตยกรรม Transformer มีประสิทธิภาพอย่างมากสำหรับภาษา?
- วิธีการเชิงสถิติและโครงข่ายประสาทเทียมเข้ามามีบทบาทสำคัญในสาขาวิชานี้ได้อย่างไร?
Key concepts
- การเรียนรู้แบบมีผู้สอน
- การนำเสนอคุณลักษณะ
- การฝังคำ
- โครงข่ายประสาทเทียม
- กลไกความใส่ใจในตัวเอง (self-attention)
- Transformer
- การเรียนรู้แบบถ่ายโอน (transfer learning)
- แบบจำลองภาษาขนาดใหญ่
Key theories
- การเรียนรู้การนำเสนอเชิงการกระจาย (Distributional representation learning)
- การนำเสนอคำและข้อความในรูปของเวกเตอร์หนาแน่นที่เรียนรู้จากการเกิดร่วมกันในคลังข้อมูลขนาดใหญ่ เพื่อให้ความคล้ายคลึงกันทางความหมายกลายเป็นความใกล้ชิดทางเรขาคณิต
- กลไกความใส่ใจในตัวเองและ Transformer
- สถาปัตยกรรมที่จำลองความสัมพันธ์ระหว่างโทเค็นทั้งหมดในลำดับผ่านกลไกความใส่ใจ (attention) ซึ่งช่วยให้การฝึกอบรมแบบขนานมีประสิทธิภาพสูง และเป็นรากฐานของแบบจำลองภาษาขนาดใหญ่ในปัจจุบัน
History
การปฏิวัติเชิงสถิติในทศวรรษ 1990 ได้เข้ามาแทนที่กฎที่สร้างขึ้นด้วยมือด้วยแบบจำลองเชิงความน่าจะเป็นที่ประมาณค่าจากคลังข้อมูล การฝังคำและโครงข่ายประสาทเทียมแบบเวียนซ้ำ (recurrent networks) ในช่วงต้นทศวรรษ 2010 ตามมาด้วย Transformer ในปี 2017 และแบบจำลองที่ได้รับการฝึกฝนล่วงหน้าขนาดใหญ่ (large pretrained models) ได้ก่อให้เกิดความก้าวหน้าอย่างรวดเร็วในเกือบทุกงาน และปรับเปลี่ยนสาขาวิชานี้ให้มุ่งเน้นไปที่การนำเสนอที่เรียนรู้ได้
Debates
- แบบจำลองโครงข่ายประสาทเทียมเข้าใจภาษาหรือไม่?
- คำถามที่ว่าแบบจำลองโครงข่ายประสาทเทียมขนาดใหญ่สามารถจับความสามารถทางภาษาและความหมายที่แท้จริงได้หรือไม่ หรือเพียงแค่ใช้ประโยชน์จากสถิติพื้นผิว คำถามนี้ขับเคลื่อนงานวิจัยที่กำลังดำเนินอยู่เกี่ยวกับการตีความและการประเมินผล
Key figures
- Christopher Manning
- Yoshua Bengio
- Ashish Vaswani
- Tomas Mikolov
Related topics
Seminal works
- manning1999
- vaswani2017
- jurafsky2025
Frequently asked questions
- การประมวลผลภาษาธรรมชาติเชิงสถิติ (statistical NLP) ล้าสมัยไปแล้วหรือไม่เมื่อมีแบบจำลองโครงข่ายประสาทเทียม (neural models)?
- ไม่ แบบจำลองโครงข่ายประสาทเทียมยังคงอยู่บนรากฐานทางสถิติเดียวกัน ได้แก่ ความน่าจะเป็น การประมาณค่า และการประเมินผล และแนวคิดหลายอย่าง เช่น การปรับให้เรียบ (smoothing) การจำแนกประเภท และการสร้างแบบจำลองภาษา ก็ยังคงถูกนำมาใช้โดยตรงในบริบทของโครงข่ายประสาทเทียม