แบบจำลองลำดับต่อลำดับและทรานส์ฟอร์เมอร์
สถาปัตยกรรมโครงข่ายประสาทเทียมที่แปลงลำดับอินพุตเป็นลำดับเอาต์พุต — ตัวเข้ารหัส-ตัวถอดรหัสแบบวนซ้ำ, กลไกความสนใจ, และทรานส์ฟอร์เมอร์ — ซึ่งเป็นรากฐานของการแปลภาษา, การสรุปความ, และแบบจำลองภาษาเชิงสร้างสรรค์สมัยใหม่
Definition
แบบจำลองลำดับต่อลำดับคือโครงข่ายประสาทเทียมที่เข้ารหัสลำดับอินพุตและสร้างลำดับเอาต์พุต โดยทั่วไปจะใช้กลไกความสนใจเพื่อจัดแนวลำดับทั้งสอง
Scope
ครอบคลุมสถาปัตยกรรมโครงข่ายประสาทเทียมสำหรับการสร้างแบบจำลองลำดับที่เป็นหัวใจสำคัญของ NLP ในปัจจุบัน: โครงข่ายประสาทเทียมแบบวนซ้ำรวมถึง LSTM, กรอบการทำงานของตัวเข้ารหัส-ตัวถอดรหัส, กลไกความสนใจ, และทรานส์ฟอร์เมอร์ อธิบายถึงวิธีการฝึกอบรมและถอดรหัสแบบจำลองเหล่านี้ และเหตุใดกลไกความสนใจในตัวเองของทรานส์ฟอร์เมอร์จึงช่วยให้สามารถขยายขนาดไปสู่แบบจำลองภาษาขนาดใหญ่ได้ การฝังคำและการประยุกต์ใช้เฉพาะทางจะกล่าวถึงในหัวข้อที่เกี่ยวข้อง
Core questions
- กรอบการทำงานของตัวเข้ารหัส-ตัวถอดรหัสแปลงลำดับหนึ่งไปเป็นอีกลำดับหนึ่งได้อย่างไร?
- เหตุใดกลไกความสนใจจึงเอาชนะปัญหาคอขวดของการเข้ารหัสขนาดคงที่ได้?
- กลไกความสนใจในตัวเองคำนวณอะไร และเหตุใดทรานส์ฟอร์เมอร์จึงปรับขนาดได้ดีเยี่ยม?
- LSTM และทรานส์ฟอร์เมอร์ได้รับการฝึกอบรมและใช้สำหรับการสร้างได้อย่างไร?
Key concepts
- โครงข่ายประสาทเทียมแบบวนซ้ำ
- LSTM
- ตัวเข้ารหัส-ตัวถอดรหัส
- กลไกความสนใจ
- กลไกความสนใจในตัวเอง
- ทรานส์ฟอร์เมอร์
- การเข้ารหัสตำแหน่ง
- การถอดรหัส
Key theories
- หน่วยความจำระยะยาว-ระยะสั้น
- สถาปัตยกรรมแบบวนซ้ำที่มีเซลล์หน่วยความจำแบบมีเกต ซึ่งช่วยลดปัญหาการไล่ระดับสีที่หายไป ทำให้สามารถเรียนรู้ความสัมพันธ์ระยะยาวในลำดับได้
- ตัวเข้ารหัส-ตัวถอดรหัสพร้อมกลไกความสนใจ
- การแปลงอินพุตเป็นลำดับเอาต์พุตผ่านตัวเข้ารหัสและตัวถอดรหัส โดยมีกลไกความสนใจที่ช่วยให้ตัวถอดรหัสสามารถมุ่งเน้นไปยังตำแหน่งอินพุตที่เกี่ยวข้องในแต่ละขั้นตอน
- ทรานส์ฟอร์เมอร์แบบกลไกความสนใจในตัวเอง
- การแทนที่การวนซ้ำด้วยกลไกความสนใจในตัวเอง เพื่อให้แต่ละโทเค็นสามารถให้ความสนใจโดยตรงกับโทเค็นอื่น ๆ ทั้งหมด ทำให้สามารถฝึกอบรมแบบขนานได้ และเป็นปัจจัยสำคัญที่อยู่เบื้องหลังการปรับขนาดของแบบจำลองภาษาขนาดใหญ่
History
LSTM (1997) ทำให้โครงข่ายประสาทเทียมแบบวนซ้ำใช้งานได้จริงสำหรับลำดับยาว การเรียนรู้แบบลำดับต่อลำดับพร้อมกลไกความสนใจ (2014–2015) ได้เปลี่ยนแปลงการแปลภาษาด้วยเครื่อง และทรานส์ฟอร์เมอร์ในปี 2017 ได้เข้ามาแทนที่การวนซ้ำด้วยกลไกความสนใจในตัวเอง ทำให้เกิดแบบจำลองเชิงสร้างสรรค์ที่ได้รับการฝึกอบรมล่วงหน้าขนาดใหญ่ซึ่งครองวงการอยู่ในปัจจุบัน
Debates
- การวนซ้ำเทียบกับกลไกความสนใจ
- การถกเถียงว่าการวนซ้ำตามลำดับหรือกลไกความสนใจแบบขนานทั้งหมดเป็นอคติเชิงอุปนัยที่ดีกว่าสำหรับภาษาหรือไม่ ทรานส์ฟอร์เมอร์ส่วนใหญ่ชนะในด้านความสามารถในการปรับขนาด แม้ว่าข้อกังวลด้านประสิทธิภาพจะยังคงทำให้สถาปัตยกรรมทางเลือกยังคงอยู่
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- กลไกความสนใจแก้ปัญหาอะไร?
- แบบจำลองตัวเข้ารหัส-ตัวถอดรหัสในยุคแรก ๆ จะบีบอัดอินพุตทั้งหมดให้เป็นเวกเตอร์เดียวที่มีขนาดคงที่ ซึ่งทำให้ข้อมูลสูญหายสำหรับลำดับยาว กลไกความสนใจช่วยให้ตัวถอดรหัสสามารถย้อนกลับไปดูสถานะทั้งหมดของตัวเข้ารหัสและให้น้ำหนักกับสถานะที่เกี่ยวข้องมากที่สุดในแต่ละขั้นตอนการสร้างเอาต์พุต