กลไกความสนใจแก้ปัญหาอะไร?

แบบจำลองตัวเข้ารหัส-ตัวถอดรหัสในยุคแรก ๆ จะบีบอัดอินพุตทั้งหมดให้เป็นเวกเตอร์เดียวที่มีขนาดคงที่ ซึ่งทำให้ข้อมูลสูญหายสำหรับลำดับยาว กลไกความสนใจช่วยให้ตัวถอดรหัสสามารถย้อนกลับไปดูสถานะทั้งหมดของตัวเข้ารหัสและให้น้ำหนักกับสถานะที่เกี่ยวข้องมากที่สุดในแต่ละขั้นตอนการสร้างเอาต์พุต

แบบจำลองลำดับต่อลำดับและทรานส์ฟอร์เมอร์

สถาปัตยกรรมโครงข่ายประสาทเทียมที่แปลงลำดับอินพุตเป็นลำดับเอาต์พุต — ตัวเข้ารหัส-ตัวถอดรหัสแบบวนซ้ำ, กลไกความสนใจ, และทรานส์ฟอร์เมอร์ — ซึ่งเป็นรากฐานของการแปลภาษา, การสรุปความ, และแบบจำลองภาษาเชิงสร้างสรรค์สมัยใหม่

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

แบบจำลองลำดับต่อลำดับคือโครงข่ายประสาทเทียมที่เข้ารหัสลำดับอินพุตและสร้างลำดับเอาต์พุต โดยทั่วไปจะใช้กลไกความสนใจเพื่อจัดแนวลำดับทั้งสอง

Scope

ครอบคลุมสถาปัตยกรรมโครงข่ายประสาทเทียมสำหรับการสร้างแบบจำลองลำดับที่เป็นหัวใจสำคัญของ NLP ในปัจจุบัน: โครงข่ายประสาทเทียมแบบวนซ้ำรวมถึง LSTM, กรอบการทำงานของตัวเข้ารหัส-ตัวถอดรหัส, กลไกความสนใจ, และทรานส์ฟอร์เมอร์ อธิบายถึงวิธีการฝึกอบรมและถอดรหัสแบบจำลองเหล่านี้ และเหตุใดกลไกความสนใจในตัวเองของทรานส์ฟอร์เมอร์จึงช่วยให้สามารถขยายขนาดไปสู่แบบจำลองภาษาขนาดใหญ่ได้ การฝังคำและการประยุกต์ใช้เฉพาะทางจะกล่าวถึงในหัวข้อที่เกี่ยวข้อง

Core questions

กรอบการทำงานของตัวเข้ารหัส-ตัวถอดรหัสแปลงลำดับหนึ่งไปเป็นอีกลำดับหนึ่งได้อย่างไร?
เหตุใดกลไกความสนใจจึงเอาชนะปัญหาคอขวดของการเข้ารหัสขนาดคงที่ได้?
กลไกความสนใจในตัวเองคำนวณอะไร และเหตุใดทรานส์ฟอร์เมอร์จึงปรับขนาดได้ดีเยี่ยม?
LSTM และทรานส์ฟอร์เมอร์ได้รับการฝึกอบรมและใช้สำหรับการสร้างได้อย่างไร?

Key concepts

โครงข่ายประสาทเทียมแบบวนซ้ำ
LSTM
ตัวเข้ารหัส-ตัวถอดรหัส
กลไกความสนใจ
กลไกความสนใจในตัวเอง
ทรานส์ฟอร์เมอร์
การเข้ารหัสตำแหน่ง
การถอดรหัส

Key theories

หน่วยความจำระยะยาว-ระยะสั้น: สถาปัตยกรรมแบบวนซ้ำที่มีเซลล์หน่วยความจำแบบมีเกต ซึ่งช่วยลดปัญหาการไล่ระดับสีที่หายไป ทำให้สามารถเรียนรู้ความสัมพันธ์ระยะยาวในลำดับได้
ตัวเข้ารหัส-ตัวถอดรหัสพร้อมกลไกความสนใจ: การแปลงอินพุตเป็นลำดับเอาต์พุตผ่านตัวเข้ารหัสและตัวถอดรหัส โดยมีกลไกความสนใจที่ช่วยให้ตัวถอดรหัสสามารถมุ่งเน้นไปยังตำแหน่งอินพุตที่เกี่ยวข้องในแต่ละขั้นตอน
ทรานส์ฟอร์เมอร์แบบกลไกความสนใจในตัวเอง: การแทนที่การวนซ้ำด้วยกลไกความสนใจในตัวเอง เพื่อให้แต่ละโทเค็นสามารถให้ความสนใจโดยตรงกับโทเค็นอื่น ๆ ทั้งหมด ทำให้สามารถฝึกอบรมแบบขนานได้ และเป็นปัจจัยสำคัญที่อยู่เบื้องหลังการปรับขนาดของแบบจำลองภาษาขนาดใหญ่

History

LSTM (1997) ทำให้โครงข่ายประสาทเทียมแบบวนซ้ำใช้งานได้จริงสำหรับลำดับยาว การเรียนรู้แบบลำดับต่อลำดับพร้อมกลไกความสนใจ (2014–2015) ได้เปลี่ยนแปลงการแปลภาษาด้วยเครื่อง และทรานส์ฟอร์เมอร์ในปี 2017 ได้เข้ามาแทนที่การวนซ้ำด้วยกลไกความสนใจในตัวเอง ทำให้เกิดแบบจำลองเชิงสร้างสรรค์ที่ได้รับการฝึกอบรมล่วงหน้าขนาดใหญ่ซึ่งครองวงการอยู่ในปัจจุบัน

Debates

การวนซ้ำเทียบกับกลไกความสนใจ: การถกเถียงว่าการวนซ้ำตามลำดับหรือกลไกความสนใจแบบขนานทั้งหมดเป็นอคติเชิงอุปนัยที่ดีกว่าสำหรับภาษาหรือไม่ ทรานส์ฟอร์เมอร์ส่วนใหญ่ชนะในด้านความสามารถในการปรับขนาด แม้ว่าข้อกังวลด้านประสิทธิภาพจะยังคงทำให้สถาปัตยกรรมทางเลือกยังคงอยู่

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

กลไกความสนใจแก้ปัญหาอะไร?: แบบจำลองตัวเข้ารหัส-ตัวถอดรหัสในยุคแรก ๆ จะบีบอัดอินพุตทั้งหมดให้เป็นเวกเตอร์เดียวที่มีขนาดคงที่ ซึ่งทำให้ข้อมูลสูญหายสำหรับลำดับยาว กลไกความสนใจช่วยให้ตัวถอดรหัสสามารถย้อนกลับไปดูสถานะทั้งหมดของตัวเข้ารหัสและให้น้ำหนักกับสถานะที่เกี่ยวข้องมากที่สุดในแต่ละขั้นตอนการสร้างเอาต์พุต