ScholarGate
ผู้ช่วย

แบบจำลองลำดับต่อลำดับและทรานส์ฟอร์เมอร์

สถาปัตยกรรมโครงข่ายประสาทเทียมที่แปลงลำดับอินพุตเป็นลำดับเอาต์พุต — ตัวเข้ารหัส-ตัวถอดรหัสแบบวนซ้ำ, กลไกความสนใจ, และทรานส์ฟอร์เมอร์ — ซึ่งเป็นรากฐานของการแปลภาษา, การสรุปความ, และแบบจำลองภาษาเชิงสร้างสรรค์สมัยใหม่

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

แบบจำลองลำดับต่อลำดับคือโครงข่ายประสาทเทียมที่เข้ารหัสลำดับอินพุตและสร้างลำดับเอาต์พุต โดยทั่วไปจะใช้กลไกความสนใจเพื่อจัดแนวลำดับทั้งสอง

Scope

ครอบคลุมสถาปัตยกรรมโครงข่ายประสาทเทียมสำหรับการสร้างแบบจำลองลำดับที่เป็นหัวใจสำคัญของ NLP ในปัจจุบัน: โครงข่ายประสาทเทียมแบบวนซ้ำรวมถึง LSTM, กรอบการทำงานของตัวเข้ารหัส-ตัวถอดรหัส, กลไกความสนใจ, และทรานส์ฟอร์เมอร์ อธิบายถึงวิธีการฝึกอบรมและถอดรหัสแบบจำลองเหล่านี้ และเหตุใดกลไกความสนใจในตัวเองของทรานส์ฟอร์เมอร์จึงช่วยให้สามารถขยายขนาดไปสู่แบบจำลองภาษาขนาดใหญ่ได้ การฝังคำและการประยุกต์ใช้เฉพาะทางจะกล่าวถึงในหัวข้อที่เกี่ยวข้อง

Core questions

  • กรอบการทำงานของตัวเข้ารหัส-ตัวถอดรหัสแปลงลำดับหนึ่งไปเป็นอีกลำดับหนึ่งได้อย่างไร?
  • เหตุใดกลไกความสนใจจึงเอาชนะปัญหาคอขวดของการเข้ารหัสขนาดคงที่ได้?
  • กลไกความสนใจในตัวเองคำนวณอะไร และเหตุใดทรานส์ฟอร์เมอร์จึงปรับขนาดได้ดีเยี่ยม?
  • LSTM และทรานส์ฟอร์เมอร์ได้รับการฝึกอบรมและใช้สำหรับการสร้างได้อย่างไร?

Key concepts

  • โครงข่ายประสาทเทียมแบบวนซ้ำ
  • LSTM
  • ตัวเข้ารหัส-ตัวถอดรหัส
  • กลไกความสนใจ
  • กลไกความสนใจในตัวเอง
  • ทรานส์ฟอร์เมอร์
  • การเข้ารหัสตำแหน่ง
  • การถอดรหัส

Key theories

หน่วยความจำระยะยาว-ระยะสั้น
สถาปัตยกรรมแบบวนซ้ำที่มีเซลล์หน่วยความจำแบบมีเกต ซึ่งช่วยลดปัญหาการไล่ระดับสีที่หายไป ทำให้สามารถเรียนรู้ความสัมพันธ์ระยะยาวในลำดับได้
ตัวเข้ารหัส-ตัวถอดรหัสพร้อมกลไกความสนใจ
การแปลงอินพุตเป็นลำดับเอาต์พุตผ่านตัวเข้ารหัสและตัวถอดรหัส โดยมีกลไกความสนใจที่ช่วยให้ตัวถอดรหัสสามารถมุ่งเน้นไปยังตำแหน่งอินพุตที่เกี่ยวข้องในแต่ละขั้นตอน
ทรานส์ฟอร์เมอร์แบบกลไกความสนใจในตัวเอง
การแทนที่การวนซ้ำด้วยกลไกความสนใจในตัวเอง เพื่อให้แต่ละโทเค็นสามารถให้ความสนใจโดยตรงกับโทเค็นอื่น ๆ ทั้งหมด ทำให้สามารถฝึกอบรมแบบขนานได้ และเป็นปัจจัยสำคัญที่อยู่เบื้องหลังการปรับขนาดของแบบจำลองภาษาขนาดใหญ่

History

LSTM (1997) ทำให้โครงข่ายประสาทเทียมแบบวนซ้ำใช้งานได้จริงสำหรับลำดับยาว การเรียนรู้แบบลำดับต่อลำดับพร้อมกลไกความสนใจ (2014–2015) ได้เปลี่ยนแปลงการแปลภาษาด้วยเครื่อง และทรานส์ฟอร์เมอร์ในปี 2017 ได้เข้ามาแทนที่การวนซ้ำด้วยกลไกความสนใจในตัวเอง ทำให้เกิดแบบจำลองเชิงสร้างสรรค์ที่ได้รับการฝึกอบรมล่วงหน้าขนาดใหญ่ซึ่งครองวงการอยู่ในปัจจุบัน

Debates

การวนซ้ำเทียบกับกลไกความสนใจ
การถกเถียงว่าการวนซ้ำตามลำดับหรือกลไกความสนใจแบบขนานทั้งหมดเป็นอคติเชิงอุปนัยที่ดีกว่าสำหรับภาษาหรือไม่ ทรานส์ฟอร์เมอร์ส่วนใหญ่ชนะในด้านความสามารถในการปรับขนาด แม้ว่าข้อกังวลด้านประสิทธิภาพจะยังคงทำให้สถาปัตยกรรมทางเลือกยังคงอยู่

Key figures

  • Ashish Vaswani
  • Ilya Sutskever
  • Sepp Hochreiter
  • Jürgen Schmidhuber

Related topics

Seminal works

  • hochreiter1997
  • sutskever2014
  • vaswani2017

Frequently asked questions

กลไกความสนใจแก้ปัญหาอะไร?
แบบจำลองตัวเข้ารหัส-ตัวถอดรหัสในยุคแรก ๆ จะบีบอัดอินพุตทั้งหมดให้เป็นเวกเตอร์เดียวที่มีขนาดคงที่ ซึ่งทำให้ข้อมูลสูญหายสำหรับลำดับยาว กลไกความสนใจช่วยให้ตัวถอดรหัสสามารถย้อนกลับไปดูสถานะทั้งหมดของตัวเข้ารหัสและให้น้ำหนักกับสถานะที่เกี่ยวข้องมากที่สุดในแต่ละขั้นตอนการสร้างเอาต์พุต

Methods for this concept

Related concepts