การเรียนรู้แบบกำกับตนเองและการเรียนรู้การนำเสนอข้อมูล
การเรียนรู้แบบกำกับตนเองและการเรียนรู้การนำเสนอข้อมูลสร้างคุณลักษณะที่เป็นประโยชน์จากข้อมูลที่ไม่มีป้ายกำกับ โดยการสร้างงานการทำนายจากข้อมูลนั้นเอง ซึ่งทำให้เกิดการนำเสนอข้อมูลที่สามารถถ่ายทอดไปยังปัญหาปลายทางหลายอย่างได้
Definition
การเรียนรู้แบบกำกับตนเองเป็นการฝึกอบรมแบบจำลองในงานที่ป้ายกำกับได้มาจากอินพุตโดยอัตโนมัติ เช่น การทำนายส่วนที่ซ่อนอยู่ของข้อมูล หรือการจดจำมุมมองที่เพิ่มขึ้นสองมุมมองว่าเป็นรายการเดียวกัน เพื่อให้แบบจำลองเรียนรู้การนำเสนอข้อมูลวัตถุประสงค์ทั่วไปที่สามารถนำไปใช้ในงานที่มีผู้สอนในภายหลังได้
Scope
หัวข้อนี้ครอบคลุมการเรียนรู้การนำเสนอข้อมูลโดยไม่มีป้ายกำกับจากมนุษย์: ออโตเอนโคเดอร์ที่บีบอัดและสร้างอินพุตขึ้นใหม่, วิธีการเชิงเปรียบเทียบที่รวบรวมมุมมองที่เกี่ยวข้องเข้าด้วยกันและแยกมุมมองที่ไม่เกี่ยวข้องออกจากกัน, และงานการทำนายล่วงหน้าหรือการทำนายแบบปกปิดที่เปลี่ยนข้อมูลที่ไม่มีป้ายกำกับให้เป็นสัญญาณแบบมีผู้สอน นอกจากนี้ยังกล่าวถึงเหตุผลที่การนำเสนอข้อมูลที่ดีมีความสำคัญและวิธีการถ่ายทอดคุณลักษณะที่ได้รับการฝึกฝนล่วงหน้าข้ามงานต่างๆ
Core questions
- จะสร้างสัญญาณการฝึกอบรมแบบมีผู้สอนจากข้อมูลที่ไม่มีป้ายกำกับได้อย่างไร?
- อะไรที่ทำให้การนำเสนอข้อมูลที่เรียนรู้มามีประโยชน์และถ่ายทอดได้?
- วัตถุประสงค์เชิงเปรียบเทียบและเชิงสร้างใหม่แตกต่างกันอย่างไร?
- เหตุใดการฝึกอบรมล่วงหน้าบนคลังข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับจึงช่วยงานปลายทางได้?
Key theories
- การเรียนรู้การนำเสนอข้อมูล
- คุณภาพของการนำเสนอข้อมูลที่เรียนรู้มา มักจะเป็นตัวกำหนดประสิทธิภาพมากกว่าการเลือกตัวจำแนก ดังนั้นการเรียนรู้คุณลักษณะที่แยกปัจจัยพื้นฐานของการแปรผันออกจากกันจึงเป็นเป้าหมายหลัก
- การเข้ารหัสอัตโนมัติและการสร้างใหม่
- ออโตเอนโคเดอร์เรียนรู้รหัสที่กระชับโดยการสร้างอินพุตของตนขึ้นใหม่ผ่านคอขวด และรูปแบบต่างๆ เช่น denoising autoencoders เรียนรู้คุณลักษณะที่แข็งแกร่งโดยการสร้างอินพุตที่เสียหายขึ้นใหม่
- การฝึกอบรมล่วงหน้าและการถ่ายทอด
- แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับด้วยวัตถุประสงค์แบบกำกับตนเอง จะเรียนรู้คุณลักษณะที่มีประโยชน์อย่างกว้างขวางที่สามารถถ่ายทอดไปยังงานปลายทางหลายอย่างโดยใช้ข้อมูลที่มีป้ายกำกับเพียงเล็กน้อย ซึ่งเป็นกระบวนทัศน์หลักของระบบสมัยใหม่
Clinical relevance
การฝึกอบรมล่วงหน้าแบบกำกับตนเองเป็นรากฐานของระบบภาษาและวิสัยทัศน์สมัยใหม่ ซึ่งช่วยให้แบบจำลองสามารถดูดซับความรู้จากคลังข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับก่อนที่จะถูกปรับให้เข้ากับงานเฉพาะที่มีป้ายกำกับจำกัด ซึ่งช่วยลดข้อมูลที่มีป้ายกำกับที่จำเป็นสำหรับการทำงานที่มีประสิทธิภาพลงอย่างมาก และเป็นเหตุผลสำคัญสำหรับความก้าวหน้าล่าสุดในปัญญาประดิษฐ์
History
การเรียนรู้การนำเสนอข้อมูลเติบโตมาจากออโตเอนโคเดอร์และการฝึกอบรมล่วงหน้าแบบไม่มีผู้สอนของเครือข่ายเชิงลึกในช่วงทศวรรษ 2000 วัตถุประสงค์แบบกำกับตนเอง รวมถึงการทำนายแบบปกปิดในภาษาและการเรียนรู้เชิงเปรียบเทียบในวิสัยทัศน์ ได้รับการพิสูจน์ในภายหลังว่าสามารถเรียนรู้การนำเสนอข้อมูลวัตถุประสงค์ทั่วไปที่มีประสิทธิภาพ และกลายเป็นแนวทางที่โดดเด่นในการฝึกอบรมแบบจำลองขนาดใหญ่ล่วงหน้า
Key figures
- Yoshua Bengio
- Geoffrey Hinton
- Yann LeCun
Related topics
Seminal works
- bengio2013
- goodfellow2016
- lecun2015
Frequently asked questions
- การเรียนรู้แบบกำกับตนเองแตกต่างจากการเรียนรู้แบบไม่มีผู้สอนอย่างไร?
- การเรียนรู้แบบกำกับตนเองเป็นรูปแบบหนึ่งของการเรียนรู้แบบไม่มีผู้สอน ซึ่งแบบจำลองได้รับการฝึกอบรมด้วยวัตถุประสงค์แบบมีผู้สอนที่เป้าหมายถูกสร้างขึ้นโดยอัตโนมัติจากข้อมูล ตัวอย่างเช่น โดยการซ่อนส่วนหนึ่งของอินพุตและทำนายส่วนนั้น ไม่มีการใช้ป้ายกำกับจากมนุษย์ แต่ยังคงกำหนดกรอบการเรียนรู้เป็นการทำนาย
- เหตุใดการนำเสนอข้อมูลที่ดีจึงมีคุณค่ามาก?
- เมื่อข้อมูลถูกเข้ารหัสเป็นการนำเสนอข้อมูลที่จับโครงสร้างที่สำคัญของข้อมูลได้ แม้แต่แบบจำลองที่เรียบง่ายก็สามารถทำงานได้ดี และการนำเสนอข้อมูลเดียวกันนี้สามารถใช้ได้กับหลายงาน การเรียนรู้คุณลักษณะที่ถ่ายทอดได้ดังกล่าวจากข้อมูลที่ไม่มีป้ายกำกับคือสิ่งที่ทำให้การฝึกอบรมล่วงหน้ามีประสิทธิภาพมาก