วิชันทรานส์ฟอร์มเมอร์ที่ปรับละเอียด
วิชันทรานส์ฟอร์มเมอร์ที่ปรับละเอียด (Fine-Tuned Vision Transformer) เป็นการปรับโมเดล ViT ขนาดใหญ่ที่ได้รับการฝึกฝนล่วงหน้าแล้ว — ซึ่งแบ่งภาพออกเป็นแพตช์ (patches) ขนาดคงที่และประมวลผลผ่านชั้น self-attention — ให้เหมาะกับงานจำแนกประเภทหรือรู้จำภาพใหม่ โดยใช้ชุดข้อมูลติดป้ายกำกับที่มีขนาดค่อนข้างเล็ก สามารถให้ความแม่นยำระดับแนวหน้าในด้านคอมพิวเตอร์วิทัศน์ โดยใช้ประโยชน์จากการแสดงลักษณะ (representations) ที่หลากหลายซึ่งได้เรียนรู้ระหว่างการฝึกฝนล่วงหน้าในสเกลใหญ่
อ่านวิธีฉบับเต็ม
เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้
แผนที่ระเบียบวิธี
ย่านของระเบียบวิธีที่เกี่ยวข้องกัน — เลือกโหนดเพื่อสำรวจ
+4 เพิ่มเติม
แหล่งอ้างอิง
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
วิธีอ้างอิงหน้านี้
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/th/deep-learning/fine-tuned-vision-transformer
ระเบียบวิธีใด?
วางระเบียบวิธีนี้เคียงข้างระเบียบวิธีใกล้เคียงที่สุด แล้วอ่านเปรียบเทียบกัน — คลังวางหนังสือไว้บนโต๊ะให้แล้ว ส่วนการเลือกเป็นของท่าน
- การจำแนกประเภทโดยใช้ BERTการเรียนรู้เชิงลึก↔ เปรียบเทียบ
- Fine-Tuned Convolutional Neural Networkการเรียนรู้เชิงลึก↔ เปรียบเทียบ
- การจำแนกประเภทรูปภาพการเรียนรู้เชิงลึก↔ เปรียบเทียบ
- Semantic Segmentationการเรียนรู้เชิงลึก↔ เปรียบเทียบ
- วิชันทรานส์ฟอร์มเมอร์การเรียนรู้เชิงลึก↔ เปรียบเทียบ