Machine learningDeep learning / NLP / CV

วิชันทรานส์ฟอร์มเมอร์ที่ปรับละเอียด

วิชันทรานส์ฟอร์มเมอร์ที่ปรับละเอียด (Fine-Tuned Vision Transformer) เป็นการปรับโมเดล ViT ขนาดใหญ่ที่ได้รับการฝึกฝนล่วงหน้าแล้ว — ซึ่งแบ่งภาพออกเป็นแพตช์ (patches) ขนาดคงที่และประมวลผลผ่านชั้น self-attention — ให้เหมาะกับงานจำแนกประเภทหรือรู้จำภาพใหม่ โดยใช้ชุดข้อมูลติดป้ายกำกับที่มีขนาดค่อนข้างเล็ก สามารถให้ความแม่นยำระดับแนวหน้าในด้านคอมพิวเตอร์วิทัศน์ โดยใช้ประโยชน์จากการแสดงลักษณะ (representations) ที่หลากหลายซึ่งได้เรียนรู้ระหว่างการฝึกฝนล่วงหน้าในสเกลใหญ่

เปิดใน MethodMindเร็ว ๆ นี้วิดีโอเร็ว ๆ นี้ดาวน์โหลดสไลด์

อ่านวิธีฉบับเต็ม

สำหรับสมาชิกเท่านั้น

เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้

เข้าสู่ระบบ

แผนที่ระเบียบวิธี

ย่านของระเบียบวิธีที่เกี่ยวข้องกัน — เลือกโหนดเพื่อสำรวจ

วิชันทรานส์ฟอร์มเมอร์ที่ปรับละเอียด

การจำแนกประเภทโดยใช้ BERT Fine-Tuned Convolutional…การจำแนกประเภทรูปภาพ Semantic Segmentation วิชันทรานส์ฟอร์มเมอร์วิทัศน์ทรานส์ฟอร์มปรับโด…โมเดลการแพร่กระจายที่ปรั…เครือข่ายปฏิปักษ์เชิงกำเ…การจำแนกภาพแบบปรับละเอียด การแบ่งส่วนความหมายแบบปร…

+4 เพิ่มเติม

แหล่งอ้างอิง

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗

วิธีอ้างอิงหน้านี้

ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/th/deep-learning/fine-tuned-vision-transformer

ระเบียบวิธีใด?

วางระเบียบวิธีนี้เคียงข้างระเบียบวิธีใกล้เคียงที่สุด แล้วอ่านเปรียบเทียบกัน — คลังวางหนังสือไว้บนโต๊ะให้แล้ว ส่วนการเลือกเป็นของท่าน

การจำแนกประเภทโดยใช้ BERTการเรียนรู้เชิงลึก↔ เปรียบเทียบ
Fine-Tuned Convolutional Neural Networkการเรียนรู้เชิงลึก↔ เปรียบเทียบ
การจำแนกประเภทรูปภาพการเรียนรู้เชิงลึก↔ เปรียบเทียบ
Semantic Segmentationการเรียนรู้เชิงลึก↔ เปรียบเทียบ
วิชันทรานส์ฟอร์มเมอร์การเรียนรู้เชิงลึก↔ เปรียบเทียบ

เปรียบเทียบเคียงข้างกัน →

ถูกอ้างอิงโดย

วิทัศน์ทรานส์ฟอร์มปรับโดเมน (Domain-Adaptive Vision Transformer - DA-ViT)Fine-Tuned Convolutional Neural Network โมเดลการแพร่กระจายที่ปรับละเอียด เครือข่ายปฏิปักษ์เชิงกำเนิดที่ปรับละเอียดแล้ว การจำแนกภาพแบบปรับละเอียด การแบ่งส่วนความหมายแบบปรับละเอียด ทรานส์ฟอร์มเมอร์วิสัยทัศน์หลายรูปแบบ Self-supervised Vision Transformer หม้อแปลงวิทัศน์แบบกึ่งมีผู้สอน การเรียนรู้แบบถ่ายโอนสำหรับการจำแนกประเภทรูปภาพ

พบปัญหาในหน้านี้หรือไม่ แจ้งหรือเสนอการแก้ไข →