ScholarGate
עוזר
Machine learningDeep learning / NLP / CV

טרנספורמר ראייה רב-לשוני

טרנספורמר ראייה רב-לשוני (Multilingual ViT) מרחיב את ארכיטקטורת הטרנספורמר ראייה לפעולה על פני שפות מרובות, ומאפשר הבנת תמונות והסקת קשרים בין תמונות לטקסט בסביבות רב-לשוניות או בין-לשוניות. הוא משלב קידוד תמונה מבוסס-טלאים עם ייצוגי טקסט רב-לשוניים, המאפשרים למודל יחיד לשרת קהילות לשוניות מגוונות למשימות כגון כתוביות תמונה, מענה על שאלות חזותיות, ואחזור תמונות בין-לשוני.

פתיחה ב-MethodMindבקרובוידאובקרובהורדת מצגת

קראו את השיטה במלואה

לחברים בלבד

התחברו עם חשבון חינמי כדי לקרוא חלק זה.

התחברות

מפת שיטות

סביבת השיטות הקרובות — בחרו צומת כדי לחקור.

מקורות

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). link
  2. Bugliarello, E., Liu, F., Pfeiffer, J., Reddy, S., Elliott, D., Erdem, E., Erdem, A., & Lukasiewicz, T. (2022). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages. International Conference on Machine Learning (ICML 2022). link

איך לצטט עמוד זה

ScholarGate. (2026, June 3). Multilingual Vision Transformer (Multilingual ViT). ScholarGate. https://scholargate.app/he/deep-learning/multilingual-vision-transformer

איזו שיטה?

הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.

השוואה זה לצד זה

מאוזכר על ידי

ScholarGateMultilingual vision transformer (Multilingual Vision Transformer (Multilingual ViT)). אוחזר בתאריך 2026-06-15 מתוך https://scholargate.app/he/deep-learning/multilingual-vision-transformer · מערך נתונים: https://doi.org/10.5281/zenodo.20539026