Machine learning

Суміш експертів

Суміш експертів (MoE) — це розріджена архітектура нейронних мереж, представлена Шазіром та його колегами у 2017 році за допомогою розріджено-керованого шару MoE, в якому для кожного вхідного сигналу активується лише підмножина експертних підмереж. Як видно в таких моделях, як Switch Transformer та Mixtral, вона зберігає постійну обчислювальну вартість, навіть коли загальна кількість параметрів зростає.

Відкрити у MethodMindНезабаромВідеоНезабаромЗавантажити слайди

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Карта методів

Околиця споріднених методів — виберіть вузол, щоб дослідити.

Суміш експертів

Графова уважна мережа Випадковий ліс XGBoost Дистиляція знань Longformer / BigBird Мультимодальний варіацій…Нейронний пошук архітект…Time-MoE: Модель фундаме…Візуальне контрастивне н…

Джерела

Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR. arXiv:1701.06538 link ↗
Jiang, A.Q. et al. (2024). Mixtral of Experts. arXiv. link ↗

Як цитувати цю сторінку

ScholarGate. (2026, June 1). Sparsely-Gated Mixture of Experts (MoE). ScholarGate. https://scholargate.app/uk/deep-learning/mixture-of-experts

Який метод?

Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.

Графова уважна мережаГлибоке навчання↔ порівняти
Випадковий лісМашинне навчання↔ порівняти
XGBoostМашинне навчання↔ порівняти

Порівняти поруч →

Згадується в

Дистиляція знань Longformer / BigBird Мультимодальний варіаційний автокодувальник Нейронний пошук архітектур Time-MoE: Модель фундаменту для часових рядів на основі суміші експертів Візуальне контрастивне навчання

Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →

Читати метод повністю

Карта методів

Джерела

Як цитувати цю сторінку

Пов'язані методи

Який метод?

Згадується в