Machine learning

专家混合模型

专家混合模型（Mixture of Experts, MoE）是一种稀疏神经网络架构，由Shazeer及其同事于2017年通过稀疏门控MoE层首次提出。在该架构中，每个输入仅激活一部分专家子网络。如Switch Transformer和Mixtral等模型所示，MoE可以在总参数量增长的情况下保持计算成本固定。

在 MethodMind 中打开即将推出Apply, compare, get guidance

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

阅读完整方法

仅限会员

使用免费账户登录即可阅读本节。

方法图谱

相关方法的邻域——选择一个节点以展开探索。

专家混合模型

图注意力网络随机森林 XGBoost 知识蒸馏长格式Transformer / BigBird 多模态变分自编码器神经架构搜索 Time-MoE：面向通用时间序列的混合专家模型视觉对比学习

来源

Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR. arXiv:1701.06538 link ↗
Jiang, A.Q. et al. (2024). Mixtral of Experts. arXiv. link ↗

如何引用本页

ScholarGate. (2026, June 1). Sparsely-Gated Mixture of Experts (MoE). ScholarGate. https://scholargate.app/zh/deep-learning/mixture-of-experts

选用哪种方法？

将本方法与其最相近的同类并置，并排研读——本馆将书籍铺陈于案上，取舍则由您定夺。

并排比较 →

被引用于

知识蒸馏长格式Transformer / BigBird 多模态变分自编码器神经架构搜索 Time-MoE：面向通用时间序列的混合专家模型视觉对比学习

Related reference concepts

Sequence-to-Sequence Models and Transformers Neural Network Architectures Deep Learning Language Modeling Convolutional and Sequence Models Backpropagation and Optimization

发现本页有问题？报告或提出修改建议 →

阅读完整方法

方法图谱

来源

如何引用本页

相关方法

选用哪种方法？

被引用于

Similar methods

Related reference concepts