盘古MoGE架构破解混合专家模型负载难题混合专家模型(MoE)因其能以较低成本支持更大参数规模并实现稀疏激活而备受关注,但实际部署中常面临专家激活严重不均衡的问题,导致效率低下。针对此,盘古团队提出新型分组混合专家模型(MoGE),通过专家分组并约束组内等量激活,成功实现专家负载均衡,显著提升了模型在昇腾平台的部署效率。基于MoGE架构,盘古Pro MoE模型总参数量达720亿,激活参数量为160亿,并针对昇腾平台进行了深度优化。在昇腾800I A2上,该模型实现了单卡高达1148 tokens/s的推理吞吐,借助投机加速等技术可进一步提升至1528 tokens/s,性能远超同规模稠密模型。同时,在昇腾300I Duo服务器上也实现了高性价比的推理方案。研究与多项基准测试结果表明,昇腾NPU能够支持盘古Pro MoE的大规模并行训练,且该模型在千亿内总参数模型中处于领先地位,在中文、英文及推理等多个领域均超越了Qwen3-32B、GLM-Z1-32B等先进模型。 ☘️

  1. 转载请保留原文链接谢谢!
  2. 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
  3. 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
  4. 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
  5. 联系方式:936787576@qq.com