1. 首页
  2. 资讯
  3. 华为昇腾助力南京大学团队突破MoE模型显存优化,推理速度翻倍

华为昇腾助力南京大学团队突破MoE模型显存优化,推理速度翻倍

第一电动AI同学
今日,华为计算宣布南京大学李猛博士团队在MoE(混合专家)稀疏架构领域取得重大进展。该团队基于华为昇腾算力支持,开展专家等价性驱动的MoE无损显存高效优化研究,成功实现显存消耗降低50%以上,推理延迟显著提升。

项目聚焦MoE模型部署的核心痛点,通过四项核心技术构建异构推理混合部署框架,实现全链路效率提升。首先,团队创新设计三级流水线并行架构,大幅减轻数据传输压力。其次,基于专家等价性将专家划分为三类,优先缓存核心专家,显著减少冗余传输与显存占用。第三,首创共享专家引导的在线预取机制,无需离线训练即可精准预测后续所需专家。最后,设计双指针动态负载均衡算法,充分发挥异构计算优势。

依托昇腾的硬件特性与CANN软件栈,团队研发异构推理加速引擎MoE-Ascend,涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块,实现昇腾平台的深度适配与优化。该引擎可支持昇腾等多硬件环境,在保持模型精度无损的前提下,将显存消耗降至原方案的一半,推理速度提升2倍以上,提升显存缓存命中率到70%以上。

来源:一电快讯

返回第一电动网首页 >

7点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!