4月24日,DeepSeek-V4模型预览版正式上线并开源。华为宣布,通过芯模技术协同,昇腾超节点全系列产品支持DeepSeekV4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能。结合量化算法,实现高吞吐、低时延的DeepSeekV4模型推理部署。昇腾A3超节点系列产品也全面适配,并提供基于昇腾A3超节点的训练参考实现。
基于DeepSeekV4-Pro模型,在8K输入场景下,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeekV4-Flash模型,在8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。基于昇腾A364卡超节点结合大EP模式部署,DeepSeekV4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐,单卡吞吐持续提升。官方表示,针对DeepSeekV4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。