今日,面壁智能联合清华大学、OpenBMB开源社区宣布,正式发布并开源其在低比特大模型训练领域的最新成果——BitCPM-CANN。这是中国首个完全基于国产算力平台华为昇腾实现端到端训练并开源的三值(1.58-bit)大模型。BitCPM-CANN在华为昇腾上原生完成,包含0.5B、1B、3B、8B四个模型尺寸,与同尺寸MiniCPM4全精度家族逐项对照评测,性能表现优异。
BitCPM-CANN在推理阶段释放约6倍显存红利,同时将模型能力保留率维持在90%–97.2%。对于手机产业来说,6倍的显存红利意味着一个8B参数的BitCPM-CANN大模型可以轻松运行在当前主流旗舰手机之上。面壁智能基于MindSpeed×Megatron-LM主干搭建了完整的低比特训练底座,包含环境适配、32K长序列支持、并行策略、融合算子等完整工程体系。BitCPM-CANN0.5B/1B/3B/8B全系列模型权重现已开源。


来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。