去年12月,DeepSeek上线并开源了DeepSeek V3/ R1/Janus Pro,随后多个云平台宣布上线DeepSeek大模型。从2月份开始,多家汽车相关企业开始宣布接入DeepSeek,用于赋能不同领域的用户体验,但更多的集中表现在云端模型、座舱交互AI以及渠道服务方面。
北汽极狐在座舱领域接入DeepSeek,优化问答。不过北汽还接入了豆包、MiniMax等多个大模型。
笔者也在撰稿时让DeepSeek和ChatGPT同时整理DeepSeek与整车企业的合作状态(输入问题为:deepseek和哪些汽车企业建立了合作,合作内容是什么,整合到一张表格里边)。
显示结果如下。在一次问答中,两者均给出了10家合作动态。而真实情况远不止如此,在不进行连续补充提问的情况,两者均出现一些遗漏,但在整理资料方面,DeepSeek的表现基本与ChatGPT相当,并且中文支持更好。
左侧图为DeepSeek,右侧图为ChatGPT
01.
DeepSeek和其背后的技术
相比于Open AI这些成名已久的大模型,除性能外,DeepSeek的另一优势在于其较低的训练成本。其V3的训练成本仅用了557.6万的训练成本。当然V3的成本并不能一定说明其总成本的优势,事实上对于其成本具体数值说法不一,但对其成本的讨论热度就可看出其成本方面确实存在一定优势。
除训练成本外,最为关键的是DeepSeek推理成本的降低。 并且和标准的Transformer架构相比,并没有引入特殊的算子,这也就意味着可以快速部署在各类芯片上(当然这也是美国芯片禁令的无奈之举),这也是为什么称幻方是“手撸算子的天才”的原因。
来源:天津大学自然语言处理实验室
推理成本降低加上轻松部署,加上没有中文互联网的限制,使得AI在一夜间快速普及。各智能终端产品也在一夜间拥抱AI。
而DeepSeek能够快速崛起的原因,根本还是来自于其技术的选择。在天津大学自然语言处理实验室发布的报告中提到,DeepSeek在模型架构上选择稀疏MoE模型而非稠密模型,在推理模型训练中有效解决R1-Zero问题,采用蒙特卡洛估算取代Value模型,将推理与对齐合为一体。在小模型应用中,将大模型的推理能力直接蒸馏到小模型,比小模型直接训练更具规模化优势,也就意味着成本可以更低。
受此带动,混合专家(MoE:Mixture-of-Experts)架构再次成为行业的焦点。MoE架构即将数据分割为多个Token,然后通过门控网络技术(Gating Network)把每组数据分配到特定的专家模型。这些专家模型专注于处理不同的任务。MoE架构的好处在于提供模型灵活性和效率的同时,也会显著降低计算成本。这也是DeepSeek训练成本低于ChatGPT的核心原因。
DeepSeek MoE示意图
由无数个专家模型组成的大模型被称之为教师模型(参数量大、性能强大),基于此模型可以针对性蒸馏出不同专业子模型,子模型也被称之为学生模型(轻量级)。
因此不仅是DeepSeek本身,MoE架构和蒸馏技术对未来座舱和智驾技术都将产生深远的影响。
02.
认识一下MoE
MoE理论提出时间很早,在1991年Geoffrey Hinton和Michael I. Jordan就发表了论文《Adaptive Mixtures of Local Experts》,这也是如今MoE模型引用最早的论文,这也意味着在传统机器学习时代,MoE的理念就开始应用。
进入深度学习时代后,MoE开始在神经网络中应用。2013年12月《Learning Factored Representations in a Deep Mixture of Experts》论文将MoE融合进去了神经网络结构中,并设计出横向拓展神经网络的方法,使其可以随着网络深度的增加实现指数级上升。
真正将MoE应用在大参数模型是Google Brain团队在2017年发布的论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,训练出了137B参数的模型。
最大的改进在于可以根据输入的内容,决定采用哪一部分模型进行计算,提升模型计算的效率。这样有利于模型规模增加后,成本不会出现指数级增加。该案例中最大使用了13万个专家模型。当然,后续在应用MoE架构时还会面临工程化难题,即如何协同算力。
进入Transformer时代后,MoE继续得到应用。2020年6月,Google发布《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》,把FFN层替换成MoE层。2021年1月,Google紧接着发布了《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,进一步提升了模型的参数量,达到1.6T。最大的改变是只为每个Token分配一个专家模型而非此前的多个,使得门控网络(Gating Network)可以用BP直接训练。
并提出了容量因子(Capacity Factor)的概念。原理上来看,模型计算时希望最大限度让每个专家模型拿到均分的Token,以最大限度发挥机器算力。但实际情况Tokens是没有办法被均分的。因此就需要为每个专家模型分配一个缓冲区(buffer),buffer的大小等于平均分配到每个专家模型的Token乘以Capacity Factor。如果buffer溢出,直接将Token丢弃,相当于跳过该FFN层的计算。
对应的,通过容量因子,可以实现计算速度和训练质量的trade-off。即加大容量因子会保证每个Token得到计算,但计算会变慢。减少容量因子可以加速训练,但会导致更多的Token被丢弃。
Switch Transformer主要的成就在于在工程上验证了MoE在大型Transformer模型上的效果,不再仅仅停留在理论层面。 在计算量不变的调节下加速模型训练,提升模型效果。对MoE的应用有着巨大的推进作用,对后续的scaling law、蒸馏做了很多详细的探索,奠定了技术的方向和基础。
2022年Google再次发布了ST-MoE模型,《ST-MoE: Designing Stable and Transferable Sparse Expert Models》,进一步推进MoE模型的发展。ST-MoE主要解决两个问题,一是训练过程中的不稳定。二是特定任务的小数据集微调预训练任务(fine-tune)上表现不佳,与通用大数据集训练(pre-train)差异明显。为了解决这些问题,ST-MoE提出了新的loss,即router z-loss,提出模型的稳定性。ST-MoE模型也提出一些手段解决Fine-tune效果不佳的问题,主要解决过拟合难题。提出了两个方向,一是只更新模型部分参数,二是使用于Fine-tune Dense模型不一样的超参数。
ST-MoE模型在工程化继续向前推进 ,但考虑到其时间段,模型依然是Encoder-Decoder架构。如今,架构更多是Decoder-only架构,即纯自回归任务训练。
2021年12月,AI行业进入GPT时代,Google也发布了GLaM,《GLaM: Efficient Scaling of Language Models with Mixture-of-Experts》,训练出了最大为1.2T参数量的Decoder-only模型,MoE模型正式在Decoder-only架构中使用。
可以看出经过多年的发展,MoE模型在理论和工程化方面都得到了提升和完善,在模型效果、训练速度和算力成本方面都表现出较大的优势。但Fine-tune效果不佳的问题也一直在存在,需要行业继续去解决。Google在MoE领域是绝对的先驱者、拓荒者。
(本章节内容参考自知乎,作者:Verlocksss)
随着技术的发展,2023年开始开源的MoE模型开始向业内开放。
2023年12月,法国公司Mistral AI发布了全球首个开源MoE模型,Mixtral 8*7B,采用decode-only架构。2024年1月,幻方量化发布《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,也是国内第一个开源的MoE模型。
随着开源生态的建立,MoE高性价比的特性凸显,2024年之后,MoE迎来大发展,仅上半年全球发布的MoE模型就超过20多个,过往三年总量才10个左右。MoE的使用倾向也不尽相同,有些企业采用MoE提升大模型性能,有些企业则利用MoE低成本的优势加速其AI产品的应用。
DeepSeek的成功,把MoE在一次推到了前所未有的高度,证明了其工程化的可行性。这是因为在以往,包括MLB、FP8训练、MoE all-to-all通信、MTP等技术虽然早已提出,但从未在如此大的模型中得到协同创新,更未有开源的模型出现。
03.
DeepSeek及技术在智驾领域应用
从2024年开始,在AI技术的推动下,智能汽车进入AI定义汽车元年。各类AI技术或应用将在汽车中得到尝试。
抛开营销服务领域,汽车中DeepSeek落地最快的云端模型,车端领域是座舱和智驾。云端本身就已探索各类大模型的应用,座舱则直接可以通过联网接入云端,甚至在座舱直接部署一个端侧小模型提升用户语音问答体验(如果算力、内存、带宽允许)。
其实早在DeepSeek大火之前,开源MoE模型便已出现,MoE模型在车载领域应用的时间段要早于DeepSeek。
2024年10月,小鹏在AI技术分享会上便提到了其端到端架构即车端大模型是基于其云端大模型蒸馏所得,据了解云端模型架构即采用的是MoE。理想汽车CEO宣布转型进入AI领域后,据透露其Mind GPT模型也将采用MoE模型和Transformer结合。并且理想汽车还与上海期智研究院、复旦大学推出STR2。STR2面向自动驾驶领域规划控制领域,通过结合Vision Transformer编码器和MoE架构,实现对复杂交通环境的深度学习和有效规划。
DeepSeek的出现加快了MoE的进程,配合蒸馏技术,为智驾技术打开了想象空间。
据了解,DeepSeek对智驾的影响主要有两个方向。一是加速云端智驾模型性能提升(训练教师模型,已经在推进中),二是车端模型优化(部署学生模型,探索过程中)。
在云端,主要的做法是基于当前智驾企业积累的数据库,选用DeepSeek的开源模型做数据生成来完善场景构建。主要的应用方向有三个,分别是场景理解、感知融合和轨迹规划。
采用DeepSeek后,一方面利用其模型性能可以节省标注成本。有业内人士指出,可以节省约90%的标注成本,还可以生成海量的增强数据。比如经验丰富的司机驾驶风格数据,通过与模型生产的轨迹进行对比,可以评估轨迹生成结果。并且还有利于提升极端路况的表现,这点在城市NOA中尤其适用。
在功能应用上,相比于感知融合,轨迹规划方面的进展预计会更快。这是因为视觉部分涉及到位置坐标表示,对精度要求更高。DeepSeek作为语言模型对此描述比较模糊,存在FP8精度相对较差的问题。比如车道线的对比,虽然效率有着显著提升,但误差增加,短期内无法满足要求。但可以通过其语言部分与视觉结果做对比,以更好的实现轨迹预测。
当前由于时间进度原因,云端模型还在接入部署阶段。最大的挑战在于教师模型的完善,借助包括DeepSeek等多个大模型技术来优化性能,在这个过程中一些特殊场景的数据需要同步挖掘。预计在今年下半年会有相关企业公布进展。
在车端方面,主要的做法是借助DeepSeek所展示出的技术从教师模型中蒸馏得到学生模型,无需单独对其进行训练(理想情况)。
在这个过程中需要评估芯片算子的框架,当前进展较快的主要是英伟达和华为的芯片,地平线芯片还在适配中。然后便是算法移植,将学生模型部署在车端芯片中。
从进度来看,车端模型的适配和部署还在推进中,一方面要适配不同的芯片,另外还需评估模型部署完成后,车端模型实际的表现。在这个过程中,也可以直接借用DeepSeek的一些小模型,比如目标识别、语义分割等作为现有模型的补充。
04.
对未来智驾行业的影响
首先是降低云端训练成本,即降低算力租赁的费用,实现系统降本。
基于教师模型可以蒸馏得到多种学生模型,不同版本智驾方案无需重复开发,开发效率也会提升。尤其是会减少第三方智驾企业的资金压力和项目周期压力。
一旦教师模型趋于成熟稳定,中阶智驾和高阶智驾技术边界会越来越模糊,理想情况下可以来源于同一教师模型。届时,只需要按照功能定义对应的蒸馏出相应模型即可。该方向比较依赖教师模型的成熟度,DeepSeek本身无法作为智驾教师模型使用(上文提到的精度问题),因此共用教师模型尚需一定时日。
其次是车端算力要求的降低。本身DeepSeek的一些小模型便可以直接应用于智驾,比如上文提到的语义分割,目标识别等,以优化现有模型。长远来看,基于教师模型蒸馏得到的学生模型也会更加精细化,并且DeepSeek所展示的推理效率也有一定的借鉴意义。这也就意味车端所需的芯片算力要求会有所降低,行业希望其可以节省30%的算力。对应的,现有算力平台能够实现的功能也会增加。个别企业表示,基于DeepSeek的技术路径甚至可以在单Orin-X上部署L3的功能。
此外,对舱驾一体的应用也有帮助。这取决于教师模型的功能定义,需要将智驾和座舱放在同一模型上进行迭代升级。但目前未看到有明确的技术动向。
End.
DeepSeek的大火证实了AI技术在成本可控的情况下,的确存在广阔的市场需求。促使业内加速探索AI的应用场景需求,加强了AI产业的信心。
对于汽车而言,一方面DeepSeek的低成本优势带来了降本的方向和可能,尤其加速AI在云端和车端座舱里边的应用。更重要的,DeepSeek背后的技术理念和工程化实现方式会对现有技术架构体系带来启发,提供新的思路和方向,这点对智驾尤其有用。
来源:第一电动网
作者:NE时代
本文地址:https://www.d1ev.com/kol/262989
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。