特斯拉 FSD Beta V12 的软件代码行数从 30 万行缩减到 2000 行。
远在北美的特斯拉车主们,陷入了一场惊奇、诧异、狂欢等各种情绪组成的涡流中。情绪的来源,则是和特斯拉近期的 FSD Beta V12 一系列推送有关:
在这一次的版本更新说明中,特斯拉提到,此前负责城区智驾的堆栈已经升级为单一的端到端神经网络,而接近 30 万行 C++ 代码已经由经过数百万个视频片段的训练替代。
这是特斯拉面向普通用户的一次重磅更新,带来的影响不止是 X 上涌现的各种“民间短视频”,北美人们的热情还刮到了微博、微信等中文互联网社交平台上……
当然,端到端(end-to-end)这个词在本土市场上也不是第一次出现——事实上小米 SU7 已经宣布其为首个量产端到端记忆泊车的车型。
这很可能是 2024 年智能化领域最热门的技术词汇,或许也有可能是最热门的营销词汇。但在此之前,端到端是什么、端到端能带来什么、端到端会不会向 BEV+tranformer+OCC 那样成为国内智驾内卷的新阶段技术……诸多疑点,让我们先行观察,再尝试解答一番。
在尝试解读端到端的原理之前,我想对于端到端最初始的思考,是有充分必要的溯源的。
我们日常所提及的高速智驾、城区智驾,在现阶段,这两项功能的实现原理,大致可以总结如下:
首先,由车外的传感器采集路面信息数据,通过我们熟知的各种算法,如 BEV+Transformer+OCC ,本质上是将现实世界解构重绘,让车内的智能驾驶控制域先行理解现实世界中可能存在的信息;
其次,控制域根据算法解析的世界,进行车辆行进路线的规划;
最后,控制域发出指令,控制车辆的油门/刹车深度、方向盘转向等行驶参数。
上述是对于现阶段智能驾驶比较粗略的原理解析,我们在其中可以看到,控制域不能直接接收现实道路的原始数据信息,必须经由算法重绘、提取特征,才能进行后续的规控。就像是新生儿父母为宝宝打造营养辅食——小孩子(智驾控制域)不能直接消化原始的食材(现实世界信息)。
用于通用障碍物检测的占用网络详解,来自特斯拉 Autopilot 视觉负责人 Phil Duan而上一段的陈述,显然是为了端到端大模型的登场做准备:端到端大模型,从字面意思理解,便是直接学习/提取现实世界特征,无需对数据进行多次算法加工(即感知-规划-控制),即可令智驾控制域输出行车指令。
从理论角度分析,端到端大模型上车的优势显而易见——不同于现阶段的智能驾驶需要进行流水线般在多个模块运行处理得到最终结果,端到端就像是一个盒子,把数据丢进去,把指令生成出来,基于数据驱动的表现给人非常直观的反馈。
但细心的朋友应该注意到了,我在提及端到端优点时,开头是“从理论上”。
回归到智能驾驶本质,其并不等同于自动驾驶,因此在过往、现在、甚至往后较长的一段时间里,我们都会处在“人机共驾”的状态中——智能驾驶本质是将人类司机驾驶的逻辑用算法进行分割重绘,结合感知信息,让智能驾驶尽量模拟人类司机的行驶轨迹。
问题也就出现在此:如果将人驾逻辑理解成一块完整的面包,智驾必须将人驾这块“面包”进行切割再消化,但刀法(算法)的不一,导致由于切割掉在地上的面包屑洒落或多或少。这部分没能消化的面包屑,便是智能驾驶触达的边界,即需要人类司机接管的时刻,又称 Corner Cases。
而端到端大模型,更像是直接将整块“面包”进行囫囵吞枣的操作——特斯拉当然能轻易吞吐数百万的“老司机式驾驶”视频训练片段,但如果进行全量开放后,纯粹的端到端大模型极有可能吃到“发霉的面包”。
就像最开始的 ChatGPT 般,无论好坏的互联网信息都会进行吞吐,输出错误的暴论。
因此,在特斯拉并未对此次端到端神经网络的更新做出更进一步说明时,外界也有部分猜测:特斯拉 FSD Beta V12 版本中升级的端到端神经网络并不是端到端“完全体”,其依旧保留了部分感知与规控模块的代码。
上文有提及到,在推送了 FSD Beta V12.3 以及后续版本后,大洋彼岸的北美,同样是马斯克旗下的社交软件 X 上迸发出了非常之多的“民间小视频”。
但在诸多媒体/KOC/素人发布的视频浪潮下,FSD 有一个非常耐人寻味的表现,并没有遭到更多人的提及——在某些情况下,当智驾控制域的路线规划要优于地图导航路线规划时,智驾控制域会给车辆发送行驶更优路线的指令。
在这段视频中便体现了上一段的说法:车辆并没有行驶地图导航给出的掉头路线,而是直接采用更优的左转进入目的地。
正在加载 视频播放器。 播放视频 播放 静音 当前时间 0:00 / 时长 0:00 加载完成: 0% 0:00 媒体流类型 直播 尝试直播,当前为延时播放 直播 剩余时间 - 0:00 1x 播放速度 节目段落 描述 字幕 音轨 Picture-in-Picture 全屏This is a modal window.
打开对话窗口。Escape键将取消并关闭对话窗口
文字 Color 白黑红绿蓝黄紫红青 Transparency不透明半透明 背景 Color 黑白红绿蓝黄紫红青 Transparency不透明半透明透明 窗口 Color 黑白红绿蓝黄紫红青 Transparency透明半透明不透明 字体尺寸 50%75%100%125%150%175%200%300%400% 字体边缘样式 无浮雕压低均匀下阴影 字体库 比例无细体单间隔无细体比例细体单间隔细体舒适手写体小型大写字体 重置 恢复全部设定至预设值 完成 关闭弹窗结束对话窗口
无论是高速 NOA 还是城区 NOA ,其本质的核心人设都是一致的,那便是地图导航位于路线规划的最高优先级,正所谓 NOA 的全称“领航辅助驾驶”,而特斯拉 FSD 却似乎违背了这一点。
视频中的导航路线,车辆并未遵循该路线进行行驶在没有更近一步说明的情况下,我们尚无法根据这种行为做出更深层次的分析,但我们有着国内的内卷案例可供分析:全国都能开。
根据目前国内一些头部智驾团队负责人的说法,“全国都能开”的功能,本质上就是一种另类的 LCC 呈现方式——
首先意味着,当真正的“全国都能开”进行全民化普及,车辆上的 LCC 功能将有可能彻底会被 NOA/NCA 等代替;
其次,即使是“另类的 LCC”,LCC 功能本身,便不强依赖地图导航路线信息……
看似风马牛不相及的功能和技术路线,不同的市场环境,却几乎要走向相同的目标,不免令人有些惊讶。
在最近一次的 FSD 更新推送中,特斯拉彻底取缔了“Beta”测试词汇, 原先的“ FSD Beta ”更名为 “ FSD (Supervised) ”。
与此同时,特斯拉还删除了部分说明,如「始终保持双手握在方向盘上」、「这不会让你的车自动化运行」、删除数据采集同意协议……
马斯克与他的特斯拉在自动驾驶的道路上走了多远,在以前或许只有他自己,或者他的团队们知道。但现在看来,似乎这位 AI 狂人,要开始向我们揭示自动驾驶新一轮的技术节点了。
当然,只要他不说出“全国都能开”(相信他知道这个梗),那特斯拉依旧还会是那个特斯拉,而不是标榜自己作为机器人公司,却因为短期的汽车销量下滑与传统品牌举例计较一二的“平庸车企”模样。
来源:第一电动网
作者:新出行
本文地址:https://www.d1ev.com/carnews/pingce/225376
以上内容转载自新出行,目的在于传播更多信息,如有侵仅请联系admin#d1ev.com(#替换成@)删除,转载内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。