何小鹏赌约背后,中美智驾只剩“一年之差”

点击展示全部

撰文 | 常

编辑 | 张

设计 | 甄尤美

1903年,霍拉肖·杰克逊和苏厄尔·克罗克驾驶着简陋的汽车,在泥泞与荒野中挣扎了整整63天,终于从旧金山抵达纽约。彼时,这场驾车横穿美国的艰难跋涉,只为向世界证明汽车不是“昙花一现的消遣玩物”。

时隔122年后,相似的路线被赋予了全新的意义。2025年底,历时2天零20个小时,跨越2732.4英里(约4397公里),坐在特斯拉Model 3里的大卫·摩斯,在全程无接管的情况下,达成了首次凭借智能驾驶技术横穿美国的壮举。

这场看似科幻的现实演绎,不仅是汽车工业的百年进阶,更是自动驾驶行业经历的一场跨越式变革。

刚刚过去的2025年,自动驾驶行业没有迎来所谓“技术终局”的大一统,反而陷入了更激烈的路线突围战。当单纯的端到端大模型遭遇长尾场景的瓶颈,一场集体押注“认知智能”的竞速由此引爆,并一路烧至2026年。

在这场博弈中,各方角力的落点,都指向了同一个神秘代号——VLA(Vision-Language-Action,视觉-语言-动作模型)。

大洋彼岸,特斯拉在FSD V14版本引入类VLA多模态增强模块,通过增强逻辑泛化能力解决“直觉驾驶”的不可知性;而英伟达在美国CES 2026上更是连新卡都不发了,反手直接开源基于VLA的推理模型Alpamayo 1,其创始人黄仁勋更是称其为“世界上首款能思考、能推理的自动驾驶汽车AI”。

视线回到中国,产业回应更为迅猛。地平线、元戎启行等供应商纷纷亮出成熟方案,理想、吉利、奇瑞、长城等车企密集开启了VLA的量产竞速。

3月2日,小鹏汽车正式发布其所谓的第二代VLA,并将战火推向了新的维度。根据官方介绍,这是全球首个量产级物理世界大模型,核心是去掉了语言转译环节,实现视觉直出动作的端到端决策。

年初,小鹏汽车董事长、CEO何小鹏曾将2026年定义为中美自动驾驶元年。而在此次会上,何小鹏更是放话说:“小鹏第二代VLA将开启自动驾驶的DeepSeek时刻,最快1年就能实现完全自动驾驶。”

一片喧嚣之下,当VLA加速从实验室走向量产,自动驾驶行业的底层游戏规则正在被悄然改写。

中美竞速,VLA缘何大火

故事的起点,其实源于一场行业集体的“迷航”。

时间倒回到三年前,特斯拉FSD V12横空出世,用“端到端”的暴力美学震惊了世界,它彻底抛弃传统模块化与硬编码规则,代码量从30万行锐减至2000行。这种用统一神经网络直接将摄像头像素映射为方向盘转角的“直觉驾驶”,一度被视为行业的终极答案。

中国车企与供应商也迅速跟进,卷入这场名为“端到端”的军备竞赛。彼时的共识简单而粗暴:似乎只要把感知、规划、预测全部塞进一个巨大的神经网络,奇迹就会发生。

然而,随着2024年末特斯拉FSD V13的推送,行业遭遇了当头一棒。尽管特斯拉将算力堆到了极致,模型参数量相比V12提高了三倍,但那个“黑箱”依然会时不时出问题,不断出现的低级失误直接击碎了“端到端万能”的幻想。

这时候,行业开始意识到:端到端虽然在信息传递效率上做到了极致,规避了模块化端到端信息熵减的弊端,但它本质上还是一个巨大的概率拟合器。其展现出的强大直觉,也仿佛只得到了身体,却没能得到灵魂。当面对那些从未见过的长尾场景时,这个“黑箱”内部发生了什么、会产生什么决策,没有人知道。

这种缺乏可解释性、逻辑推演能力的特性,成为横亘在L2辅助驾驶与L4完全自动驾驶之间一道难以逾越的天堑。就在大家都在这个“直觉陷阱”中苦苦挣扎时,VLA多模态架构的出现,恰好踩中了这个痛点。

其实,早在2023年7月,谷歌DeepMind就推出了基于VLA架构的RT-2模型,让机器人具备了惊人的零样本学习能力。遗憾的是,由于聚焦低速封闭场景,它在当时并未引发自动驾驶圈的躁动。

但当纯端到端路线显露出瓶颈后,VLA的价值开始被重新发掘:自动驾驶行业迫切需要为车辆植入“认知”能力。

2025年10月,特斯拉自动驾驶副总裁阿肖克·埃卢斯瓦米(Ashok Elluswamy)的一张PPT,意外揭开了FSD V14的底牌:特斯拉正在“悄悄”引入类VLA的多模态模型,试图用“思维链”破解黑箱的低级错误。

这一信号,也瞬间被中国自动驾驶军团敏锐地捕捉到了。何小鹏在亲赴北美体验后,发出了那句著名的感慨:“FSD V14和特斯拉Robotaxi已经没有区别,L2和L4可以用同一套系统实现。”这不仅仅是感叹,更是一种“找对了”的释然。

前理想汽车自动驾驶研发高级副总裁郎咸朋更是直接定调:“如同端到端结合数据闭环取代了原来的规则算法研发范式一样,VLA结合强化学习将会成为智能驾驶新的护城河。”

为什么中国车企会有如此强烈的共鸣?因为在VLA架构的加持下,中美双方的前沿技术第一次站在了近乎同一起跑线上。

2025年初,小鹏与理想几乎在同一时间遭遇了端到端的天花板——系统泛化性增强,却始终无法触及真正的自动驾驶逻辑。“我们决定将盖了一大半的房子推倒,重搭地基。”何小鹏在测试了新一版系统后,决定直接转型VLA这样的端到端自动驾驶方案。

而理想汽车董事长兼CEO李想也在推出端到端1000万Clips版本后,决定加快交付VLA,不能继续在原有的路径上死磕。在他们看来,如果系统没有思考能力,无论堆多少数据,都无法抵达L4。

那么,特斯拉也好,小鹏、理想也罢,为何中美头部玩家会如此默契地集体转向VLA?

首先是技术底层逻辑的质变。

VLA的核心逻辑,是在传统的视觉和动作之间,插入了一个语言模型(L)。这个简单的插入,却质变了系统的处理方式:它让车辆开始学会像人类司机一样靠“预判与经验”开车,而不是单纯地靠肌肉记忆“背交规”。

声明:本文由太平洋号作者撰写,观点仅代表个人,不代表太平洋汽车。文中部分图片来源网络,感谢原作者。
28
03-04
分享
发表您的看法…
半价购
分享