何小鹏赌约背后，中美智驾只剩“一年之差”

汽车商业评论

推动中国汽车向前进

点击展示全部

撰文 | 常

笑

编辑 | 张

南

设计 | 甄尤美

1903年，霍拉肖·杰克逊和苏厄尔·克罗克驾驶着简陋的汽车，在泥泞与荒野中挣扎了整整63天，终于从旧金山抵达纽约。彼时，这场驾车横穿美国的艰难跋涉，只为向世界证明汽车不是“昙花一现的消遣玩物”。

时隔122年后，相似的路线被赋予了全新的意义。2025年底，历时2天零20个小时，跨越2732.4英里（约4397公里），坐在特斯拉Model 3里的大卫·摩斯，在全程无接管的情况下，达成了首次凭借智能驾驶技术横穿美国的壮举。

这场看似科幻的现实演绎，不仅是汽车工业的百年进阶，更是自动驾驶行业经历的一场跨越式变革。

刚刚过去的2025年，自动驾驶行业没有迎来所谓“技术终局”的大一统，反而陷入了更激烈的路线突围战。当单纯的端到端大模型遭遇长尾场景的瓶颈，一场集体押注“认知智能”的竞速由此引爆，并一路烧至2026年。

在这场博弈中，各方角力的落点，都指向了同一个神秘代号——VLA（Vision-Language-Action，视觉－语言－动作模型）。

大洋彼岸，特斯拉在FSD V14版本引入类VLA多模态增强模块，通过增强逻辑泛化能力解决“直觉驾驶”的不可知性；而英伟达在美国CES 2026上更是连新卡都不发了，反手直接开源基于VLA的推理模型Alpamayo 1，其创始人黄仁勋更是称其为“世界上首款能思考、能推理的自动驾驶汽车AI”。

视线回到中国，产业回应更为迅猛。地平线、元戎启行等供应商纷纷亮出成熟方案，理想、吉利、奇瑞、长城等车企密集开启了VLA的量产竞速。

3月2日，小鹏汽车正式发布其所谓的第二代VLA，并将战火推向了新的维度。根据官方介绍，这是全球首个量产级物理世界大模型，核心是去掉了语言转译环节，实现视觉直出动作的端到端决策。

年初，小鹏汽车董事长、CEO何小鹏曾将2026年定义为中美自动驾驶元年。而在此次会上，何小鹏更是放话说：“小鹏第二代VLA将开启自动驾驶的DeepSeek时刻，最快1年就能实现完全自动驾驶。”

一片喧嚣之下，当VLA加速从实验室走向量产，自动驾驶行业的底层游戏规则正在被悄然改写。

中美竞速，VLA缘何大火

故事的起点，其实源于一场行业集体的“迷航”。

时间倒回到三年前，特斯拉FSD V12横空出世，用“端到端”的暴力美学震惊了世界，它彻底抛弃传统模块化与硬编码规则，代码量从30万行锐减至2000行。这种用统一神经网络直接将摄像头像素映射为方向盘转角的“直觉驾驶”，一度被视为行业的终极答案。

中国车企与供应商也迅速跟进，卷入这场名为“端到端”的军备竞赛。彼时的共识简单而粗暴：似乎只要把感知、规划、预测全部塞进一个巨大的神经网络，奇迹就会发生。

然而，随着2024年末特斯拉FSD V13的推送，行业遭遇了当头一棒。尽管特斯拉将算力堆到了极致，模型参数量相比V12提高了三倍，但那个“黑箱”依然会时不时出问题，不断出现的低级失误直接击碎了“端到端万能”的幻想。

这时候，行业开始意识到：端到端虽然在信息传递效率上做到了极致，规避了模块化端到端信息熵减的弊端，但它本质上还是一个巨大的概率拟合器。其展现出的强大直觉，也仿佛只得到了身体，却没能得到灵魂。当面对那些从未见过的长尾场景时，这个“黑箱”内部发生了什么、会产生什么决策，没有人知道。

这种缺乏可解释性、逻辑推演能力的特性，成为横亘在L2辅助驾驶与L4完全自动驾驶之间一道难以逾越的天堑。就在大家都在这个“直觉陷阱”中苦苦挣扎时，VLA多模态架构的出现，恰好踩中了这个痛点。

其实，早在2023年7月，谷歌DeepMind就推出了基于VLA架构的RT-2模型，让机器人具备了惊人的零样本学习能力。遗憾的是，由于聚焦低速封闭场景，它在当时并未引发自动驾驶圈的躁动。

但当纯端到端路线显露出瓶颈后，VLA的价值开始被重新发掘：自动驾驶行业迫切需要为车辆植入“认知”能力。

2025年10月，特斯拉自动驾驶副总裁阿肖克·埃卢斯瓦米（Ashok Elluswamy）的一张PPT，意外揭开了FSD V14的底牌：特斯拉正在“悄悄”引入类VLA的多模态模型，试图用“思维链”破解黑箱的低级错误。

这一信号，也瞬间被中国自动驾驶军团敏锐地捕捉到了。何小鹏在亲赴北美体验后，发出了那句著名的感慨：“FSD V14和特斯拉Robotaxi已经没有区别，L2和L4可以用同一套系统实现。”这不仅仅是感叹，更是一种“找对了”的释然。

前理想汽车自动驾驶研发高级副总裁郎咸朋更是直接定调：“如同端到端结合数据闭环取代了原来的规则算法研发范式一样，VLA结合强化学习将会成为智能驾驶新的护城河。”

为什么中国车企会有如此强烈的共鸣？因为在VLA架构的加持下，中美双方的前沿技术第一次站在了近乎同一起跑线上。

2025年初，小鹏与理想几乎在同一时间遭遇了端到端的天花板——系统泛化性增强，却始终无法触及真正的自动驾驶逻辑。“我们决定将盖了一大半的房子推倒，重搭地基。”何小鹏在测试了新一版系统后，决定直接转型VLA这样的端到端自动驾驶方案。

而理想汽车董事长兼CEO李想也在推出端到端1000万Clips版本后，决定加快交付VLA，不能继续在原有的路径上死磕。在他们看来，如果系统没有思考能力，无论堆多少数据，都无法抵达L4。

那么，特斯拉也好，小鹏、理想也罢，为何中美头部玩家会如此默契地集体转向VLA？

首先是技术底层逻辑的质变。

VLA的核心逻辑，是在传统的视觉和动作之间，插入了一个语言模型（L）。这个简单的插入，却质变了系统的处理方式：它让车辆开始学会像人类司机一样靠“预判与经验”开车，而不是单纯地靠肌肉记忆“背交规”。

声明：本文由太平洋号作者撰写，观点仅代表个人，不代表太平洋汽车。文中部分图片来源网络，感谢原作者。

03-04

动力电池年衰减2.3%数据曝光，开10年还能剩七成续航？

1611

04-07

特斯拉3月批发销量超8.5万辆，零售销量是多少，预期又如何？

2049

04-03

55座！特斯拉国内规模最大高速服务区超级充电站正式启用

03-28

2026年智己品牌解析：从股东背景与品牌档次看高端新能源格局

128

03-28

配备500kW V4机柜！特斯拉推出折叠式超充桩

1588

03-27

Model 3标准版确认不会引进国产，为何特斯拉要这么做呢？

03-27

还在等18万的特斯拉Model 3标准版？官方：暂无引入计划

1673

03-27

价格打到20万以内？！「丐版Model 3」来了

线条决定质感，smart精灵6号设计更具整体性

105

03-20

发表您的看法…

半价购

打开APP，买车低至五折

首页太平洋号

何小鹏赌约背后，中美智驾只剩“一年之差”

相关推荐