想转行到具身智能，需要具备哪些新技能？

智驾最前沿

自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是：聚焦智能驾驶，紧盯行业前沿。

点击展示全部

[首发于智驾最前沿微信公众号]最近发现越来越多小伙伴跨行到了具身智能领域，对于习惯了处理车辆纵向驱动与横向转向的汽车工程师来说，具身智能并不是一个完全陌生的领域，但也有很大的区别。

自动驾驶本质上是让轮式平台安全、平顺地穿过结构化交通环境，而具身智能则要求智能体拥有能够改变物理世界的身体。这意味着技术关注点从关注交通规则和障碍物包围框转向理解复杂的物理力学、精细的接触反馈以及长程的任务逻辑。

汽车工业积累的量产经验、线控底盘技术以及高并发仿真工具，正成为这一领域爆发的底层支撑。正如特斯拉将原本用于FSD的视觉算法直接迁移到Optimus机器人上，汽车工程师的技术背景在具身智能时代拥有天然的准入优势。

感知系统，从看清环境到理解接触

自动驾驶感知的核心任务是构建环境地图并识别障碍物。工程师通常使用3D边界框（Bounding Box）来标注车辆或行人的位置，目标是计算出足够的安全冗余以实现避让。

具身智能的感知逻辑则发生了质变，它不再只是为了躲避，而是为了交互。这意味着感知系统必须能够识别物体的6D位姿，即不仅要知道物体在哪里，还要精准掌握它在空间中的旋转角度和几何细节。举个例子，如果智能体感知不到杯子柄的具体斜率或瓶盖的细微螺纹，后续的抓取与操作就无从谈起。

图片源自：网络

具身智能还引入了触觉感知，汽车除了安全气囊相关的压力感应外，几乎不需要感知外部物体的物理接触。但在具身智能领域，触觉是闭环控制中不可或缺的一环。

Figure 03机器人指尖集成的触觉传感器就可以感知低至3克的压力，这让它能够像人一样捏起细小的纸夹或处理易碎的蛋壳。

这种“近场感知”要求工程师从关注激光雷达的远距离建模，转向关注RGB-D相机、掌心摄像头以及触觉阵列的多模态融合。

具身智能感知的维度从视觉语义扩展到了硬度、摩擦系数和质心位置等物理属性。这种转变要求不再将感知看作独立的输入模块，而是将其与动作逻辑深度耦合，实现边看边动的实时反馈。

规划系统，从轨迹搜索到语义任务的对齐

自动驾驶的规划器主要在Frenet坐标系下解决路径的平滑度与安全性问题，通过编写复杂的状态机或搜索算法来处理换道、路口通行等离散场景。

但在具身智能面对的非结构化环境（如家庭或车间）中，任务往往是长程且连续的，做的是从凌乱的桌面找出扳手并递给人类这样的工作。这种任务无法通过穷举状态机来实现，必须转向基于视觉语言动作模型（VLA）的内生逻辑。

这意味着规划系统走向了端到端语义执行方向。Figure AI的Helix系统已经实现了超过4分钟的端到端自主执行，期间涵盖了行走、平衡和双臂协作，没有任何人为预设的硬代码跳转。

图片源自：网络

对于汽车工程师而言，进入具身智能领域后，原本用于决策的路权逻辑正在被任务意图所取代。需要关注的不再是车辆是否压线，而是要关注智能体如何理解人类指令，并将其拆解为一系列符合物理常识的微动作。

在具身智能中，规划不仅是轨迹的生成，更是全身重心的动态调配。不同于车辆稳定的四轮支撑，人形机器人或多足机器人在移动和操作时，任何肢体摆动都会剧烈改变系统质心。

特斯拉在研发Optimus时，将原本用于FSD的路径规划器改造成了能够生成全身关节角度的生成模型，这种跨越业要求跨领域的小伙伴需要更多地理解物理世界的因果关系，而不仅仅是交通规则。

控制能力，从车辆稳定到全身动力学闭环

在控制领域，汽车工程师长期处理的是纵向加速和横向转向的解耦控制。电子稳定性控制等技术主要关注的是维持四轮附着力。

当执行器数量从车辆的几个电机爆发到机器人的几十个关节（如Optimus Gen 3的50个执行器）时，控制的复杂性呈现出指数级增长。这要求工程师掌握全身控制技术，在满足平衡约束的前提下，实现多关节的协同作业。

图片源自：网络

具身智能的控制核心在于处理“非连续接触”产生的物理冲击。汽车行驶中轮胎与地面的接触相对连续，但机器人在行走或抓取瞬间，物理方程会发生突变。

为了保证系统不崩溃，模型预测控制（MPC）成为了连接高层指令与底层扭矩执行的桥梁。通过高频（通常大于500Hz）的闭环计算，系统可以预判并补偿肢体接触带来的力矩波动。

这种精密度要求跨行的小伙伴从传统的单变量PID控制转向更复杂的动力学建模。例如，在处理灵巧手操作时，需要实时解算雅可比矩阵，以保证手指末端能以毫米级的精度施加毫牛级的力量。这不仅是软件算法的挑战，更是对线控执行器性能的极致压榨。

想换行，汽车工程师需要补齐哪些板砖？

汽车工程师从自动驾驶转往具身智能，并非从零开始，但很多技术重新学习。

最基础的知识缺口在于“机器人运动学与动力学”。汽车工程中对车辆模型的简化（如单轨模型或二自由度模型）在处理多关节机器人时完全失效。因此需要系统学习空间描述与变换、Denavit-Hartenberg (D-H) 参数法、以及通过雅可比矩阵建立关节速度与末端执行器速度之间的映射关系。

这是理解机器人如何“动起来”的基础，也是从宏观车辆动力学转向精密机构动力学的必经之路。

具身智能对AI算法的依赖已经从简单的目标检测转向了“多模态大模型”。汽车工程师习惯于处理规则代码和小型神经网络，而现在必须掌握Transformer架构、视觉语言模型（VLM）以及扩散模型在动作生成中的应用。

这意味着不仅要会写C++，还要精通Python环境下的PyTorch或TensorFlow开发，并能理解如何在大规模分布式GPU集群上训练和部署这些参数量巨大的模型。

图片源自：网络

对于端到端控制的理解，将成为区分平庸与卓越工程师的分水岭。特斯拉Optimus的团队之所以能快速迭代，很大程度上是因为他们将自动驾驶的视觉感知经验与机器人的动作学习进行了跨界融合，这种“通用算法思维”是工程师必须建立的核心竞争力。

仿真工具链的掌握同样是必修课。汽车工程师熟悉的场景仿真软件（如Carla、Prescan）侧重于交通流和传感器物理特性，而机器人仿真则要求极高的物理引擎精度，能够模拟接触、摩擦、形变等细节。

因此需要熟练使用NVIDIA Isaac Sim、MuJoCo或PyBullet等工具。这些工具不仅是验证算法的场所，更是生成训练数据的工厂。理解如何通过Sim-to-Real技术将仿真中习得的策略安全地迁移到真实硬件，涉及复杂的领域适配和残差学习，这对于习惯了实车测试的汽车工程师来说，是一个全新的挑战。

硬件领域也需要从总成集成转向底层自研。具身智能的竞争在很大程度上是硬件能效比的竞争。特斯拉Optimus的Gen 3版本之所以备受期待，原因在于其对执行器、电池包以及算力芯片的极致垂直整合。

对此需要理解无框力矩电机、谐波减速器、交叉滚子轴承等精密零部件的工作机理，并能参与到执行器驱动电路和RTOS通讯协议的底层优化中。