开云体育官网 遐想李想:自动驾驶,仅仅物理AI的一个来源

发布日期:2026-03-20 00:41    点击次数:132

开云体育官网 遐想李想:自动驾驶,仅仅物理AI的一个来源

IT 之家 3 月 18 日音尘,在昨日的 NVIDIA GTC 2026 上,遐想汽车基座模子进展东说念主詹锟发布了下一代自动驾驶基础模子 MindVLA-o1。

IT 之家提防到,遐想汽车 CEO 李想本日发布长文谈及了 MindVLA-o1。李想先容称,遐想汽车在底层达成了一个中枢冲突:原生 3D ViT —— 的确的三维视觉编码器。他暗示,自动驾驶,仅仅物理 AI 的一个来源。

在昨天的 NVIDIA GTC 2026 上,詹锟代表遐想发布了下一代自动驾驶基座模子 MindVLA-o1。咱们在底层达成了一个中枢冲突:原生 3D ViT —— 的确的三维视觉编码器。

咱们在尝试解答一个问题:东说念主类开车看上去没那么难,每个庸碌东说念主皆能把车开得又快又稳,但全寰宇最顶尖的企业砸了几千亿进去,自动驾驶仍然进展舒服。问题到底出在哪?

咱们一直在教 AI 作念成年东说念主的事,但从来没让它当过小孩。

东说念主类在 0 到 6 岁的阶段学会了走路,学会了扔球、接球。看起来仅仅浅近的看成,但现实上仍是匡助孩子开辟了对三维物理空间的意会。这等于为什么咱们能精确测距、踏实驾驶,因为" 3D 预考试" 6 岁前就完成了。

但今天统统的端到端系统骨子上皆是"看 2D 视频学开车",环球体育更像是一个东说念主坐在电脑前看了十万小时行车记载仪,然后平直起程。它有了智能,但离东说念主类的智能历程差得远。昔日咱们和行业使用的 BEV 把寰宇从鸟瞰角拍扁,丢失了高度信息;OCC 确乎是 3D 的,但缺失了语义信息。物理 AI 缺的不是更大的模子、更多的数据,而是一个能的确意会 3D 寰宇的视觉基础。

3D ViT 贬责了这个问题。不再是从 2D "归附" 3D,而是让模子一启动接事责在真实的三维寰宇里。以高分手率多视角视觉为中枢,开云(中国)官网在编码阶段平直完成对 3D 空间几何和语义的扶植意会 —— 空间结构、位置干系、语义信息,一次完成。模子不仅仅看见画面,而是意会寰宇,既知说念它在哪,也知说念它是什么。

在这个体系下,激光雷达的变装变了。它不再是感知的中枢,而更像一把高精度的尺子,为视觉提供几何标定和近场空间拘谨。的确决定感知上限的,不是传感器的物理线数,而是模子的表征时代。在扶植建模下,3D ViT 不错踏实感知并推理到 500 米以上的空间鸿沟。

这件事以前不是没东说念主想作念,是作念不到,因为 3D ViT 对车端推理算力提议了极高的条件。咱们自研的马赫芯片,单颗灵验算力是上一代的 3 倍,能把这套架构的确放进车里。

有了 3D ViT 打底,MindVLA-o1 把空间意会、想考推理、驾驶行径扶植在一个模子里。不光看见寰宇,还能在隐空间里模拟畴昔几秒的场景变化,想明晰再开。咱们把这种时代称之为多模态想考。

咱们也仍是进行了考据,这套基座模子不仅仅为自动驾驶盘算的。统一套 VLA 基座模子,能开车,也能摒弃机器东说念主,它正在渐渐演化成一个通用的物理寰宇智能体。

自动驾驶,仅仅物理 AI 的一个来源。

牛牛游戏官方网站开云体育官网