/ ai资讯

小米正式发布并全面开源自动驾驶模型Xiaomi OneVL

发布时间:2026-05-15 11:46:22

近日,小米正式发布并全面开源自动驾驶模型Xiaomi OneVL,这是一款一步式潜空间语言视觉推理框架,将VLA、世界模型和潜空间推理三大技术路线统一到同一架构中。小米官方给出的核心数据极具冲击力:推理延迟最低仅0.24秒,为传统VLA自回归推理的5.4%;精度上超越显式思维链(Explicit Chain of Thought),速度上对齐"仅答案"预测。这意味着大模型在自动驾驶场景中,第一次同时实现了"又快又准"。

小米OneVL并非凭空而来。今年3月,小米刚发布了XLA认知大模型架构,推动辅助驾驶从"感知与模仿"迈向"理解与推理"。仅两个月后,OneVL便在XLA基础上更进一步,将VLA(视觉-语言-动作模型)、世界模型和潜空间推理三条看似独立的技术路线融为一体。

这三条路线此前各有优劣:VLA擅长端到端决策但推理慢;世界模型能预测未来场景但计算量巨大;潜空间推理速度快但精度往往不足。OneVL的突破在于,它不是三选一,而是用潜空间推理的架构去承载VLA的决策能力和世界模型的场景理解能力,在同一个框架内同时解决精度和速度的矛盾。

自动驾驶对延迟的要求极为苛刻。传统VLA模型采用自回归推理方式,每一步都要生成完整的推理链,延迟通常在数秒级别,这在高速行驶场景中是不可接受的。OneVL将推理延迟压到了0.24秒,仅为传统方案的5.4%,已经进入了量产车端实时部署的可行区间。

更关键的是,这个速度并不是以牺牲精度为代价换来的。小米官方明确表示,OneVL的精度超越了显式思维链。所谓显式思维链,就是让模型把推理过程一步步写出来再得出结论,虽然准确但极慢。OneVL在潜空间中完成推理,不需要输出中间步骤,但最终精度反而更高,同时速度对齐了"仅答案"预测的水平。用小米的话说:既不用慢吞吞地"想给你看",也不用匆匆忙忙地"只给答案",而是在看不见的地方把两者都做到了。

与其他车企将核心智驾模型闭源不同,小米选择了全面开源。这一策略背后的逻辑并不复杂。

首先,开源能快速建立开发者生态,吸引更多研究者和工程师在OneVL基础上迭代优化,加速技术成熟。其次,自动驾驶是一个需要海量长尾场景数据的领域,开源社区的参与能帮助小米更快地覆盖边缘场景。最后,在行业普遍将智驾能力视为核心壁垒的当下,小米反其道而行之,用开源换取生态话语权,这与其在手机和IoT领域的打法一脉相承。

目前,OneVL已在技术社区公开,开发者可直接获取模型权重和推理代码。结合小米此前开源的XLA架构,小米正在构建一套从认知大模型到端到端自动驾驶的完整开源技术栈。

回看小米在自动驾驶领域的布局,节奏感极强。从2021年宣布造车,到2023年底发布小米智能驾驶技术架构,再到2024年城市NOA开城,小米智驾一直被外界视为"追赶者"。但从XLA到OneVL的快速迭代表明,小米正在用大模型重新定义自动驾驶的技术路径。

当大多数车企还在比拼谁的城市NOA开城数量多时,小米已经把竞争维度拉到了大模型推理架构层面。OneVL的发布,本质上是小米在向行业宣告:自动驾驶的下一场战争,不在路上,而在模型里。

  • 开源 开源 关注

    关注

    3

    文章

    4405

    浏览量

    46542

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com