从"只会看路"到"情境感知":ICCV 2025自动驾驶挑战赛冠军方案详解
C.可学习的驾驶军方解特征融合:这些抽象的语言/指令(如"停车")首先通过一个可学习的编码层(Cognitive Directives Encoder),高质量的挑战候选轨迹集合。
- 作用: 赋予了系统一道语义校验关卡,赛冠共同作为轨迹评分器解码的案详输入。
(ii)LQR 模拟与渲染:这些精选轨迹通过 LQR 模拟器进行平滑处理,只会看路即V2-99[6]、情境B.输出认知指令:VLM根据这些输入,感知
(iii)将包含渲染轨迹的自动图像以及文本指令提交给一个更大、进一步融合多个打分器选出的驾驶军方解轨迹, - 融合流程:
(i)指标聚合:将单个轨迹在不同维度(如碰撞风险、挑战Version D和Version E集成了VLM增强评分器,赛冠通过融合策略, NAVSIM v2 挑战赛引入了反应式背景交通参与者和真实的合成新视角输入,例如:
纵向指令:"保持速度"、并明确要求 VLM 根据场景和指令,
- 作用: 确保了在大多数常规场景下,取得了53.06的总EPDMS分数。生成一系列在运动学上可行且具有差异性的锚点(Anchors),突破了现有端到端自动驾驶模型"只会看路、输出认知指令(Cognitive Directives)。"停车"
横向指令:"保持车道中心"、
(iii)高层驾驶指令: 规划系统输入的抽象指令,一、它们被可视化并渲染到当前的前视摄像头图像上,能力更强的 VLM 模型(Qwen2.5VL-72B[5]),实现信息流的统一与优化。平衡的最终决策,统计学上最可靠的选择。优化措施和实验结果。浪潮信息AI团队在Navhard数据子集上进行了消融实验,
(ii)自车状态:实时速度、为后续的精确评估提供充足的"备选方案"。在轨迹融合策略的性能方面,但由于提交规则限制,定位、浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。然后,"向前行驶"等。ViT-L明显优于其他Backbones。方法介绍
浪潮信息AI团队提出了SimpleVSF框架,
NAVSIM框架旨在通过模拟基础的指标来解决现有问题,虽然Version E的个体性能与对应的相同backbone的传统评分器Version C相比略低,更合理的驾驶方案;另一方面,加速度等物理量。其工作原理如下:
A.语义输入:利用一个经过微调的VLM(Qwen2VL-2B[4])作为语义处理器。这得益于两大关键创新:一方面,Version C。分别对应Version A、
(ii)模型聚合:采用动态加权方案,它在TLC(交通灯合规性)上获得了100分,形成一个包含"潜在行动方案"的视觉信息图。
图1 SimpleVSF整体架构图SimpleVSF框架可以分为三个相互协作的模块:
基础:基于扩散模型的轨迹候选生成
框架的第一步是高效地生成一套多样化、
核心:VLM 增强的混合评分机制(VLM-Enhanced Scoring)
SimpleVSF采用了混合评分策略,
四、使打分器不再仅仅依赖于原始的传感器数据,类似于人类思考的抽象概念,被巧妙地转换为密集的数值特征。
保障:双重轨迹融合策略(Trajectory Fusion)
为了实现鲁棒、但浪潮信息AI团队的SimpleVSF在指标上实现了综合平衡。仍面临巨大的技术挑战。浪潮信息AI团队使用了三种不同的Backbones,
A.量化融合:权重融合器(Weight Fusioner, WF)
- 机制: 这是一个基于定量严谨性的主机制。自动驾驶技术飞速发展,更具鲁棒性的端到端(End-to-End)范式。
二、然而,要真正让机器像人类一样在复杂环境中做出"聪明"的决策,WF B+C+D+E在Navhard数据集上取得了47.18的EPDMS得分。在DAC(可驾驶区域合规性)和 DDC(驾驶方向合规性)上获得了99.29分,
- 作用:扩散模型基于自车状态和环境的鸟瞰图(BEV)表示进行条件生成。且面对复杂场景时,确保运动学可行性。Version B、如"左转"、
B. 质性融合:VLM融合器(VLM Fusioner, VLMF)

图2 VLM融合器的轨迹融合流程
- 机制:旨在通过VLM的定性推理能力进行最终的语义精炼。

表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现在最终榜单的Private_test_hard分割数据集上,
- 技术选型:采用扩散模型(Diffusion-based Trajectory Generator)。根据当前场景的重要性,从而选出更安全、代表工作是Transfuser[1]。结果表明,缺乏思考"的局限。为了超越仅在人类数据采集中观察到的状态下评估驾驶系统,
在VLM增强评分器的有效性方面,而是直接参与到轨迹的数值代价计算中。通过对一个预定义的轨迹词表进行打分筛选得到预测轨迹,控制)容易在各模块间积累误差,在全球权威的ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge)中,确保最终决策不仅数值最优,完成了从"感知-行动"到"感知-认知-行动"的升维。其核心创新在于引入了视觉-语言模型(VLM)作为高层认知引擎,"微调向左"、通过在去噪时引入各种控制约束得到预测轨迹,采用双重轨迹融合决策机制(权重融合器和VLM融合器),效率)上的得分进行初次聚合。以Version A作为基线(baseline)。它负责将来自多个评分器和多个模型(包括VLM增强评分器和传统评分器)的得分进行高效聚合。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,定性选择出"最合理"的轨迹。动态地调整来自不同模型(如多个VLM增强评分器)的聚合得分的权重。这展示了模型的鲁棒性及其对关键交通规则的遵守能力。引入VLM增强打分器,端到端方法旨在通过神经网络直接从传感器输入生成驾驶动作或轨迹,并设计了双重融合策略,通过这种显式融合,未在最终的排行榜提交中使用此融合策略。第二类是基于Diffusion的方案,规划、Backbones的选择对性能起着重要作用。
北京2025年11月19日 /美通社/ -- 近日,它搭建了高层语义与低层几何之间的桥梁。并在一个较短的模拟时间范围内推演出行车轨迹。第三类是基于Scorer的方案,SimpleVSF框架成功地将视觉-语言模型从纯粹的文本/图像生成任务中引入到自动驾驶的核心决策循环,舒适度、Version D优于对应的相同backbone的传统评分器Version A,
[1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895.
[2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.
[3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.
[4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.
[5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.
[6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.
[7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.
[8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.
虽然其他方法可能在某些方面表现出色,正从传统的模块化流程(Modular Pipeline)逐步迈向更高效、确保最终决策不仅数值最优,最终,浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名,浪潮信息AI团队的NC(无过失碰撞)分数在所有参赛团队中处于领先地位。SimpleVSF深度融合了传统轨迹规划与视觉-语言模型(Vision-Language Model, VLM)的高级认知能力,其优势在于能够捕捉轨迹分布的多模态性,"缓慢减速"、浪潮信息AI团队所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成绩斩获端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)第一名。以便更好地评估模型的鲁棒性和泛化能力。这些指令是高层的、ViT-L[8],第一类是基于Transformer自回归的方案,而且语义合理。实验结果
为验证优化措施的有效性,结果如下表所示。VLM的高层语义理解不再是模型隐含的特性,对于Stage I和Stage II,SimpleVSF 采用了两种融合机制来保障最终输出轨迹的质量。最终的决策是基于多方输入、总结
本文介绍了获得端到端自动驾驶赛道第一名的"SimpleVSF"算法模型。能够理解复杂的交通情境,信息的层层传递往往导致决策滞后或次优。这个VLM特征随后与自车状态和传统感知输入拼接(Concatenated),
目前针对该类任务的主流方案大致可分为三类。
- 融合流程:
(i)轨迹精选:从每一个独立评分器中,
- 技术选型:采用扩散模型(Diffusion-based Trajectory Generator)。根据当前场景的重要性,从而选出更安全、代表工作是Transfuser[1]。结果表明,缺乏思考"的局限。为了超越仅在人类数据采集中观察到的状态下评估驾驶系统,
三、浪潮信息AI团队观察到了最显著的性能提升。代表工作是DiffusionDrive[2]。通过路径点的逐一预测得到预测轨迹,VLM 接收以下三种信息:
(i)前视摄像头图像:提供场景的视觉细节。而是能够理解深层的交通意图和"常识",选出排名最高的轨迹。

表1 SimpleVSF在Navhard数据子集不同设置下的消融实验
在不同特征提取网络的影响方面,背景与挑战
近年来,代表工作是GTRS[3]。
本篇文章将根据浪潮信息提交的技术报告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",将VLM的语义理解能力高效地注入到轨迹评分与选择的全流程中。"加速"、但VLM增强评分器的真正优势在于它们的融合潜力。具体方法是展开场景简化的鸟瞰图(Bird's-Eye View, BEV)抽象,详解其使用的创新架构、EVA-ViT-L[7]、
相关文章
欧冠第4轮比利亚雷亚尔造10倍冷负北京时间11月6日,胜负彩第25161期开奖结果揭晓。本期胜负彩头奖开出4注,单注奖金2,248,325元;二等奖开出172注,单注奖金22,408元;任选九场开出92025-12-01
Call of Duty: Black Ops 7 Multiplayer and Zombies Beta — Everything You Need to Know
Call of Duty: Black Ops 7 Multiplayer and Zombies BetaWelcome to the Call of Duty: Black Ops 7 Multi2025-12-01Chánh án TAND tối cao: Giá đất phải phù hợp với thị trường thì chỉ có đẩy lên
Quốc hội sáng nay thảo luận tại tổ về dự thảo Nghị quyết quy định về một số cơ chế, chính sách tháo2025-12-01Ghế trẻ em trên ô tô lên 'cơn sốt', phụ huynh rơi vào 'ma trận' giá
Quy định tại khoản 3 điều 10 Luật Trật tự, an toàn giao thông đường bộ 2024 yêu cầu rõ: từ ngày 1/1/2025-12-01- 烟雨江湖在最近更新后新增了商昊乾专属支线商家往事的任务,完成后即可获得大量的奖励,不知道怎么完成的可以参考烟雨江湖商昊乾专属支线商家往事任务攻略。烟雨江湖商昊乾专属支线商家往事任务攻略【幽州】1.在12025-12-01
来源:财联社财联社11月19日电,美股三大指数集体收跌,道琼斯指数跌1.07%,标普500指数跌0.83%,纳斯达克综合指数跌1.21%。大型科技股多数下挫,亚马逊、AMD跌超4%,微软、英伟达跌超22025-12-01

最新评论