Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

机器之心报道机器之心编辑部随着通用型(Generalist)机器人策略的发展,机器人能够通过自然语言指令在多种环境中完成各类任务,但这也带来了显著的挑战。一方面,真实世界评估成...


机器之心报道

机器之心编辑部

随着通用型(Generalist)机器人策略的发展,机器人能够通过自然语言指令在多种环境中完成各类任务 ,但这也带来了显著的挑战 。

一方面,真实世界评估成本极高,需要系统性地覆盖常规场景 、极端情况、分布外(OOD)环境以及各类安全风险 ,通常需要进行成百上千次真实硬件实验 ,不仅耗时、昂贵,还可能存在操作风险。

另一方面,安全性评估尤为棘手 ,许多潜在的不安全行为(例如误夹人手 、损坏设备或引发环境危险)本身就不适合在真实环境中反复测试,使得传统的硬件评估方法在安全场景下往往难以实施。

传统的物理仿真器虽然有帮助,但在真实感 、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈 。

另外 ,前沿视频模型为世界仿真提供了一种替代路径,有望解决前文提到的诸多挑战 。然而,要真正发挥这一潜力面临很多困难 ,主要原因包括:

1)在闭环、动作条件生成中容易产生伪影;

2)对接触动力学(如物体接触 、碰撞)的仿真十分困难;

3)现代策略架构对多视角一致性提出了较高要求,而这在视频生成中并不容易满足。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

  • 论文地址:https://arxiv.org/pdf/2512.10675
  • 项目主页:https://veo-robotics.github.io/
  • 论文标题:Evaluating Gemini Robotics Policies in a Veo World Simulator

本文,来自 Google DeepMind Gemini Robotics 团队研究者提出了一种基于视频建模的机器人策略评估系统 ,能够支持机器人领域中完整范围的策略评估需求,包括分布内评估、分布外泛化评估,以及红队测试。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

具体而言 ,该系统基于最先进的视频生成模型 Veo ,实现了带动作条件约束、具备多视角一致性的视频仿真,不仅在视觉上高度真实,还能够对机器人细粒度控制做出合理响应 。同时 ,该系统集成了生成式编辑技术,使得无需搭建真实物理场景,就能生成包含新物体 、新视觉背景以及安全关键元素的多样化、逼真的真实世界场景变体。

通过 1600 余次真实世界实验 ,并在八个通用型策略检查点和五项任务上验证了视频模型预测结果的有效性。实验结果表明,该系统在保持底层视频基础模型原有能力的同时,达到了进行严格机器人评估所需的高保真度 。

尽管视频建模在机器人领域仍处于早期阶段 ,但本文清晰地展示了一条利用视频仿真世界,实现机器人策略泛化能力与安全性可扩展评估的可行路径。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

视频链接:https://mp.weixin.qq.com/s/qiRQSruwI2ESfQxHsceUpw

方法介绍

在模型架构方面,本文采用 Veo 2 作为基础模型。

在数据方面 ,模型在一个包含大量视频、图像及其对应标注的数据集上进行训练 。这些文本描述由 Gemini 模型自动生成,并且所有数据都经过了严格的预处理与整理。

此外,本文在一个大规模机器人数据集上对预训练的 Veo2 模型进行了微调。该数据集包含多种任务 ,覆盖了在大量不同场景中所需的广泛操作技能 。图 2(上)展示了一个示例 ,将渲染后的机器人位姿叠加在生成的视频帧之上的效果。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

最后,为减轻部分观测带来的影响,本文将系统中的四个相机视角(包括俯视视角 、侧视视角 ,以及左右腕部视角)拼接成一个整体输入。然后对 Veo2 进行微调,使其能够在给定初始帧和未来机器人位姿的条件下,生成这种拼接后的多视角未来帧 。图 2(下)展示了一个由该模型生成的多视角视频帧示例 。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

实验

本文通过 1600 余次真实世界评估 ,在八个通用型策略检查点和五项任务上进行了实验。

在基于 Gemini Robotics On-Device(GROD)模型训练了端到端的 VLA 策略。随后,使用经过微调的 Veo(Robotics)视频模型,在分布内场景中对这些策略进行评估 。

指令:把右上角的红色葡萄放入灰色盒子的左上角隔间。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

指令:把乐高积木放进乐高积木袋里。

指令:把棕色的长条物放进午餐包的顶部口袋里 。

研究中 ,作者还使用 Veo(Robotics)模型,对 8 个不同版本的 VLA 机器人策略进行性能预测,然后把这些预测结果与机器人在真实世界中的实际测试结果进行对比 ,以检验视频模型预测是否准确、可靠。如下 demo 展示了 Veo(Robotics)针对两种策略的实际运行示例。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

下图比较了视频模拟预测结果与实际成功率 。可以观察到,Veo(Robotics)能够根据性能对不同的策略进行排名。本文还发现预测成功率与实际成功率之间存在很强的相关性。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

接下来作者测试了模型分布外泛化能力 。通过改造真实场景来制造新情况,用视频模型提前预测机器人在陌生环境中的表现 ,并用真实实验验证这些预测是否靠谱。

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

最后 ,本文证明了 Veo(Robotics)世界模型可以用来做安全红队测试。也就是说,不需要先让机器人在真实世界中冒险,就可以在视频模拟的世界里主动寻找策略可能出现的不安全行为 。

例如合上电脑:

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

快速抓取红色积木:

Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

了解更多内容 ,请参考原论文 。

本文来自作者[怀绿]投稿,不代表视听号立场,如若转载,请注明出处:https://wap.stddy.com/zlan/202512-65065.html

(41)

文章推荐

  • 广东新增本土确诊5例(广东新增本土确诊5例在哪里)

    31省区市新增本土确诊5例,这些病例遍布在哪里?引言:31省区市新增本土确诊5例,今天就跟着小编一块儿来了解一下这些病例他都遍布在哪个地方?病例遍布在云南和大连。对于大连的人民来说,这4例确诊给他们的生活带来了不小的影响,原本以为是没有的,结果后来一下子多了4个。有两名是某区的小学学生。新增确诊病

    2025年06月24日
    153
  • 【北京西城区最新确诊一例,北京西城最新病例】

    北京新增本土“32+1”例,这些确诊病例分布在了哪些区域?疫情反反复复,北京通报本土又新增32+1例。而这些确诊病例分布在朝阳区、房山区、昌平区、丰台区、西城区以及延庆区;其中朝阳区20例,房山区3例,昌平区2例,丰台区2例,西城区1例,延庆区1例。此次北京疫情属于奥密克戎变异株,与近期流行的病毒

    2025年08月17日
    118
  • 终于发现了“手机打牌怎么发好牌(专用辅牌神器免安装)

    软件神器超灵!白金岛红拐弯开挂辅助器脚本(怎么打才能赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛红拐弯开挂辅助器脚本是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月14日
    85
  • 中俄表态后,高市早苗承认台湾是中华人民共和国一部分!被打疼了

    根据最新消息,日本首相高市早苗,12月3日在日本参议院全体会议上,对台湾问题作出了最新表态。她表示,对于“台湾是中华人民共和国领土不可分割的一部分”,日本理解并尊重这一立场。而这一立场,是根据1972年《日中联合声明》的表述,所以,日方的立场“丝毫没有改变”。分析认为,高市早苗在上次发表错误言论后,

    2025年12月03日
    54
  • 学习卡丨“正义、光明、进步必将战胜邪恶、黑暗、反动”

    今年是南京大屠杀惨案发生88周年,2025年12月13日是第十二个南京大屠杀死难者国家公祭日。总监制丨闫帅南监制丨李浙王元主编丨王兴栋编辑制图丨谭瑶封图来源丨视觉中国©2025中央广播电视总台版权所有。未经许可,请勿转载使用。责任编辑:李若菲

    2025年12月13日
    39
  • 祝贺!陈芋汐当选世界泳联2025年度最佳女子跳水运动员

    世界泳联17日宣布,陈芋汐当选世界泳联2025年度最佳女子跳水运动员。2025年7月31日,在新加坡举行的2025年世界游泳锦标赛跳水女子10米跳台决赛中,中国选手陈芋汐夺冠。(新华社记者雒圆摄)今年陈芋汐斩获7枚世界杯系列赛金牌,其中包括三枚世界杯超级总决赛金牌。同时,她还在2025年新加坡世界泳

    2025年12月18日
    39
  • 日本兵分三路,对华反击正式开始!关键时刻,特朗普却摊牌了

    面对中国的“连环拳”,日本明白不再坐以待毙,接下来,日本将“兵分三路”对中国进行反击,但让日本没想到的是,行动还未开始,特朗普那边就摊牌了。那么,日本究竟准备干什么?所谓特朗普摊牌又指什么?中国精准反制之后,日本急忙寻找突破口日本这波“兵分三路”的操作,其实完全是被中国的反制逼出来的,1月6日,中国

    2026年01月11日
    25
  • 真服了我老公!他今年65岁了,每天晚上吃完饭不管多累,立马开工

    我叫王淑琴,今年62岁,跟我家老头老陈过了一辈子,年轻时没少为他的“闲不住”吵架,现在他都65岁了,还是改不了这毛病,每天晚上吃完饭,不管多累,碗一推,立马就往阳台的小工坊里钻,说他几句还乐呵呵地应着,转头照样忙得热火朝天,真真是让我又气又心疼。老陈年轻时候是厂里的木工师傅,手巧得很,家里的桌椅板凳

    2026年01月17日
    7
  • 3分钟学会“微信打麻将有什么软件可以赢(助赢神器通用版)

    软件神器优选!微乐麻将怎么让系统给自己好牌(怎么控制输赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐麻将怎么让系统给自己好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器

    2025年08月29日
    112
  • 实测教程“九九麻将神器(专用辅牌神器免安装)

    软件神器超棒!微乐湖南麻将怎么让系统发好牌(可以设置输赢吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐湖南麻将怎么让系统发好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神

    2025年09月19日
    83

发表回复

本站作者后才能评论

评论列表(4条)

  • 怀绿
    怀绿 2025年12月15日

    我是视听号的签约作者“怀绿”!

  • 怀绿
    怀绿 2025年12月15日

    希望本篇文章《Veo何止生成视频:DeepMind正在用它模拟整个机器人世界》能对你有所帮助!

  • 怀绿
    怀绿 2025年12月15日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 怀绿
    怀绿 2025年12月15日

    本文概览:机器之心报道机器之心编辑部随着通用型(Generalist)机器人策略的发展,机器人能够通过自然语言指令在多种环境中完成各类任务,但这也带来了显著的挑战。一方面,真实世界评估成...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们