当前位置: 首页 > 技术分享  > AI技术 > AI发展

英伟达 AI 突破:让机器人在 “梦境” 中自学成才,无需人类指导即可上岗

2025/5/22 9:30:55 人评论

2025 年 5 月 21 日报道,当 OpenAI、谷歌等企业还在利用 Sora 等 AI 模型进行视频创作时,英伟达另辟蹊径,借助视频生成模型,让机器人通过 “做梦” 来学习技能。其推出的新方法 DreamGen,不仅能使机器人掌握前所未见的新动作,还能让它们在完全陌生的环境中灵活应对。…

2025 年 5 月 21 日报道,当 OpenAI、谷歌等企业还在利用 Sora 等 AI 模型进行视频创作时,英伟达另辟蹊径,借助视频生成模型,让机器人通过 “做梦” 来学习技能。其推出的新方法 DreamGen,不仅能使机器人掌握前所未见的新动作,还能让它们在完全陌生的环境中灵活应对。该技术通过合成数据,使数据量大幅增加 333 倍,真正让机器人 “梦想成真”。

一、DreamGen:机器人的 “梦境训练” 新范式

英伟达的研究项目 DreamGen 给出了机器人 “做梦” 的答案。与传统让机器人 “看视频” 学习的方式不同,DreamGen 将机器人置于神经网络生成的像素级 “梦境世界” 中,使其能够自主探索、学习,体验各种场景和动作。


通过生成数十万条带有马达动作标签的神经轨迹,DreamGen 让机器人能够快速掌握新技能,并将这些技能泛化到全新的名词、动词和环境中。无论是类人机器人(GR1)、工业机械臂(Franka),还是迷你机器人(HuggingFace SO - 100),都能在 DreamGen 创造的梦境世界中学习成长。


相较于传统图形引擎,DreamGen 在处理场景时具有显著优势。它无需在意场景中是否存在可变形物体、液体、半透明材质、复杂接触或诡异光影等复杂元素,因为对它而言,每一个世界都只是神经网络前向传播的结果,而且无论梦境多么复杂,其计算时间始终保持恒定。DreamGen 将自身作为合成数据生成器,充分挖掘其在物理推理、自然运动和语言理解方面的先验能力。

二、多场景验证:从模拟到现实的卓越表现

(一)模拟环境实验

在模拟环境中,研究人员将 DreamGen 应用于 RoboCasa 基准测试,把合成数据规模扩展至原始人类演示数据的 333 倍。结果表明,随着神经轨迹数量的增加,策略性能呈现对数线性增长。

(二)现实环境实验

在现实环境中,研究人员在 9 个多样化任务中进行了验证,使用的机器人包括 Fourier GR1、Franka Emika 和 SO - 100。这些任务涵盖了叠毛巾、擦液体、使用锤子以及舀取 M&M 豆等难以在模拟中实现的复杂操作。


实验结果显示,在所有类型的机器人上,DreamGen 都显著提升了任务成功率:GR1 的 4 个任务平均成功率从 37% 提升至 46.4%;Franka 的 3 个任务平均成功率从 23% 提升至 37%;SO - 100 的 2 个任务平均成功率从 21% 提升至 45.5%。


更令人惊喜的是,类人机器人仅用 10 - 13 条真实轨迹 / 任务,最终就学会了倒水、叠衣服等 22 种新技能,尽管它之前从未接触过这些动作。甚至将机器人带到 NVIDIA 总部的咖啡厅这一全新环境中,DreamGen 依然效果显著。英伟达团队实现了真正的 “从零到一” 的泛化能力,对陌生动词的成功率从 0% 提升到 43%,在未见过的环境中从 0% 提升到 28%。

三、四大核心流程:构建机器人学习新体系

DreamGen 借助生成式视频模型的能力,包含以下四大流程:


  1. 视频世界模型微调:在目标机器人数据上,对最先进的视频模型进行微调,以帮助模型适应目标机器人的物理限制和运动能力。为避免模型在微调过程中遗忘从互联网上学到的丰富视频知识,默认使用 LoRA 方法进行微调,主要关注模型是否能遵循指令以及是否符合物理规律,以此评估模型对目标机器人任务域的适配性。在大多数下游机器人实验中,以 WAN2.1 作为基础的视频世界模型,对于包含多个视角的数据集,会将不同视角拼接成特定网格后再进行微调。

  2. 视频世界模型展开(Rollout):模型完成对目标机器人形态的微调后,使用不同的初始画面和语言指令生成合成机器人视频。在模拟实验中,从仿真器采集新初始画面并随机设置目标物体或环境位置;现实世界实验中,手动拍摄新初始画面并随机化目标物体位置;环境泛化实验采集全新环境的初始画面,而训练数据仅来自一个环境;行为泛化实验手动设计新颖行为提示词并纳入视频基准测试。

  3. 伪动作标签生成:提取伪动作标签的模型有两种架构,分别是用于训练逆向动力学模型(IDM)的架构和用于训练潜动作模型(LAPA)的架构。IDM 采用带有 SigLIP - 2 视觉编码器的扩散 Transformer,使用 “流匹配” 目标训练,输入两帧图像,预测连续动作,引入语言或本体感知数据作为输入,训练数据与对应视频世界模型数据集一致,训练完成后用滑动窗口方法进行伪动作标签预测。LAPA 使用 VQ - VAE 目标进行训练,提取潜动作时将当前帧和 1 秒之后的未来帧作为条件输入,训练时不需要目标机器人的真实动作标签,适合跨机器人泛化或数据稀缺场景。

  4. 基于神经轨迹的策略训练:在由 DreamGen 生成的神经轨迹上训练视觉 - 动作策略模型,该模型以语言指令和图像观测作为条件输入,状态输入部分用全零值填充。提出两种训练方式,一是将神经轨迹与真实机器人数据以 1:1 采样比例联合训练,在 GR00T N1 中视为不同机器人形态,使用不同动作编码器和解码器处理;二是完全不使用真实数据,只使用由 IDM 模型标注的神经轨迹进行训练,在行为泛化与环境泛化实验中验证了在缺乏真实数据情况下的策略泛化能力。

四、核心应用能力:数据增强与泛化的双重突破

(一)训练数据增强

在模拟实验的 RoboCasa 基准任务和现实世界的 9 个真实任务中,对 DreamGen 进行评估。结果显示,联合训练能带来一致性提升,神经轨迹数量与策略性能呈对数线性关系,说明合成数据生成具有更强的可扩展性和成本效益。即便完全不使用真实轨迹,仅用 IDM 标签的神经轨迹训练策略模型,在 24 个任务中仍可达到平均 20.6% 的成功率,证明了神经轨迹的高质量和有效性。

(二)解锁泛化能力

  1. 行为泛化:DREAMGEN 能让机器人仅通过神经轨迹学习新的行为动作,完全不依赖人工远程操作数据。对于 14 个全新行为任务,每个生成 50 条神经轨迹并仅用这些轨迹训练下游视觉 - 动作策略模型,策略成功率从 11.2% 提升至 43.2%,表明机器人学会了完全陌生的动词行为。

  2. 环境泛化:当模型输入来自全新环境的初始画面时,视频世界模型仍能生成高度真实、合理的机器人视频,保留预训练阶段的世界知识。仅使用神经轨迹训练视觉 - 动作策略,在已知和全新行为上都能获得不错的成功率,实现了零样本环境迁移,而基线模型在新环境中的成功率为 0%。

五、DreamGen Bench:推动机器人技术发展的新基准

此次研究引入了 DreamGen Bench,作为机器人的视频生成基准,它与下游机器人策略呈正相关。这意味着视频模型研究人员无需实际设置物理机器人系统,即可为机器人技术的发展提供帮助。


在 RoboCasa 的仿真实验中分析发现,无论使用 LAPA 还是 IDM 获取伪动作标签,神经轨迹都能在所有数据量场景中显著提升策略性能,且策略性能与神经轨迹总数之间呈现 “对数 - 线性” 增长趋势,表明神经轨迹是一种强大的数据扩展方式,为机器人学习的可扩展性提供了新的增长维度,在性价比与规模化上相比传统模仿学习方法具有巨大优势。


英伟达的 DreamGen 技术为机器人学习带来了全新的思路和方法,让机器人在 “梦境” 中实现自我提升,为机器人技术的发展开辟了更广阔的空间。


相关技术

  • 告别 “人眼质检”!AI 模型在工业制造领域的破局与革新

    在现代工业制造中,质量把控是确保产品符合标准、满足客户需求的关键环节。AI 质量检测技术的兴起,正深刻变革着传统的质检模式,为工业生产带来了更高的效率、精度与可靠性。以汽车制造行业为例,汽车零部件的质量直接关乎整车的性能与安全。一家知名汽车零部件生产企业…

    2025/4/29 15:07:09

共有条评论 网友评论

验证码: 看不清楚?