Gemini Robotics-ER 1.6:增强具身推理,赋能现实机器人任务
Google DeepMind 发布 Gemini Robotics-ER 1.6,通过提升空间推理、多视图理解和仪器读取等能力,使机器人能更精准地理解物理世界并自主执行复杂任务。
Gemini Robotics-ER 1.6:通过增强的具身推理为现实世界的机器人任务提供动力。为了让机器人在日常生活和工业中真正发挥作用,它们必须做的不仅仅是遵循指令,还必须对物理世界进行推理。
从在复杂设施中导航到解读压力表上的指针,机器人的“具身推理”使其能够弥合数字智能与物理动作之间的鸿沟。今天,我们推出 Gemini Robotics-ER 1.6,这是对我们以推理为先的模型的重大升级,使机器人能够以前所未有的精度理解环境。
通过增强空间推理和多视角理解,我们为下一代物理智能体带来了新的自主性。该模型专注于对机器人至关重要的推理能力,包括视觉与空间理解、任务规划和成功检测。
它充当机器人的高级推理模型,能够通过原生调用 Google 搜索等工具来查找信息、调用视觉-语言-动作模型(VLA)或任何其他第三方用户自定义函数来执行任务。
Gemini Robotics-ER 1.6 相比 Gemini Robotics-ER 1.5 和 Gemini 2.0 Flash 均有显著提升,特别是在指向、计数和成功检测等空间与物理推理能力方面。
我们还解锁了一项新能力:仪表读取,使机器人能够读取复杂的仪表和视镜——这是通过与合作伙伴波士顿动力公司紧密合作发现的用例。即日起,Gemini Robotics-ER 1.6 可通过 Gemini API 和 Google AI Studio 提供给开发者。
为帮助您快速上手,我们分享了一个开发者 Colab,其中包含如何配置模型并提示其执行具身推理任务的示例。指向:空间推理的基础。指向是具身推理模型的基本能力,并随着每一代模型的发展而演进。点可用于表达多种概念,包括:空间推理:精确物体检测和计数;
关系逻辑:进行比较,例如识别集合中最小的物品;定义“从-到”关系(例如,将 X 移动到位置 Y);运动推理:绘制轨迹并识别最佳抓取点;约束合规:通过复杂提示进行推理,例如“指向所有小到能放进蓝色杯子的物体”。
Gemini Robotics-ER 1.6 可以使用点作为中间步骤来推理更复杂的任务。例如,它可以使用点来统计图像中的物品数量,或识别图像上的关键点,以帮助模型执行数学运算,从而改进其度量估计。
下面的示例展示了 Gemini Robotics-ER 1.6 在指向多个元素以及知道何时该指、何时不该指方面的优势。
成功检测:自主性的引擎。在机器人领域,知道任务何时完成与知道如何开始同样重要。成功检测是自主性的基石,作为一个关键的决策引擎,它使智能体能够智能地选择是重试失败的操作还是进入计划的下一阶段。
在机器人领域实现视觉理解具有挑战性,需要复杂的感知和推理能力,结合广泛的世界知识,以处理遮挡、光线不足和模糊指令等复杂因素。此外,大多数现代机器人设置包含多个摄像头视角,例如俯视视角和腕部视角。
这意味着系统需要理解不同视角如何组合,在每个时刻以及跨时间形成连贯的画面。Gemini Robotics-ER 1.6 推进了多视角推理,使系统能够更好地理解多个摄像头流及其之间的关系,即使在动态或遮挡环境中也是如此,如下方典型的多视角场景所示。
仪表读取:现实世界的视觉推理。要理解 Gemini Robotics-ER 1.6 的一个关键优势,我们必须看它如何结合空间推理和世界知识等能力来解决复杂的现实世界问题。一个完美的例子是仪表读取。
这项任务源于设施检查需求,这是我们合作伙伴波士顿动力公司的一个关键关注领域。工业设施包含许多仪器——温度计、压力表、化学视镜等——需要持续监控。Spot 是波士顿动力公司的机器人产品,能够访问整个设施中的仪器并拍摄图像。
仪表读取需要复杂的视觉推理。必须精确感知各种输入——包括指针、液位、容器边界、刻度线等——并理解它们之间的相互关系。对于视镜,这涉及估计液体填充视镜的程度,同时考虑相机视角造成的畸变。
仪表通常带有描述单位的文本,需要读取和解释,有些仪表有多个指针,指向不同的小数位,需要组合。仪表读取和更可靠的任务推理等能力将使 Spot 能够完全自主地观察、理解并应对现实世界的挑战。
Gemini Robotics-ER 1.6 通过使用智能体视觉(将视觉推理与代码执行相结合)实现了高度准确的仪表读取。
该模型采取中间步骤:首先放大图像以更好地读取仪表中的小细节,然后使用指向和代码执行来估计比例和间隔,从而获得准确读数,最后应用其世界知识来解释含义。准确读取模拟仪表。我们迄今为止最安全的机器人模型。
安全性被集成到我们具身推理模型的各个层面。Gemini Robotics-ER 1.6 是我们迄今为止最安全的机器人模型,在对抗性空间推理任务上,相比所有前代模型,它表现出更优的 Gemini 安全策略合规性。
该模型在遵守物理安全约束方面也显示出显著提升的能力。例如,它通过空间输出(如指向)做出更安全的决策,指明哪些物体可以在夹爪或材料约束下安全操作(例如,“不要处理液体”、“不要拿起超过 20 公斤的物体”)。
我们还测试了该模型根据真实伤害报告识别文本和视频场景中安全隐患的能力。在这些任务中,我们的 Gemini Robotics-ER 模型在准确感知伤害风险方面,相比基线 Gemini 2.0 Flash 性能有所提升(文本 +6%,视频 +10%)。
与我们合作,改善机器人的具身推理。我们致力于确保 Gemini Robotics-ER 为机器人社区提供最大价值。
如果您当前的专业应用场景中现有能力存在局限,我们邀请您提交此表格,附上 10-50 张标注图像,说明特定的失败模式,以帮助我们构建更强大的推理功能。我们期待与您合作,在未来的版本中增强这些能力。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。