点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

ea31581a879853a1bb61b24eabba3acf.jpeg

0. 这篇文章干了啥?

缩放定律在自然语言处理(NLP)和计算机视觉(CV)领域取得了显著成功,这激发了机器人技术界去探索其在机器人学习中的表现形式。一种直接的方法是收集现实世界中的机器人行为轨迹,如最近在Open X-Embodiment和DROID中的工作。然而,这种尝试在数据收集成本和跨不同硬件平台的泛化问题方面带来了持续的挑战。我们认为模拟是解决这些问题的重要步骤。先前的工作已经证明了学习特定低级策略的可能性,如Legged Gym、ManiSkill和Orbit。许多工作已经在模拟中探索了具身人工智能(Embodied AI)。然而,现有平台在场景和任务这两个关键方面表现出有限的多样性和复杂性,因此难以满足实现策略泛化的需求。

为了解决上述限制,本文提出了GRUtopia,这是第一个为服务于人类的各类机器人设计的模拟交互式3D社会。GRUtopia在以下三个方面与之前的平台有所不同:(a)GRScenes,一个能够构建城市级景观的大规模场景数据集。它包括10万个完全交互、精细标注的场景,涵盖89个功能类别;(b)GRResidents,一个利用大型语言模型(LLMs)生成多样化社会角色以供交互、任务创建和分配的NPC系统;(c)GRBench,一个包含与当前算法能力相匹配的“中等挑战性”任务的基准测试。

首先,GRScenes显著扩展了机器人可操作的环境范围。以往的工作主要集中在开发适用于家庭环境的通用代理。除了家务工作外,我们的目标是将通用机器人的能力扩展到服务导向型场景,如超市和医院,这些场景是它们最初可以部署的地方。GRScenes涵盖了室内和室外环境,包括餐厅、超市、办公室、图书馆、博物馆、医院、展览厅、游乐园、家庭等。这些场景具有物理上真实的材质、详细的外观和可访问的内部结构,以及完整的家具布局。数据集包含大量高质量、部分级别的建模对象,确保场景完全动态和交互。我们为场景和对象提供了细粒度、层次化、多模态的注释,涵盖从整体场景、室内区域、对象到单个部分的各个层级。

其次,我们的NPC系统GRResidents为仿真中的人机交互引入了新的维度。引入NPC的动机是,机器人最终是为了服务人类,而与用户的交互通常对于完成任务是有帮助或必要的,比如根据用户偏好解决歧义。GRResidents将大型语言模型(LLM)代理框架与层次化场景感知模块相结合。它对我们数据集中提供的对象的属性、外观和结构信息具有全面的了解。NPC可以推断对象之间的空间关系,理解场景语义,实时观察其他代理的活动,并基于这些信息参与动态对话和任务分配。借助强大的非玩家角色(NPCs),GRUtopia 能够生成无限数量的场景感知的具身任务。

最后,GRBench 作为一个全面的评估工具,用于评估机器人代理的能力。为了评估机器人代理处理日常任务的能力,GRBench 包含三个基准测试:物体定位导航、社交定位导航和定位操控。这些基准测试的难度逐渐递增,要求更高的机器人技能。我们优先考虑使用腿式机器人作为主要的代理,因为它们具有卓越的跨地形能力。然而,在大规模场景中,当前算法很难同时实现高级感知、规划和低级控制,并达到令人满意的结果。受近期进展的启发,这些进展证明了在模拟环境中为单个技能训练高精度策略的可行性,GRBench 的初始版本专注于高级任务,并正式提供基于学习的控制策略作为应用程序接口(APIs),如行走和抓取放置等。因此,我们的基准测试提供了一个更加真实的物理环境设置,缩小了模拟与现实世界之间的差距。

我们进行了广泛的实验来分析 NPC 和控制 API 的性能,提出了基于大型语言模型(LLM)和视觉语言模型(VLM)的基线,以验证我们基准测试设计的合理性,并研究现有基于 LLM 或 VLM 的代理处理具身任务的能力。实验结果表明,将真实动作与高级规划相结合增加了任务的难度,对于应用于现实场景中的先前具身算法来说,这是一个关键挑战。

它还表明,我们构建的基准和评估指标具有明确的难度粒度,能够满足不同领域和层次的研究需求。我们希望这个平台,在我们不断努力扩大场景和任务多样性的基础上,能够造福社区。

下面一起来阅读一下这项工作~

1. 论文信息

标题:GRUtopia: Dream General Robots in a City at Scale

作者:Hanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang

机构:上海AI Lab、浙江大学、上海交通大学、清华大学、南京大学、香港中文大学、西电

原文链接:https://arxiv.org/abs/2407.10943

代码链接:https://github.com/OpenRobotLab/GRUtopia

2. 摘要

近期的研究工作一直在探索具身人工智能(Embodied AI)领域的扩展定律。
鉴于收集现实世界数据的成本高昂,我们认为从模拟到现实(Sim2Real)的范式是扩展具身模型学习能力的关键步骤。本文介绍了GRUtopia项目,这是首个为各种机器人设计的模拟交互式3D社会。该项目具有以下几项重要进展:(a) 场景数据集GRScenes包含了10万个交互式、精细标注的场景,这些场景可以自由组合成城市规模的环境。与以往主要关注家庭环境的研究工作不同,GRScenes涵盖了89个不同的场景类别,填补了面向服务的环境(通用机器人最初部署的环境)之间的差距。(b) GRResidents是一个由大型语言模型(LLM)驱动的非玩家角色(NPC)系统,负责社交互动、任务生成和任务分配,从而模拟具身人工智能应用中的社交场景。(c) 基准测试集GRBench支持各种机器人,但主要关注以腿足机器人为主要代理的机器人,并提出了涉及对象定位导航、社交定位导航和定位操作等适度挑战性的任务。我们希望这项工作能够缓解该领域高质量数据的稀缺问题,并为具身人工智能研究提供更全面的评估。该项目可在https://github.com/OpenRobotLab/GRUtopia上获得。

3. 效果展示

a94d6a56f5bbb93b59ffc06db96221f2.jpeg 07c2349fedf408c3c43869cb720a4ca1.png e433705c6c0130a097a236b81e2a3f52.png

4. 基本原理是啥?

GRResidents概述。它包括两个模块:(a)世界知识管理器,它从数据集注释和模拟器后端组织场景知识,并提供知识检索的API。(b) LLM规划师能够从世界知识管理器中检索全球知识,并根据对话上下文生成响应。

fcf19ecf6afe16d2947b1d0f0bdf8e5c.png 1b818c2e4a652e439ee5dc8828674b13.png

在以对象为中心的问答实验中,我们评估了非玩家角色(NPC)在导航任务中通过问答方式为代理提供对象级别信息的能力。我们设计了一个流程,该流程生成以对象为中心的导航片段,模拟现实场景,其中代理向NPC提问以获取信息,并根据答案采取行动。根据代理的提问,我们基于NPC的回答与真实答案之间的语义相似性来评估NPC。如表2(问答)所示的整体分数表明,我们的NPC能够提供精确且有用的导航辅助。

bdca77ae91166403f49fac970c3f7c43.png fe345dc453e806469daffe8bdfabfec6.png

5. 实验结果

如图5所示,其中展示了一些示例案例,我们为具身代理的综合评估设立了三个基准测试:1) 物体定位导航,评估主动感知和导航能力;2) 社交定位导航,评估与NPC进行有效沟通以明确指令的能力;3) 定位操控,测量移动操控能力。
我们为每个基准测试生成了300个场景(100个用于验证,200个用于具身代理的测试集)。更多关于任务定义和任务生成的实现细节,请参考补充文件。

基准测试1:物体定位导航。物体定位导航任务要求代理根据给定的语言目标导航到目标物体。世界知识管理器(第3.2节)确保使用无歧义的自然语言唯一标识目标。如果目标物体出现在代理的视野中,则该场景视为成功。

基准测试2:社交定位导航。认识到人类的意图可能并不总是明确提供的,社交定位导航任务评估代理主动与NPC交互并通过对话识别目标的能力。代理必须提出问题以明确目标物体的特征(最多三轮对话)。与物体定位导航类似,如果目标物体出现在代理的视野中,则该场景视为成功。

基准测试 3:定位操控。定位操控任务在定位导航的基础上,测试机器人使用手臂抓取和放置物体的能力。此任务涉及手臂操作,以从初始位置拿起目标手持物体,并将其放置在目标容器中的正确位置。代理需要理解物体与容器之间的外观和关系。此任务由最多两个条件定义,这些条件描述了手持物体的目标位置,包括其外观以及与目标容器的关系;因此,由于手持物体和目标容器都不保证是唯一的,所以允许多种解决方案。如果手持物体最终被放置在满足任务规格中所有条件的位置,则该情节被视为成功。这使得此任务更具挑战性,因为它需要准确地将正确的物体运输到目标位置。

机器人设置。所有情节都以代理在任务规格中预定的位置和方向开始。对于导航(基准测试 1 和 2),我们使用配备了 RGB-D 摄像机的宇树 H1 人形机器人进行感知。对于移动操控(基准测试 3),由于宇树 H1 目前缺乏足够的操控能力,因此该设置使用了一个移动操控器,该操控器结合了 AlienGo 作为移动底座和宇树 Z1 作为操控器。RGB-D 摄像机安装在距离 AlienGo 0.8 米高的杆上,以确保摄像机对环境感知的视野(FoV)。

66e10b3d3db53ac531815a1c7befc474.png

在本节中,我们针对三个基准测试,对不同大型模型后端下的大型模型驱动代理框架进行了比较分析。如表4所示,我们观察到随机策略的性能接近0,这表明我们的任务并非微不足道。当利用相对优越的大型模型作为后端时,我们在所有三个基准测试中均实现了显著更好的整体性能。具体来说,我们观察到在对话中,Qwen的表现优于GPT-4。

224e95d1f8eaff977f65084adb4cd027.png

6. 总结 & 未来工作

在本文中,我们介绍了GRUtopia,这是一个旨在激发和基准测试先进具身AI研究的新型平台。GRUtopia提供了一个具有多种功能场景(GRScenes)的城市规模环境、针对各种具身形式的学习型控制API,以及能够进行社交互动、任务生成和任务分配的多模态非玩家角色(NPCs)。利用我们的场景数据集和工具,我们提出了GRBench,它目前包含三个基准测试,用于评估机器人在导航、社交互动和操作方面的能力。我们进行了广泛的实验,以全面分析我们的基准测试和当前最先进的大型视觉语言模型(VLMs)的性能。

GRUtopia正在积极开发中。在初始版本中,我们部分发布了100个已标注、即插即用的室内场景和一个街区。当前的NPC系统支持社交互动,但不包括物理接触。我们将继续增强平台的功能,包括3D场景资源、控制策略、任务生成、NPC系统和基准测试,以促进具身学习的扩展。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

239a8d9ac9a4d0c6b3e81aa9c0cfaf18.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

07ecce350e77d79b74db16c67aa2a003.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

a96268d3670f8e07e01ca0caed456755.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
0166e1e8096da0ca58741842321f66eb.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
9674852b79adf827eb540053e4b09f86.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
07f0608e7a1dd618901056aaa000aae5.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
57ba3771128a471841ef71d69336dfa4.png低成本+体积小
+重量轻+抗高反
YA001高精度3D相机
486e54de41961f92a808002a30f053c4.png抗高反+无惧黑色+半透明KW-D | 高精度3D结构光
开源相机
033eca3ee7cf1ca8e20f4c21abf7a601.png硬件+源码‍工坊智能ROS小车
a50a6c26736334f4011e54ef364cbde3.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
—   —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐