让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。
这一系列过程依赖人类强大的空间 - 时间长时记忆。

如何让 AI 在 3D 环境中像人类一样思考,一直是具身智能领域的难题。
加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展:3DLLM-MEM模型与3DMEM-BENCH基准,让 AI 首次具备在复杂 3D 环境中构建、维护和利用长时记忆的能力。

挑战:3D 环境中的记忆困境
现有大语言模型(LLMs)在文本理解中表现卓越,但当 " 进入 " 动态 3D 环境时却举步维艰。存在以下问题:
长时记忆断层
在多房间任务中(如跨客厅、卧室、厨房寻找物品),模型难以关联不同时空的观察,常因 " 遗忘 " 关键信息导致任务失败。
空间表征缺失
传统模型依赖稀疏或物体中心的表征,无法捕捉 3D 环境中复杂的几何关系(如家具布局、物体尺寸对比),而这些细节对任务成败至关重要(如判断礼物盒是否 " 太松 " 或 " 太大 ")。
时空动态管理
环境变化(如移动家具、使用物品)会导致记忆过时,但现有模型缺乏动态更新机制,难以区分 " 旧记忆 " 与 " 新状态 "。
简单地说,模型无法像人类一样形成 " 认知地图 " 并灵活调用记忆的核心问题在于缺乏针对 3D 空间 - 时间的记忆建模。
突破:3DMEM-BENCH 基准与 3DLLM-MEM 模型

为系统评估具身智能的记忆能力,研究团队构建了3DMEM-BENCH——首个 3D 长时记忆评估基准。
其核心特点包括:
1. 大规模与多样性
包含26,000+ 轨迹、1,860 个具身任务(从简单物品收集到复杂跨房间推理),覆盖 182 个 3D 场景(平均每个场景 18 个房间)。
2. 多维度评估
具身任务:要求模型执行跨房间动作链(如 " 在客厅找到泰迪熊,到卧室试装小盒子,再到厨房试装大盒子,最终返回客厅选择最合适的盒子 ")。
时空问答(EQA):测试空间关系推理(如 " 任务完成后,站在餐桌前,梳妆台在左侧还是右侧?")。
场景描述:总结多房间记忆中的共性与差异(如 " 之前的房间有橱柜和床,当前房间独特之处在于整面墙的衣柜 ")。
3. 难度分级
任务分为简单(3 房间)、中等(5 房间)、困难(10 房间),并包含 " 野外挑战 "(从未见过的物体或场景),全面考察模型泛化能力。
4. 对比现有基准
相较于 ALFWorld、Behavior-1K 等,3DMEM-BENCH 首次聚焦 " 长时记忆 " 与 "3D 空间理解 " 的结合,填补了领域空白。

针对记忆难题,研究团队提出3DLLM-MEM模型——一款双记忆系统驱动的具身智能体。
其设计灵感源自人类认知结构:
1. 双记忆架构
工作记忆(Working Memory):存储当前观察(如 " 当前房间的书架上有红色盒子 "),容量有限但动态更新。
情景记忆(Episodic Memory):以密集 3D 表征存储历史观察与交互(如 " 厨房的蓝色盒子太大,卧室的绿色盒子太小 "),可扩展且包含时空位置信息。
2. 记忆融合模块
工作记忆作为 " 查询 ",从情景记忆中选择性提取与任务相关的特征(如 " 寻找合适礼物盒 " 时,重点关注曾见过的盒子尺寸、位置),通过注意力机制融合两者,既避免记忆过载,又确保关键信息不被遗漏。
3. 动态更新机制
当环境变化(如移动盒子),模型自动更新情景记忆,确保记忆与当前状态一致。

3DLLM-MEM 的核心优势在于:通过 " 选择性记忆检索 + 时空特征融合 ",模型在复杂环境中既能聚焦任务关键信息,又能维持记忆效率。
验证:超越基线 16.5% 的记忆能力

在 3DMEM-BENCH 上的实验表明,3DLLM-MEM 显著优于现有方法。
1. 具身任务成功率
在最具挑战性的 " 野外困难任务 " 中,3DLLM-MEM 成功率达27.8%,远超基线模型(如 " 最近记忆 " 仅 5%," 检索增强记忆 " 仅 10.6%)。
在 " 野外任务 " 整体成功率上,3DLLM-MEM 达32.1%,比最强基线高16.5%。
2. 时空推理能力
在 EQA 任务中,3DLLM-MEM 在 " 空间关系 "" 跨房间对比 " 等子任务上准确率超60%,而传统 3D-LLM 因上下文限制,准确率不足 10%。
3. 记忆效率
3DLLM-MEM 模型通过 " 动态融合 " 机制,仅需处理与当前任务相关的记忆片段,计算成本比 " 全记忆存储 " 降低,同时保持高推理精度。
典型案例包括:在 " 准备早餐 " 任务中,3DLLM-MEM 模型先在厨房寻找咖啡机未果,转而利用记忆中 " 餐厅有茶壶 " 的信息,调整策略煮茶完成任务,体现了灵活的记忆调用与任务规划能力。
尽管 3DLLM-MEM 已实现重大突破,研究团队也指出其局限性:目前模型依赖模拟器的高层动作预设,未来需与底层导航和控制结合。
论文连接 : https://arxiv.org/abs/2505.22657
项目主页 : https://3dllm-mem.github.io
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见