谷歌的SIMA 2智能体在虚拟世界中使用Gemini进行推理与行动

谷歌 DeepMind 于本周四发布了 SIMA 2 的研究预览,这是其通用型 AI 代理的下一代产品,整合了 Gemini——Google 的大型语言模型的语言与推理能力,旨在超越仅仅执行指令,转而理解并与环境互动。与 DeepMind 的许多项目一样,包括 AlphaFold,SIMA 的第一版本也是在数百小时的电子游戏数据上训练出来的,学习像人类一样在多种 3D 游戏中作战,甚至包括一些它并未被训练过的游戏。SIMA 1 于 2024 年 3 月揭幕,能够在广泛的虚拟环境中遵循基本指令,但在完成复杂任务方面的成功率仅为 31%,相比之下人类为 71%。“SIMA 2 是一个在能力上相对于 SIMA 1 的跃升与改进,”DeepMind 的高级研究科学家 Joe Marino 在一次新闻简报会上表示。“它是一个更通用的代理。它能够在此前未见过的环境中完成复杂任务。并且它是一个自我提升的代理。因此它实际上可以基于自身经验自我改进,这也是迈向更通用型机器人与更广义的人工通用智能系统的一步。”SIMA 2 由 Gemini 2.5 flash-lite 模型驱动,AGI 指的是人工通用智能,DeepMind 将其定义为一个能够完成广泛智力任务、具备学习新技能并在不同领域泛化知识的系统。DeepMind 的研究人员表示,与所谓的“具身代理”合作对实现通用智能至关重要。Marino 解释说,具身代理通过身体与物理世界或虚拟世界进行交互——像机器人或人类一样观察输入并采取行动——而非具身代理可能会与你的日历互动、记笔记或执行代码。具备神经科学背景的 DeepMind 高级员工研究科学家 Jane Wang 告诉 TechCrunch,SIMA 2 的作用远不止于游戏玩法。“我们要它真的理解正在发生的事情、理解用户让它做什么,然后能够以常识性的方式作出回应,这实际上相当困难,” Wang 说。通过整合 Gemini,SIMA 2 的性能是前代的两倍,将 Gemini 的先进语言与推理能力与训练中发展出的具身技能结合起来。Marino 在《无人之地 No Man’s Sky》中演示了 SIMA 2;代理描述了周围环境——一个岩石覆盖的行星表面——并通过识别并与求救信标互动来确定下一步行动。SIMA 2 还使用 Gemini 进行内部推理。在另一款游戏中,当被要求走向颜色像熟番茄的房子时,代理展示了它的思考过程——熟番茄是红色,因此我应该去红色的房子——随后找到了并走近它。借助 Gemini 的能力,SIMA 2 还可以基于表情符号来执行指令:“你给它指令 🪓🌲,它就会去砍树。” Marino 还展示了 SIMA 2 如何在 Genie——DeepMind 的世界模型生成的新摄影写实世界中导航,正确识别并与椅子、树木、蝴蝶等物体互动。Gemini 还使自我提升在不需要大量人类数据的情况下成为可能,Marino 补充道。SIMA 1 完全基于人类游戏玩法的训练数据,而 SIMA 2 将其作为基线,提供一个强大的初始模型。当团队将代理置于新环境时,它会请求另一块 Gemini 模型来创建新任务,并使用一个单独的奖励模型来对代理的尝试进行评分。利用这些自生成的经验作为训练数据,代理从自身的错误中学习并逐步表现得更好,基本上像人类一样通过试错来教自己新行为,只是由基于 AI 的反馈而非人类来引导。DeepMind 将 SIMA 2 视为开启更通用型机器人之路的一步。“如果我们考虑一个系统在现实世界执行任务(例如机器人)需要做什么,我认为其中有两个组成部分。”DeepMind 的高级员工研究工程师 Frederic Besse 在新闻简报中表示。“首先,对现实世界及需要完成的任务有一个高层次的理解,以及一些推理。”如果你家里的一个类人机器人被要求去检查橱柜里有多少罐豆子,该系统需要理解所有不同的概念——豆子是什么、橱柜是什么——并前往那个位置。Besse 表示,SIMA 2 在高层行为方面涉及更多,而不是较低层的动作,他把后者称为控制诸如物理关节和轮子之类的东西。团队拒绝分享在物理机器人系统中实施 SIMA 2 的具体时间表。Besse 告诉 TechCrunch,DeepMind 最近公布的机器人基础模型——它们也能够对物理世界进行推理并制定完成任务的多步骤计划——是以不同于 SIMA 的方式和路径进行训练的。尽管也没有超出预览的 SIMA 2 的发布时间表,Wang 向 TechCrunch 表示,目标是向世界展示 DeepMind 正在开展的工作,并看看可能的合作与潜在用途。话题:资深记者 Rebecca Bellan 是 TechCrunch 的资深记者,报道形塑人工智能商业、政策与新兴趋势的新闻。她的作品也出现在 Forbes、Bloomberg、The Atlantic、The Daily Beast 等刊物。你可以通过发送电子邮件至 rebecca.bellan@techcrunch.com 与 Rebecca 联系,或通过 Signal 上的加密信息 rebeccabellan.491 与她联系以核实联系信息。StrictlyVC 的 2025 系列以独家活动形式结束,活动请来 Pat Gelsinger、Mina Fahmi 等领先风投与创始人分享洞见,并提供建立有意义联系的机会。早鸟价于 11 月 17 日结束。被泄露的文件揭示 OpenAI 向微软支付的金额 Inside Harvey:一名第一年法律助理如何打造硅谷最热门的初创公司。Spotify 推出五个市场的 Premium Platinum 计划,提供无损访问。Jack Dorsey 资助 diVine,这是 Vine 的重启版本,包含 Vine 的视频档案。Chad: The Brainrot IDE 是一个新的由 Y Combinator 支持的产品,荒诞到让人以为它是假的。苹果推出 Digital ID,一种可以在 TSA 检查点使用、将护照存在手机中的方式。Meta 的首席 AI 科学家 Yann LeCun 据称计划离职创办自己的初创公司。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注