DeepMind 于 2025 年 11 月 13 日正式发布 SIMA 2(Scalable Instructable Multiworld Agent,可扩展的可指令多世界智能体),这是一个能在虚拟 3D 世界中自主游戏、推理并持续学习的通用 AI 智能体,被官方称为 “为虚拟 3D 世界打造的最强大 AI 代理”。deepmind.google
- 不仅能理解指令,还能思考并推理指令,将用户高级目标拆解为执行步骤
- 能解释自身行动意图,与用户进行自然对话式交互,使协作更透明
- 可理解抽象概念(如 “找到安全的地方”” 准备过夜材料 “),远超简单动作指令

- 支持文本、语音、图形、表情符号等多种输入方式
- 用户可通过草图直接指导:画出目标物体,AI 理解后执行搜索或建造
- 能理解不同语言指令,具备跨文化交互能力
- 在从未训练过的游戏(如 Viking 生存游戏 ASKA、Minecraft 研究版)中任务成功率显著提升
- 能将在一款游戏中学习的技能(如 “采矿”)迁移到另一款游戏的类似情境(如 “收获”)
- 与 DeepMind 另一项突破性技术Genie 3(能从单张图像生成 3D 世界)结合时,能在完全陌生的虚拟环境中快速适应并执行任务
- 无需人类干预,通过自我试错和 Gemini 提供的反馈进行迭代优化
- 能从初始人类演示过渡到完全自主学习,在新游戏中通过自我游戏提升技能
- 建立自我生成经验库,用于训练下一代更强大的 AI 版本
核心创新:通过 “思维令牌”(Thought Tokens) 将 Gemini 的抽象推理与底层动作执行无缝连接,使 AI 能在保持高级思考的同时完成精确操作
- 任务成功率:从 SIMA 1 的 31%跃升至 65%,几乎翻倍,首次 ** 接近人类玩家 75%** 的水平
- 在未训练游戏中的表现提升更为显著,展现出强大的泛化能力
- 能完成更长、更复杂的任务链,支持多步骤推理