SIMA 2：3D 世界的智能新物种<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <link rel="stylesheet" href="https://www.hu86.com/wp-content/themes/three-picture/style.css"> <script src="https://www.hu86.com/wp-content/themes/three-picture/jquery-3.6.js"></script> <title>hu86科技

SIMA 2：3D 世界的智能新物种

2025-11-20

一、SIMA 2：3D 世界的智能新物种

DeepMind 于 2025 年 11 月 13 日正式发布 SIMA 2（Scalable Instructable Multiworld Agent，可扩展的可指令多世界智能体），这是一个能在虚拟 3D 世界中自主游戏、推理并持续学习的通用 AI 智能体，被官方称为 “为虚拟 3D 世界打造的最强大 AI 代理”。deepmind.google

二、核心能力：从指令执行者到智能伙伴

1️⃣ 超越指令跟随的思考能力

不仅能理解指令，还能思考并推理指令，将用户高级目标拆解为执行步骤
能解释自身行动意图，与用户进行自然对话式交互，使协作更透明
可理解抽象概念（如 “找到安全的地方”” 准备过夜材料 “），远超简单动作指令

2️⃣ 多模态交互：全方位感知世界

支持文本、语音、图形、表情符号等多种输入方式
用户可通过草图直接指导：画出目标物体，AI 理解后执行搜索或建造
能理解不同语言指令，具备跨文化交互能力

3️⃣ 强大的泛化与适应能力

在从未训练过的游戏（如 Viking 生存游戏 ASKA、Minecraft 研究版）中任务成功率显著提升
能将在一款游戏中学习的技能（如 “采矿”）迁移到另一款游戏的类似情境（如 “收获”）
与 DeepMind 另一项突破性技术Genie 3（能从单张图像生成 3D 世界）结合时，能在完全陌生的虚拟环境中快速适应并执行任务

4️⃣ 革命性的自我改进机制

无需人类干预，通过自我试错和 Gemini 提供的反馈进行迭代优化
能从初始人类演示过渡到完全自主学习，在新游戏中通过自我游戏提升技能
建立自我生成经验库，用于训练下一代更强大的 AI 版本

三、技术核心：Gemini 赋能的 “思维 – 感知 – 行动” 架构

🌟 三层 “Gemini-SIMA Fusion” 架构 🌟

层级	核心组件	功能说明
决策中枢	Gemini 大语言模型 (Pro 1.5/2.5 Flash-lite)	高级理解、任务规划、语言交互、逻辑推理
视觉 – 动作层	视觉 – 动作 Transformer 模型	仅通过像素输入理解 3D 环境，输出键盘鼠标精确操作
思维令牌桥梁	连接层	实现语言、视觉、动作三流合一，使抽象思维能指导具体行动

核心创新：通过 “思维令牌”(Thought Tokens) 将 Gemini 的抽象推理与底层动作执行无缝连接，使 AI 能在保持高级思考的同时完成精确操作

四、性能飞跃：接近人类水平的 3D 世界能力

🔥 关键性能数据 🔥

任务成功率：从 SIMA 1 的 31%跃升至 65%，几乎翻倍，首次 ** 接近人类玩家 75%** 的水平
在未训练游戏中的表现提升更为显著，展现出强大的泛化能力
能完成更长、更复杂的任务链，支持多步骤推理