返回 hu86科技
   

SIMA 2:3D 世界的智能新物种

2025-11-20

一、SIMA 2:3D 世界的智能新物种

DeepMind 于 2025 年 11 月 13 日正式发布 SIMA 2(Scalable Instructable Multiworld Agent,可扩展的可指令多世界智能体),这是一个能在虚拟 3D 世界中自主游戏、推理并持续学习的通用 AI 智能体,被官方称为 “为虚拟 3D 世界打造的最强大 AI 代理”。deepmind.google

二、核心能力:从指令执行者到智能伙伴

1️⃣ 超越指令跟随的思考能力

  • 不仅能理解指令,还能思考并推理指令,将用户高级目标拆解为执行步骤
  • 能解释自身行动意图,与用户进行自然对话式交互,使协作更透明
  • 可理解抽象概念(如 “找到安全的地方”” 准备过夜材料 “),远超简单动作指令

2️⃣ 多模态交互:全方位感知世界

  • 支持文本、语音、图形、表情符号等多种输入方式
  • 用户可通过草图直接指导:画出目标物体,AI 理解后执行搜索或建造
  • 能理解不同语言指令,具备跨文化交互能力

3️⃣ 强大的泛化与适应能力

  • 从未训练过的游戏(如 Viking 生存游戏 ASKA、Minecraft 研究版)中任务成功率显著提升
  • 能将在一款游戏中学习的技能(如 “采矿”)迁移到另一款游戏的类似情境(如 “收获”)
  • 与 DeepMind 另一项突破性技术Genie 3(能从单张图像生成 3D 世界)结合时,能在完全陌生的虚拟环境中快速适应并执行任务

4️⃣ 革命性的自我改进机制

  • 无需人类干预,通过自我试错和 Gemini 提供的反馈进行迭代优化
  • 能从初始人类演示过渡到完全自主学习,在新游戏中通过自我游戏提升技能
  • 建立自我生成经验库,用于训练下一代更强大的 AI 版本

三、技术核心:Gemini 赋能的 “思维 – 感知 – 行动” 架构

🌟 三层 “Gemini-SIMA Fusion” 架构 🌟

层级 核心组件 功能说明
决策中枢 Gemini 大语言模型 (Pro 1.5/2.5 Flash-lite) 高级理解、任务规划、语言交互、逻辑推理
视觉 – 动作层 视觉 – 动作 Transformer 模型 仅通过像素输入理解 3D 环境,输出键盘鼠标精确操作
思维令牌桥梁 连接层 实现语言、视觉、动作三流合一,使抽象思维能指导具体行动
核心创新:通过 “思维令牌”(Thought Tokens) 将 Gemini 的抽象推理与底层动作执行无缝连接,使 AI 能在保持高级思考的同时完成精确操作

四、性能飞跃:接近人类水平的 3D 世界能力

🔥 关键性能数据 🔥

  • 任务成功率:从 SIMA 1 的 31%跃升至 65%几乎翻倍,首次 ** 接近人类玩家 75%** 的水平
  • 未训练游戏中的表现提升更为显著,展现出强大的泛化能力
  • 能完成更长、更复杂的任务链,支持多步骤推理

最新文章

SIMA 2:3D 世界的智能新物种

推荐

 

阅读12150

理想 i 系列:”ICU”?不,只是 “发烧”,且已有退烧药

推荐

 

阅读11551

理想汽车 “大反思”:承认节奏变慢,告别 “套娃” 设计

推荐

 

阅读13428

萨默斯因爱泼斯坦丑闻辞去 OpenAI 董事会职务

推荐

 

阅读17110

英伟达 Q3 财报:净利润暴增 65%,全面超预期!

推荐

 

阅读13101