AI的下一站在哪？“教母”李飞飞发万字长文，给出了答案

2025-11-11

李飞飞在其最新万字长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》中提出，AI 的下一站将从 “语言模型” 迈向 “世界模型”，核心突破口是空间智能（Spatial Intelligence）。这一能力的缺失导致现有 AI 如同 “黑暗中的文匠”—— 能言善辩却脱离现实，而空间智能正是解锁通用人工智能（AGI）的关键密钥。以下是其核心观点及突破性方向：

一、AI 的致命短板：缺失空间智能

物理世界的盲人

现有 AI 缺乏对距离、大小、方向及物理规律的理解。例如，它能写诗作画，却无法解答 “迷宫出口在哪里” 的简单问题；生成的视频常出现物体穿墙、手指数量异常等穿帮镜头。这种缺陷直接制约了 AI 在机器人、药物研发、工业设计等需要三维空间推理领域的应用。
人类智能的底层基石

空间智能是人类认知的 “脚手架”。婴儿通过抓握、扔掷等动作探索世界，成年人侧方停车时无需计算即可感知距离，沃森和克里克通过搭建 3D 模型发现 DNA 结构 —— 这些能力都依赖空间智能。它不仅是日常生存的基础，更是创造力、科学发现和文明进步的源泉。

二、空间智能的三大核心突破方向

李飞飞提出，真正的 “世界模型” 需具备生成性、多模态、交互性三位一体的能力：

生成性：创造符合物理规律的 3D 世界

模型需能生成遵循重力、几何规则的虚拟环境。例如，当输入 “推一下积木”，模型应能预测积木倒塌的方向和轨迹。李飞飞团队创立的 World Labs 正在研发的 Marble 模型，已能通过语言提示生成可交互的 3D 场景，未来有望让电影制作人、建筑师无需复杂工具即可创建虚拟世界。
多模态：融合感官与符号的全面感知

模型需同时处理视觉、语言、深度信息、手势等多模态数据。例如，家庭机器人不仅要听懂 “热午餐” 的指令，还需识别冰箱位置、微波炉操作界面，并判断餐具的抓取角度。李飞飞团队 2025 年的研究成果显示，通过 “map-then-reason” 框架（先生成认知地图再推理），模型在空间布局理解任务中的准确率从 37.8% 提升至 70.7%。
交互性：预测行动的因果关系

模型需能模拟 “动作 – 结果” 的因果链。例如，当机器人在厨房打翻水杯，它应能预判水会溅出并采取措施。这种能力将推动具身智能的实质性突破 —— 未来机器人可在模拟环境中学会数千种技能，如照顾老人、手术辅助等，再迁移至真实世界。

AI的下一站在哪？“教母”李飞飞发万字长文，给出了答案

一、AI 的致命短板：缺失空间智能

二、空间智能的三大核心突破方向

最新文章