返回 hu86科技
   

AI的下一站在哪?“教母”李飞飞发万字长文,给出了答案

2025-11-11
李飞飞在其最新万字长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》中提出,AI 的下一站将从 “语言模型” 迈向 “世界模型”,核心突破口是空间智能(Spatial Intelligence)。这一能力的缺失导致现有 AI 如同 “黑暗中的文匠”—— 能言善辩却脱离现实,而空间智能正是解锁通用人工智能(AGI)的关键密钥。以下是其核心观点及突破性方向:

一、AI 的致命短板:缺失空间智能

  1. 物理世界的盲人

    现有 AI 缺乏对距离、大小、方向及物理规律的理解。例如,它能写诗作画,却无法解答 “迷宫出口在哪里” 的简单问题;生成的视频常出现物体穿墙、手指数量异常等穿帮镜头。这种缺陷直接制约了 AI 在机器人、药物研发、工业设计等需要三维空间推理领域的应用。

  2. 人类智能的底层基石

    空间智能是人类认知的 “脚手架”。婴儿通过抓握、扔掷等动作探索世界,成年人侧方停车时无需计算即可感知距离,沃森和克里克通过搭建 3D 模型发现 DNA 结构 —— 这些能力都依赖空间智能。它不仅是日常生存的基础,更是创造力、科学发现和文明进步的源泉。

二、空间智能的三大核心突破方向

李飞飞提出,真正的 “世界模型” 需具备生成性、多模态、交互性三位一体的能力:
  1. 生成性:创造符合物理规律的 3D 世界

    模型需能生成遵循重力、几何规则的虚拟环境。例如,当输入 “推一下积木”,模型应能预测积木倒塌的方向和轨迹。李飞飞团队创立的 World Labs 正在研发的 Marble 模型,已能通过语言提示生成可交互的 3D 场景,未来有望让电影制作人、建筑师无需复杂工具即可创建虚拟世界。

  2. 多模态:融合感官与符号的全面感知

    模型需同时处理视觉、语言、深度信息、手势等多模态数据。例如,家庭机器人不仅要听懂 “热午餐” 的指令,还需识别冰箱位置、微波炉操作界面,并判断餐具的抓取角度。李飞飞团队 2025 年的研究成果显示,通过 “map-then-reason” 框架(先生成认知地图再推理),模型在空间布局理解任务中的准确率从 37.8% 提升至 70.7%。

  3. 交互性:预测行动的因果关系

    模型需能模拟 “动作 – 结果” 的因果链。例如,当机器人在厨房打翻水杯,它应能预判水会溅出并采取措施。这种能力将推动具身智能的实质性突破 —— 未来机器人可在模拟环境中学会数千种技能,如照顾老人、手术辅助等,再迁移至真实世界。

最新文章

未来展望:从 “规模扩张” 到 “价值深耕”

推荐

 

阅读12119

中国电视市场连续四月下滑、10 月出货量暴跌

推荐

 

阅读19293

告别奥博穆时代,保时捷加速落子研发”中国棋”

推荐

 

阅读10370

伦理与责任:AI 的终极定位是 “赋能者”

推荐

 

阅读14615

AI的下一站在哪?“教母”李飞飞发万字长文,给出了答案

推荐

 

阅读12289