近期,OpenAI正式发布全新模型GPT-5.4,被誉为“迄今最强大、最高效的前沿模型”。与以往版本不同,此次发布的GPT-5.4实现了推理、编程、Agent三位一体的大一统突破,最令人惊艳的是其原生电脑操控能力,标志着AI正式从“对话助手”升级为“行动伙伴”,人机协作进入全新阶段。
GPT-5.4的核心突破的是原生电脑操控功能,这也是OpenAI首个原生支持计算机操控的通用模型。与以往依赖API和聊天窗口的交互模式不同,GPT-5.4可以像人类一样操作电脑,看屏幕截图、识别界面元素、点击鼠标、敲击键盘,跨应用完成复杂任务,真正实现了“动手干活”的能力。在OSWorld桌面环境操控测试中,GPT-5.4的成功率达到75.0%,不仅超过了人类表现的72.4%,更较前代GPT-5.2的47.3%实现了质的飞跃。
除了电脑操控,GPT-5.4在上下文窗口、专业能力、交互体验等方面也实现了全面升级。该模型支持高达100万token的上下文窗口,相当于750万字的中文文本,能够一次性“记住”海量信息,彻底解决了前代模型“记性不够”的问题,让Agent可以在超长任务链中持续规划、执行和验证,普通用户的长时间多轮对话也能保持连贯。
在专业能力方面,GPT-5.4的表现同样亮眼。在覆盖美国GDP贡献最高的9个行业、44种职业的GDPval基准测试中,该模型在83.0%的比较中达到或超过行业专业人员水平,较前代GPT-5.2的70.9%大幅提升。其中,投行建模测试得分从68.4%跃升至87.3%,PPT生成评测中,68%的评审更偏好GPT-5.4的结果,在办公场景中展现出极强的实用性。
交互体验上,GPT-5.4新增的Thinking模式彻底改变了以往“干等回复”的痛点。模型会先展示思考计划,用户可在回答过程中随时打断,补充信息、调整方向,模型能立刻融入新指令继续生成,大幅提升了交互效率。同时,其深度网页搜索能力也显著提升,BrowseComp测试得分从65.8%升至82.7%,GPT-5.4 Pro更是创下89.3%的新纪录。
此外,GPT-5.4还实现了更省Token、更少幻觉的务实进步,单条事实错误率较前代降低33%,完整回复错误率降低18%,同时解决同样问题的推理Token消耗大幅减少,为开发者降低了使用成本。工具搜索机制的创新,让模型按需检索工具定义,Token消耗减少47%,进一步提升了使用效率。
GPT-5.4的发布,标志着AI正在从“对话”走向“行动”,人机协作进入全新阶段。当AI能够直接操作电脑、处理表格、撰写报告,我们离“AI同事”的愿景越来越近。未来,随着技术的不断迭代,AI将在更多领域赋能人类,重塑工作与生活的方式。