一、重磅工具:谷歌Gemini变身通用智能体,从“聪明”升级到“能干”
新闻:本周谷歌发布的两项新功能共同让Gemini CLI成为功能强大的通用AI智能体。
谷歌发布了Gemini 2.5计算机使用模型(Gemini 2.5 Computer Use)。这是一款专用的Gemini 2.5模型,能够操作用户交互界面来完成任务。新模型支持开发者在在浏览器与移动应用中构建具备点击、滚动、文本输入及表单填写能力的AI智能体,通过名为computer_use的工具控制计算机。新模型在网页和移动设备控制基准测试中表现优于竞争对手,WebVoyager测试成绩为79.9%,且延迟较低。Gemini 2.5计算机使用模型现可通过Gemini API调用。
谷歌开源AI编程智能体Gemini CLI现已支持扩展机制。这使得Gemini CLI能够连接各种工具,并利用“playbook”和用户自定义扩展来个性化开发者的工作流程,成为更强大更通用的AI智能体。谷歌公布了首批支持Gemini CLI扩展的合作伙伴名单,其中包括Figma、Shopify、Stripe等。
锐评:感觉自己的工位岌岌可危。
二、AI技术与产品发布:人形机器人、脑机接口争相落地
1. 新闻:Figure AI公司发布第三代人形机器人Figure03。该机器人拥有5小时续航、无线充电功能和增强的传感器,搭载的Helix AI系统可实现视觉、语言与行动的控制能力。Figure AI已建成年产1.2万台机器人的生产线,计划实现规模化量产。
2. 新闻:OpenAI在开发者日 (DevDay) 上发布多项更新,涉及AI模型、Codex和ChatGPT功能。
ChatGPT应用平台及Apps SDK支持用户在对话界面直接运行第三方应用,OpenAI携手Spotify和Canva等合作伙伴打造了聊天优先的软件生态,为用户逐步构建交互式、个性化的操作系统级体验。
AgentKit则是一个用于构建、部署和评估智能体工作流的工具集。其中包括用于创建和部署AI智能体的低代码可视化网页应用Agent Builder、可嵌入聊天界面的ChatKit UI SDK以及智能体评估工具Evals。
OpenAI还全面开放Codex,新增Slack集成与TypeScript优先的SDK,强化了企业用户管理功能。
OpenAI的API新增GPT-5 Pro和Sora 2模型,并推出GPT-realtime-mini语音转语音API,这款速度快、延迟低的语音转语音模型能为语音助手和对话式应用提供高质量的语音效果。