返回 hu86科技

双芯划时代!谷歌第八代TPU降临,AI推理延迟彻底归零,智能体秒级响应

2026-04-23

  当地时间4月22日,谷歌在Cloud Next 2026大会上正式发布第八代张量处理器TPU,与前代单一芯片策略不同,本次谷歌首次推出两款差异化新品——TPU 8t与TPU 8i,分别专攻AI训练与推理,以双芯架构直击智能体时代的算力痛点,一举终结长期困扰行业的推理延迟难题,让AI智能体实现真正的“随叫随到”。

  随着AI从大模型训练迈向自主智能体落地,训练与推理的硬件需求愈发分化。训练追求极致吞吐量与扩展性,推理则核心依赖低延迟与高并发。谷歌精准切入这一趋势,将第八代TPU彻底拆分,实现训推赛道的专业化分工。其中TPU 8t主打超大规模模型训练,采用全新Virgo网络拓扑,单一集群可连接超13.4万块芯片,算力突破160万ExaFlops,存储读取速度较上代提升10倍,同等成本下性能飙升2.8倍,能将前沿大模型的开发周期从数月压缩至数周。

  而TPU 8i作为本次突破的核心,专为低延迟推理量身打造,是终结延迟的关键利器。它搭载384MB片上SRAM,容量达上一代3倍,可将大规模KV Cache完整留存芯片内,大幅减少长上下文解码的等待耗时。同时新增CAE集合通信加速引擎,让多芯片协同聚合延迟降低5倍,配合Boardfly全新互联拓扑,芯片间数据传输跳数从16跳锐减至7跳,传输速度直接翻倍。此外,TPU 8i首次将光路交换机OCS引入推理场景,依托光信号直连优势,完美适配混合专家模型的跨芯片通信需求,进一步消除延迟瓶颈。

  性能层面,TPU 8i较第七代TPU性价比提升80%,每瓦性能提升117%,可同时支撑数百万个AI智能体并发运行,响应速度突破毫秒级。无论是企业级数字员工的实时决策、多模态交互的即时反馈,还是自主智能体的场景模拟与深度逻辑推理,都能实现无感知等待,彻底告别以往AI回应的卡顿与滞后。

  此次谷歌第八代TPU双舰齐发,不仅是AI芯片架构的重大转向,更标志着算力基础设施正式进入智能体时代。双芯协同覆盖AI全生命周期,以训练提效、推理破限的组合拳,为Gemini等前沿模型与各类自主智能体筑牢底层算力根基,推动AI从“可用”迈向“好用、常用”,加速千行百业的智能化变革。两款芯片预计2026年下半年正式上市,将全面开放给谷歌云客户,为全球AI产业注入强劲动力。

最新文章

iPad Pro 12.9 英寸(M4 版):创作生产力与移动工作站的终极融合

数码

 

阅读18439

华为 FreeBuds Pro 4:AI 降噪 + 无损音质重构无线耳机体验

科技

 

阅读17141

宇树科技 GD01:全球首款商用载人机甲开启具身智能新世代

科技

 

阅读17836

比亚迪海豹 06 GT:10 万级纯电运动轿跑的全民智驾范本

汽车

 

阅读17368

小米 17 Max:8000mAh 超大电池重塑旗舰续航标杆

数码

 

阅读16430