返回 hu86科技

苹果探索自研多模态AI模型Manzano

2025-09-28
苹果正在探索的自研多模态 AI 模型Manzano,是其在人工智能领域的一次重要技术突破。该模型旨在实现图像理解与生成的双重能力,解决传统模型在多模态任务中顾此失彼的问题。以下是基于公开信息的深度解析:

一、核心技术架构与创新

1. 混合图像分词器(Hybrid Tokenizer)

Manzano 的核心创新在于共享编码器 + 双适配器结构,通过同一视觉编码器生成两种类型的图像标记:
这种设计通过统一语义空间,显著缓解了传统模型中理解与生成任务的冲突,使 Manzano 在统一架构下实现 SOTA 性能。

2. 三阶段训练策略

模型训练分为三个阶段,累计处理 1.6 万亿标记:

3. 模块化设计与扩展能力

Manzano 采用解耦式架构,各组件可独立升级:
实验表明,模型性能随参数增加持续提升,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。

二、性能表现与行业对比

1. 文本密集型任务的突破

在涉及复杂排版、多语言文本的任务中,Manzano 展现出显著优势:

最新文章

顶奢出行新标杆!新款别克世纪CENTURY发布,32寸升降屏+四座奢享座舱

汽车

 

阅读15352

芯片界地震!M1之父再创业,组建最强天团,要彻底重写规则

数码

 

阅读10168

三年十亿,五年百亿,八年千亿!智元机器人引爆具身智能新赛道

综合

 

阅读12735

从写代码到控电脑:OpenAI Codex进化,AI超级应用迈出关键一步

科技

 

阅读13903

太空再添新足迹!神二十一乘组完美出舱,中国航天员出舱次数创新高

综合

 

阅读14353