苹果正在探索的自研多模态 AI 模型Manzano,是其在人工智能领域的一次重要技术突破。该模型旨在实现图像理解与生成的双重能力,解决传统模型在多模态任务中顾此失彼的问题。以下是基于公开信息的深度解析:
一、核心技术架构与创新
1. 混合图像分词器(Hybrid Tokenizer)
Manzano 的核心创新在于共享编码器 + 双适配器结构,通过同一视觉编码器生成两种类型的图像标记:
- 连续标记(浮点数形式):用于图像理解任务(如图表分析、文档阅读),在文本密集型场景中表现突出,例如 ScienceQA 基准测试中,300 亿参数版本的成绩已接近 OpenAI GPT-4o 和谷歌 Gemini 2.5。
- 离散标记(固定类别划分):用于文本到图像生成任务,支持风格迁移、多图层合成等高阶操作,生成分辨率可达 2048 像素。
这种设计通过统一语义空间,显著缓解了传统模型中理解与生成任务的冲突,使 Manzano 在统一架构下实现 SOTA 性能。
2. 三阶段训练策略
模型训练分为三个阶段,累计处理 1.6 万亿标记:
- 预训练:使用 23 亿对图文数据(包括 CC3M、COYO 等公开数据集)和 10 亿对文本 – 图像数据,覆盖纯文本、图文交错、图像到文本(I2T)、文本到图像(T2I)等多种场景。
- 继续预训练:聚焦高质量 I2T 和 T2I 数据,进一步优化语义对齐。
- 监督微调(SFT):通过精心策划的指令数据,提升模型对复杂任务的响应能力。
3. 模块化设计与扩展能力
Manzano 采用解耦式架构,各组件可独立升级:
- LLM 解码器:参数规模从 300M 到 30B,支持自回归预测文本和图像标记。
- 图像解码器:提供三种配置(0.9B、1.75B、3.52B 参数),支持从 256 到 2048 像素的输出分辨率,兼顾效率与画质。
实验表明,模型性能随参数增加持续提升,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。
二、性能表现与行业对比
1. 文本密集型任务的突破
在涉及复杂排版、多语言文本的任务中,Manzano 展现出显著优势:
- 文档分析:可精准识别图表、表格中的数据,并生成结构化解读。
- 跨模态推理:例如根据 “分析这幅电路图并解释其工作原理” 的指令,同时完成图像理解与技术文本生成。