苹果探索自研多模态AI模型Manzano

2025-09-28

苹果正在探索的自研多模态 AI 模型Manzano，是其在人工智能领域的一次重要技术突破。该模型旨在实现图像理解与生成的双重能力，解决传统模型在多模态任务中顾此失彼的问题。以下是基于公开信息的深度解析：

Manzano 的核心创新在于共享编码器 + 双适配器结构，通过同一视觉编码器生成两种类型的图像标记：

连续标记（浮点数形式）：用于图像理解任务（如图表分析、文档阅读），在文本密集型场景中表现突出，例如 ScienceQA 基准测试中，300 亿参数版本的成绩已接近 OpenAI GPT-4o 和谷歌 Gemini 2.5。
离散标记（固定类别划分）：用于文本到图像生成任务，支持风格迁移、多图层合成等高阶操作，生成分辨率可达 2048 像素。

这种设计通过统一语义空间，显著缓解了传统模型中理解与生成任务的冲突，使 Manzano 在统一架构下实现 SOTA 性能。

模型训练分为三个阶段，累计处理 1.6 万亿标记：

预训练：使用 23 亿对图文数据（包括 CC3M、COYO 等公开数据集）和 10 亿对文本 – 图像数据，覆盖纯文本、图文交错、图像到文本（I2T）、文本到图像（T2I）等多种场景。
继续预训练：聚焦高质量 I2T 和 T2I 数据，进一步优化语义对齐。
监督微调（SFT）：通过精心策划的指令数据，提升模型对复杂任务的响应能力。

Manzano 采用解耦式架构，各组件可独立升级：

实验表明，模型性能随参数增加持续提升，例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。

在涉及复杂排版、多语言文本的任务中，Manzano 展现出显著优势：