一、重磅工具:AI图像编辑火爆——NanoBanana火爆登场、Qwen-Image Edit争艳
新闻: NanoBanana是一款新发布的AI图像生成模型,在LMArena平台上一经亮相,便因其出色的图像编辑效果而迅速走红,引发热烈反响。NanoBanana具备直观的自然语言控制功能和高保真编辑能力,能够根据用户提示精确修改图像,比如添加或移除物体、更换背景、应用各种艺术风格,还能生成或精修人像。
从技术层面看,NanoBanana模型似乎在底层采用了基于体积或神经场的实体建模技术,从而在编辑过程中保持空间与风格的一致性。这使得它成为一款具备Photoshop级别编辑能力的AI提示词驱动工具,既能保留真实图像中的既有元素,又能无缝添加逼真元素。
外界普遍认为NanoBanana是谷歌的下一代Imagen模型,但谷歌官方唯一的确认是公司员工洛根·基尔帕特里克(Logan Kilpatrick)在社交媒体X上发了一个香蕉表情符号。X平台上也有人声称NanoBanana模型来自Higgsfield公司,但目前尚无官方消息。目前LMArena上线的NanoBanana仍是有限的公开预览,此外,NanoBanana也已上线了Dzine等其他一些图像生成平台。
无独有偶,阿里巴巴的通义千问团队也发布了开源图像编辑模型Qwen-Image Edit,该模型能够通过文本提示实现类似Photoshop的图像编辑。Qwen-Image Edit基于近期发布的Qwen-Image模型构建,既能处理广泛的语义转换,也能进行精细的外观更改,并支持中英文。该模型已在Hugging Face上线,也可通过通义千问(QwenChat)的API使用。
锐评: 神秘的NanoBanana和阿里的Qwen争相上岗,以后“眼见为实”可能要成为历史了。
二、AI技术与产品发布——字节、英伟达、谷歌齐发力,大模型迎来“内卷”新高潮
1. 新闻: 深度求索(DeepSeek)发布DeepSeek-V3.1。这款混合思维模型拥有更高效的推理能力、更强的搜索推理能力以及更出色的工具调用和智能体能力。其混合思维模式可以在“思考”和“非思考”模式间切换,从而优化性能和效率。该模型性能大幅领先深度求索前代R1模型,同时使用的“思考”词元(token)更少。例如,DeepSeek-V3.1在SWE-Bench测试中的得分率为66%,Aider Polyglot测试得分率为76%。 DeepSeek-V3.1是一款开源的混合专家模型(MoE),总参数量6710亿,激活参数量为370亿,上下文长度为128K。模型还采用FP8精度格式进行了优化,暗示未来有望大规模使用国产芯片,受此影响,国产芯片股价在周五暴涨。目前,DeepSeek-V3.1-Base和DeepSeek-V3.1均已在HuggingFace上线。
锐评: 深度求索的新模型不仅学会了“劳逸结合”,还特意为国产芯片“穿上了合脚的鞋”。