苹果训练了更小的 AI 模型,使其在描述图片方面比大型竞争对手更出色
苹果公布新技术“RubiCap”用于图像描述
苹果公司科学家开发了一种名为*RubiCap*的方法,能够让小型 AI 模型生成比大型同类模型更准确、更细致的图片描述。
RubiCap 的工作原理
1. 图像解析
为了形成详细文本,模型首先识别画面中的众多对象和区域。这提供了对构图的深入理解,而非表面的描述。
2. 实际价值
这些技能适用于训练子 AI 模型、基于文本生成图片以及专用功能(例如提升视觉内容)。
3. 资源问题
传统的详细描述系统训练方法在初始阶段和后续强化学习中都需要大量计算资源。
实验方法
- 图像选择 – 随机挑选了 50,000 张来自 *PixMoCap* 和 *DenseFusion‑4V‑100K* 数据集的图片。
- 描述生成 – 使用现有计算机视觉模型:Google Gemini 2.5 Pro、OpenAI GPT‑5、Alibaba Qwen 2.5‑VL‑72B‑Instruct、Google Gemma‑3‑27B‑IT 以及 Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct,和正在训练的苹果模型。
- 质量评估 – Gemini 2.5 Pro 担任专家角色:它分析描述,识别匹配与错误,并制定明确的评估标准。
- 审核评分 – 模型 Qwen 2.5‑7B‑Instruct 根据每个标准给出分数,并为训练模型生成奖励信号。
结果
- 训练模型获得了具体反馈,使其能够快速提升描述准确性,而不必依赖单一“正确”答案。
- 最终苹果推出了三款自有模型:RubiCap‑2B、RubiCap‑3B 和 RubiCap‑7B(分别为 20 亿、30 亿和 70 亿参数)。
- 在图像描述任务测试中,RubiCap 超越了竞争对手,即使在拥有 320 亿甚至 720 亿参数的模型中也表现优异。在某些情况下,RubiCap‑3B 的结果比 RubiCap‑7B 更好,证明模型大小并不总能保证更佳性能。
因此,RubiCap 技术展示了如何用更少资源和更高效训练实现高质量图像描述。
评论 (0)
分享你的想法——请保持礼貌并围绕主题。
登录后发表评论