新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

苹果联合打造 RubiCap 框架：让 AI 描述图像每个细节，性能击败 10 倍体量对手

2026-03-26 10:05:23 神评论

17173 新闻导语

苹果RubiCap AI框架革新图像描述，小模型击败720亿参数对手！了解如何用强化学习实现精准细节描述，提升视觉语言模型性能。

3 月 26 日消息，科技媒体 9to5Mac 昨日（3 月 25 日）发布博文，报道称苹果公司携手威斯康星大学麦迪逊分校，联合发布名为 RubiCap 的全新 AI 训练框架，主要用于优化“密集图像描述”模型的训练流程。

注：密集图像描述（Dense Image Captioning）是一种先进的计算机视觉技术。与只给出一句整体描述不同，该技术能识别图片中的各个局部区域（如“桌子上的红苹果”、“远处的行人”），并为每个细节生成精准的文字说明。

这项技术在训练视觉语言模型、文本生成图像以及改善无障碍工具等领域具有核心价值。研究人员指出，传统的训练方法面临着人工标注成本过高的问题；而利用现有大模型生成合成数据的替代方案，则容易导致模型输出缺乏多样性且泛化能力较弱。

苹果研究团队为了攻克上述难题，创新设计全新强化学习机制。系统首先从数据集中抽取 5 万张图像，并调用 GPT-5、Gemini 2.5 Pro 等前沿大模型生成候选描述。

随后，系统利用 Gemini 2.5 Pro 分析候选内容，提炼共识与遗漏点，进而将其转化为清晰的评分标准。最后，由 Qwen2.5 模型担任“裁判”，根据这些标准对描述进行打分。这种机制为模型提供了结构化的精准反馈，让其明确知道该如何修正错误。

苹果基于这一框架，最终训练出了参数量分别为 20 亿、30 亿和 70 亿的三个 RubiCap 模型。测试数据显示，这些紧凑型模型展现出了惊人的效率，其中 70 亿参数模型在盲测中获得了最高的排名，并实现了最低的“幻觉”错误率，全面超越了参数量高达 720 亿的前沿大模型。

更值得一提的是，30 亿参数的微型模型在部分测试中甚至反超了 70 亿参数版本，进而充分证明，高质量的图像描述模型可以摆脱对庞大参数量的绝对依赖。

附上参考地址

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

DenseCap: Fully Convolutional Localization Networks for Dense Captioning

【来源：IT之家】

关于RubiCap,密集图像描述,AI训练框架,苹果公司,强化学习,Gemini 2.5 Pro,GPT-5,Qwen2.5,视觉语言模型,图像描述模型的新闻

今日热点

告别屠龙主线！《激战3》重磅爆料全文翻译+解析！

《古剑》41分钟实机演示首曝《终末地》云游戏不限量测试

又一款MMO端游大作来袭《永恒之塔2》国服发布会预告

《魔兽世界》国服整治公告《魔兽世界》TBC周年大更：双经典团本回归！

热门测试游戏

热门新闻排行

Wan网页游戏**玩