苹果新 AI 论文:微调 Qwen3-Coder,生成 UI 能力逆袭 GPT-5
苹果AI新突破:Qwen3-Coder微调后UI生成能力超越GPT-5!揭秘181张草图如何让小模型逆袭,探索AI设计工具的未来进化。
2 月 6 日消息,科技媒体 9to5Mac 今天(2 月 6 日)发布博文,报道称苹果公示最新 AI 研究论文,利用生成式 AI 优化 App 界面(UI)开发,经过特定方法微调的 Qwen3-Coder 模型,在 UI 生成能力上击败了 GPT-5。
援引博文介绍,该论文由苹果 UICoder 团队发表,主要是探索生成式 AI 如何更高效地融入 App 开发流程。
论文指出目前主流的“人类反馈强化学习”(RLHF)并不适合 UI 设计领域。传统的 RLHF 通常要求人类对 AI 生成的结果进行简单的“点赞 / 点踩”或排序。
然而,这种二元评价体系忽略了设计背后的复杂逻辑,也无法体现设计师的工作流。简单来说,AI 只知道“这个不好”,却不知道“哪里不好”或“怎么改才好”。
苹果为了解决上述问题,招募了 21 位拥有 2 至 30 年经验的专业设计师参与实验。不同于以往的打分模式,设计师需要直接通过撰写评论、绘制草图甚至直接修改代码来优化 AI 生成的界面。

团队收集了 1460 条此类深度注释,并将“修改前”与“修改后”的对比数据输入到一个奖励模型中。该模型通过学习截图和自然语言描述,学会了像人类设计师一样判断 UI 的美观度与功能性。
实验数据显示,基于“草图反馈”训练的模型表现最为优异。令人惊讶的是,仅依靠 181 个草图注释进行微调,该模型就实现了对 GPT-5 的超越。研究团队表示,这证明了“少而精”的专家级反馈能让小参数模型在特定领域展现出超越大模型的潜力。

研究还揭示了一个关键现象:设计审美具有高度主观性。在单纯的排序任务中,研究人员与设计师的观点一致率仅为 49.2%,几乎等同于抛硬币。
然而,当设计师通过草图或直接编辑来表达意图后,双方的一致率分别飙升至 63.6% 和 76.1%。这表明,在定义“什么是更好的设计”时,具体的视觉修改(Show)远比抽象的评分(Tell)更具共识价值,这也是未来 AI 辅助设计工具进化的核心方向。
参考
苹果官网:Improving User Interface Generation Models from Designer Feedback
arxiv:Improving User Interface Generation Models from Designer Feedback
- 1曾经的3D《DNF》回来了!第一热血硬派ACT网游是否值得一玩?
- 2对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 3掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5《上古世纪归来》公布先驱测试计划 原厂正版授权重启经典端游
- 6《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 7风靡全球的《宝可梦GO》 把300亿张照片卖给了美国军方
- 8《剑星:血雨》新女主伊薇太幼引争议 网友举例韩妹打脸老外
- 9Steam新品节,但文艺复兴:韩产手游《泽诺尼亚》时隔18年移植pc
- 10八年磨一剑!《太吾绘卷:天幕心帷》完整版今日正式上线

