谷歌研究:合成数据使大模型数学推理能力提升八倍
最近,来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。
据专注于人工智能发展的研究机构 Epoch AI 报告显示,目前全球约有 300 万亿个公开可用的高质量文本训练标记。然而,随着类似 ChatGPT 这样的大模型的迅猛发展,对训练数据的需求呈指数级增长,预计到 2026 年之前,这些数据将被耗尽。因此,合成数据成为了至关重要的替代方案。
据IT之家了解,研究人员主要探索了两种合成数据类型:正向数据和负向数据。正向数据是指由高性能大模型(如 GPT-4 和 Gemini 1.5 Pro)生成的正确问题解决方案,为模型提供解决数学问题的示例。但仅依靠正向数据进行训练存在局限性。一方面,这种方法可能无法完全揭示问题解决过程背后的逻辑,模型可能会通过模式匹配来学习,而缺乏真正的理解;另一方面,随着训练数据量的增加,模型可能会学到虚假的相关性,导致在处理新问题时泛化能力下降。
鉴于此,研究人员引入了负向数据,即经过验证为错误的问题解决步骤。这有助于模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误的步骤可能包含误导性信息,但研究人员通过直接偏好优化(DPO)方法成功地使模型能够从错误中学习,强调了每个问题解决步骤的重要性。
DPO 方法为每个问题解决步骤分配一个优势值,反映其相对于理想解决方案的价值。研究表明,高优势步骤是正确解决方案的关键,而低优势步骤可能表明模型推理中存在问题。利用这些优势值,模型可以在强化学习框架内动态调整其策略,从而更高效地从合成数据中学习和改进。
为了验证合成数据的有效性,研究团队使用 DeepSeek-Math-7B 和 LLaMa2-7B 等模型,在 GSM8K 和 MATH 数据集上进行了全面测试。结果显示,经过正向和负向合成数据预训练的大模型在数学推理任务上的性能实现了八倍的提升。这一研究充分展示了合成数据在增强大模型逻辑推理能力方面的巨大潜力。
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 一看吓一跳:雷死人不偿命的囧图集(1033)
- 经典MMORPG《冒险岛M》上线PC!盘点3月外服端游
- 一看吓一跳:雷死人不偿命的囧图集(1035)
- 一看吓一跳:雷死人不偿命的囧图集(1034)
- 正惊GIF:人神共愤!如此漂亮女教师被气到动手,学生竟一脸无所谓
- 颜值COS,玉足、白丝过膝袜,体操服双马尾,简直太迷人
- 一看吓一跳:雷死人不偿命的囧图集(1036)
- 热游情报:宝可梦、守望、古印度黑猴新作曝光!首款二次元GTA抢先定档
- 2月多款重磅新游测试:腾讯网易完美新作齐发、经典韩国MMO新作
- 《蔚蓝档案》「白丝透肤VS发光腹肌!砂狼白子体操服侧拍,腰线凹陷度堪比3D建模」
- 「体操服の‘液态曲线’!橘望顶配身材|白丝厚D呼之欲出,腰臀比秒杀建模」
- 《燕云十六声》掌中宝+特殊蹊跷位置大全,三寸之身任务合集,仅剩7天10连抽连袅袅之音!
- 经典MMORPG《冒险岛M》上线PC!盘点3月外服端游
- 「纯欲天花板」2B花嫁撕破次元!白丝过膝陷肉感,透粉脚底VS发光蛮腰の双重暴击
- 《传奇5》真的要来了?还有《绝地求生》衍生作上线!盘点2026年能够玩到的韩国游戏
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 和平精英2025灵敏度分享码:最稳压枪灵敏度方案推荐
- AI大姐姐:胸猛美女,挑战你的视觉极限(221)
- 《魔兽世界》时光服:附魔1-450快速性价比冲级攻略



