DeepSeek 凭借 IMO 金牌开源数学模型获得巨大收益
栏目:行业动态 发布时间:2025-11-28 13:38
据《机器之心》报道,随着《机器之心》编辑突破性推理模型的到来,DeepSeek 正在引领自我验证数学推理的方向。鲸鱼回来了!目前,DeepSeek 已悄悄向 Hugging Face 上传了一个新模型 DeepSeek-Math-V2。 顾名思义,这是一个数学模型。之前的版本 DeepSeek-Math-7b 已发布一年多前。当时,该模型仅使用了 7B 个参数,并达到了与 GPT-4 和 Gemini-Ultra 相当的性能水平。相关文章还首次介绍了GRPO,显着提升了数学推理能力。 时隔一年半,在DeepSeek-V3.2-Exp-Base基础上开发的DeepSeek-Math-V2又带来了哪些惊喜? DeepSeek 表示,它已经超越了 Gemini DeepThink,达到了 IMO Gold 性能水平。 文章标题:DeepSeekMath-V2:Hacia 一个自验证的数学推理模型 地址:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2 文章地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf 主要作者:邵志宏、罗宇翔、程达路和 Z.Z.任博士在DeepSeek文章的开头就指出了当前AI研究在数学推理方面的局限性。使用正确的最终答案作为奖励,对最终答案的准确性要求太高。虽然这种方法可以让推理模型达到更高的水平,甚至在 AIME 和 HMMT 等基准上达到饱和,但 DeepSeek 表示,它并没有解决核心问题。换句话说,正确答案是由推理过程决定的。这意味着无法保证信息的正确性。此外,许多数学任务(例如证明定理)需要严格的逐步推导响应,而不是简单的数字响应,这使得基于最终响应的奖励方法不合适。在深处Seek,我们相信突破深度推理的界限需要验证数学推理的广度和严谨性。他们指出,“在增加测试的计算规模时,自我验证尤其重要,特别是对于没有已知解决方案的开放问题。”为了实现自我验证的数学推理,DeepSeek 研究了如何训练准确可靠的基于 LLM 的定理证明验证器。然后,该验证器用作奖励模型来训练测试生成。我们运行生成器并鼓励您在最终完成测试之前发现并解决测试中尽可能多的问题。为了即使在生成器功率增加时也能保持生成和验证之间的差距,DeepSeek建议扩展验证计算能力以自动标记新的难以验证的测试,从而生成训练数据以进一步提高验证器性能。简单来说,DeepSeek文章的主要目标不仅仅是获得A我要做正确的事,同时也要让它“不仅做,还要检查自己,诚实地承认哪里错了”。为了实现这一目标,他们设计了一个包含三个主要功能的系统。这可以用“学生、老师、校长”的类比来理解。一是培养合格的“认证核查大师”。以前,当我们训练人工智能数学模型时,我们通常只看最终答案是否正确。然而,在高等数学考试题中(比如奥数),严格的过程比答案更重要。因此,DeepSeek 团队首先训练了专门的验证者,也称为“标记者”。这位老师不只是检查和交叉,而是学会将测试过程分为三个级别,就像人类专家所做的那样。 1分:完美,逻辑严谨。 0.5分:基本正确,但有小瑕疵,细节缺失。 0分:存在基本逻辑错误或错误严重的缺陷。除了评分之外,您还可以发表评论。在评分之前,模型需要编写一份分析报告,指出什么是对的,什么是错的。接下来,为老师分配一个“监督者”(Metacheck)。 DeepSeek 发现评分老师可以随机推断成绩的问题。尽管分数可能较低,但观察到的错误实际上并不存在(即,它产生了错觉)。为了解决这个问题,我们引入了元验证系统,相当于给老师分配“监督”。监考人员的工作不是看试题,而是专门检查老师写的“评语”是否合理。这会导致主管仔细检查老师指出的错误是否属实,以及推导是否符合逻辑。事实上,训练一个模型充当教师和监督者可以显着提高人工智能评估证书的准确性和可靠性。我们还培养学生re 有能力“生成自我验证证明”。有了良好的评分系统,下一步就是训练“学生”(生成器)回答问题。这里有一个非常重要的创新。这是一种对诚实的奖励机制。换句话说,模型不仅解决了问题,而且还自我评估。模型生成问题解决过程口号后,应立即进行“自我评估”并给自己打分(0、0.5 或 1)。诚实受到重视。如果模型犯了错误并在自我评估中诚实地指出错误,他们将获得奖励。相反,如果你做了错事,然后声称这是对的(盲目信任),甚至试图去做,如果你“做得太过分”,你就会受到惩罚(但不会得到丰厚的奖励)。目标是让AI在给出答案之前进行深入思考,尝试发现并纠正自己的错误,直到它认为自己确实答对了。最终形成自动化闭环(Synergy)。人类专家回答千由于不可能写出彼此之间详细的逐步得分,DeepSeek 设计了一个自动化流程,允许系统通过“相互竞争”来进化。批量生成:让“学生”对同一问题生成多个答案。小组投票:让“老师”对这些解决方案进行多次评分。如果大多数评估都认为解决方案有问题,则该解决方案被认为是有问题的。如果没有发现漏洞,则认为是正确的。为支持而战。这样,系统自动挑选出难以正确判断或回答的问题,作为新的教材,对教师和学生进行再教育。就这样,随着“学生”解决问题的能力越来越强,“老师”的眼光也越来越猛。换句话说,DeepSeekMath-V2方法论本质上从“结果导向”转变为“过程导向”。而不是相对利用数学问题答案中的大量数据,我们教人工智能如何像数学家一样严格地审查测试过程(包括它自己的审查),从而不断提高您在没有人工干预的情况下解决困难数学问题的能力。他们最终得到了 DeepSeekMath-V2 模型。该模型展示了证明定理的强大能力。它在 IMO 2025 和 CMO 2024 上取得了金级成绩,在 Putnam 2024 扩展测试计算中获得了近乎满分的 118/120 分。 下图显示了 DeepSeekMath-V2 在 IMO-ProofBench 基准(IMO Bench 的子集,有 60 个测试问题)上的性能。在基础测试中,我们看到 DeepSeekMath-V2 不仅远远优于其他模型,甚至达到了接近 99% 的惊人高分。在最困难的高级子集上,DeepSeekMath-V2 的表现比 Gemini Deep Think(IMO Gold)稍差。 DeepSeek 表示:“虽然还有很多工作要做,但这些已经结果表明,自我验证数学推理是一个有前途的研究方向。“是可行的。它有望促进更强大的人工智能数学系统的开发。”这种经过自我验证的数学推理框架超越了传统强化学习(RL)的局限性。因此,模型不再依赖最终答案的正确性作为唯一的奖励,而是注重推理过程的严谨性。此外,DeepSeekMath-V2 验证器和生成器的协作双向改进周期提供了全面且严格的数学推理能力。它显着减少了大型模型的错觉。在这篇文章中,DeepSeek 展示了更多的技术细节,感兴趣的同学可以仔细阅读。
服务热线
400-123-4567