
据《机器之心》报道,随着《机器之心》编辑突破性推理模型的到来,DeepSeek 正在引领自我验证数学推理的方向。鲸鱼回来了!目前,DeepSeek 已悄悄向 Hugging Face 上传了一个新模型 DeepSeek-Math-V2。顾名思义,这是一个数学模型。之前的版本 DeepSeek-Math-7b 已发布一年多前。当时,该模型仅使用了 7B 个参数,并达到了与 GPT-4 和 Gemini-Ultra 相当的性能水平。相关文章还首次介绍了GRPO,显着提升了数学推理能力。时隔一年半,在DeepSeek-V3.2-Exp-Base基础上开发的DeepSeek-Math-V2又带来了哪些惊喜? DeepSeek 表示,它已经超越了 Gemini DeepThink,达到了 IMO Gold 性能水平。文章标题:DeepSeekMath-V2:走向模型或可自我验证的数学推理地址:https:///huggingface.co/deepseek-ai/DeepSeek-Math-V2 文章地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf 主要作者:邵志宏、罗宇翔、Chengda Lu 和 Z.Z.任博士在DeepSeek文章的开头就指出了当前AI研究在数学推理方面的局限性。使用正确的最终答案作为奖励,对最终答案的准确性要求太高。虽然这种方法可以让推理模型达到更高的水平,甚至在 AIME 和 HMMT 等基准上达到饱和,但 DeepSeek 表示,它并没有解决核心问题。换句话说,正确的答案保证了推理过程的正确。事实并非如此。此外,许多数学任务(例如证明定理)需要严格的逐步推导答案,而不是简单地提供丰富的数字答案,这使得基于最终响应的奖励方法不合适。在 DeepSeek,我们相信突破界限深度推理需要验证数学推理的广度和严谨性。他们指出,“在增加测试的计算规模时,自我验证尤其重要,特别是对于没有已知解决方案的开放问题。”为了实现自我验证的数学推理,DeepSeek 研究了如何训练准确可靠的基于 LLM 的定理证明验证器。然后,我们使用这个验证器作为奖励模型来训练测试生成器,并最终激励生成器完成测试。尝试尽早发现并解决测试中的问题。为了即使在发电机功率增加时也能保持生成和验证之间的差距,DeepSeek 建议扩展功率 infoVerification 算法,以自动标记新的难以验证的测试,从而生成训练数据以进一步提高验证器性能。简单来说,DeepSeek 文章的主要目标不仅是让 AI 做正确的事情,而且是允许它“不仅要做,还要检查自己,诚实地承认哪里错了”。为了实现这一目标,他们设计了一个包含三个主要功能的系统。这可以用“学生、老师、校长”的类比来理解。一是培养合格的“认证核查大师”。以前,当我们训练人工智能数学模型时,我们通常只看最终答案是否正确。然而,在高等数学考试题中(比如奥数),严格的过程比答案更重要。因此,DeepSeek团队首先训练了专门的验证者,也称为“标记者”。这位老师不只是检查和交叉,而是学会将测试过程分为三个级别,就像人类专家所做的那样。 1分:完美,逻辑严谨。 0.5分:基本正确,但有一些小缺陷和细节缺失。 0分:存在基本逻辑错误或严重缺陷。除了评分之外,您还可以写ite 评论。在评分之前,模型需要编写一份分析报告,指出什么是对的,什么是错的。接下来,为老师分配一个“监督者”(Metacheck)。 DeepSeek 发现评分老师可以随机推断成绩的问题。尽管分数可能较低,但观察到的错误实际上并不存在(即,它产生了错觉)。为了解决这个问题,我们引入了元验证系统,相当于给老师分配“监督”。监考人员的工作不是看试题,而是专门检查老师写的“评语”是否合理。这会让监考人员重新检查老师指出的错误是否属实,推论是否合乎逻辑。事实上,训练一个模型充当教师和监督者可以显着提高人工智能评估证书的准确性和可靠性。我们还培养能够“生成自检测试”的学生。拥有良好的评分系统tem,下一步是训练“学生”(生成器)回答问题。这是一个非常重要的创新。这是一种对诚实的奖励机制。换句话说,模型不仅解决了问题,而且还自我评估。模型产生问题后,必须立即进行“自我评估”,给自己打分(0、0.5或1)。诚实是受重视的。如果模型犯了错误,在自我评估中诚实地指出错误,就会得到奖励。相反,如果你在做错事时声称是对的(盲目信任),或者试图“作弊”,你就会受到惩罚(被惩罚)。惩罚)。目标是让人工智能在给出答案之前进行深入思考,尝试找到并纠正自己的错误,直到相信你确实答对了。如果大多数评估都认为该解决方案有问题,那么系统就会通过“相互竞争”来发展,就会出现问题。如果没有发现漏洞,则认为是正确的。为支持而战。这样,系统自动挑选出难以正确判断或回答的问题,作为新的教材,对教师和学生进行再教育。就这样,随着“学生”解决问题的能力越来越强,“老师”的眼光也越来越猛。换句话说,DeepSeekMath-V2方法论本质上从“结果导向”转变为“过程导向”。我们不依赖大量的数学问题答案数据,而是教人工智能如何以与数学家相同的严格性审查证明过程(包括它自己的审查),从而不断提高其在无需人工干预的情况下解决困难数学证明问题的能力。最后,他们获得了DeepSeekMath-V2模型和恶魔证明定理的能力很强。它在 IMO 2025 和 CMO 2024 上取得了金级成绩,在 Putnam 2024 扩展测试计算中获得了近乎满分的 118/120 分。下图显示了 DeepSeekMath-V2 在 IMO-ProofBench 基准(IMO Bench 的子集)上的性能。包含 60 个测试题)。在基础测试中,我们看到 DeepSeekMath-V2 不仅远远优于其他模型,甚至达到了接近 99% 的惊人高分。在最困难的高级子集上,DeepSeekMath-V2 的表现比 Gemini Deep Think(IMO Gold)稍差。 DeepSeek表示:“虽然还有很多工作要做,但这些结果表明,自我验证数学推理是一个可行的研究方向,有望促进更强大的AI数学系统的开发。”自我验证数学推理框架超越了传统强化学习(RL)的局限性。因此,该模型不再依赖于 ac最终答案的准确性作为唯一的奖励,而是注重推理过程的严谨性。此外,DeepSeekMath-V2 验证器和生成器的协作双向增强循环可提供全面且严格的数学推理能力,显着减少大型模型中的一厢情愿。该文档提供了比 DeepSeek 更多的技术细节,有兴趣的可以仔细阅读。学生。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传发布。