News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

刚刚,Deepseek开启新模型,夺得数学奥赛冠军。

智动智作者李水清编辑新源智动11月17日报道,今日,Deepseek Open采购了“数学奥数金牌”Deepseekmath-V2模型,具有强大的定理证明能力。 DeepSeekmath-V2在2025年国际数学奥林匹克(IMO 2025)和2024年中国数学奥林匹克(CMO 2024)上取得金牌成绩;并在2024年普特南大学生数学竞赛(Putnam 2024)中取得了近乎满分的成绩(118/120分),远高于人类最高分90分。如下图所示,DeepSeekMath-V2 击败了 IMO 金牌得主 Deepthink 模型 10%。 ▲ DeepSeekMath-V2 在数学竞赛中的表现 ▲ DeepSeekMath-V2 在 IMO-Proofbench 中的测试结果 上述结果表明,自我验证数学推理是一个可行的研究方向,可能有助于构建更强大的数学 AI 系统。抱脸地址:https://huggingface.co/deepseek-ai/deepseek-math-v2 论文地址:https://github.com/deepseek-ai/deepseek-math-v2/blob/main/deepseek-ai/v2.pdf 一如既往,Deepseek经常将新的开源模型直接放在网上,我们第一时间尝试体验。首先,Deepseek 被要求证明一个相对简单的问题,“证明根号 2 是一个无理数”。 Deepseek很快给出了正确答案。当Zhidong输入证明问题“证明哪个是奇数还是整数?”时,Deepseek也提供了正确的证明过程和答案。大多数人应该明白这个证明过程。当然,奥林匹克证明级别的问题会更复杂。如果有会员能够理解此类问题,可以进行额外的经验测试。回到模型背后的研发问题,我们来看看论文的内容。从现有研究来看,在数学推理领域,传统的强化学习(RL)方法足以允许大模可以在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而,这种奖励机制有两个主要局限性:首先,传统方法无法可靠地表示推理的正确性,模型可能通过错误的逻辑或幸运的错误得出正确的答案。其次,它不适合定理证明任务,其中的问题可能不需要生成最终的数值答案,但严格的推导是主要目标。为此,Deepseek提出在大型语言模型上构建证明验证能力,基于Deepseek-V3.2-Exp-base开发的DeepSeekMath-V2。他们赋予模型关于其奖励函数的隐性知识,并使其能够通过有意识的推理而不是盲目的试错来最大化这种奖励。 Deepseek 开发了用于证明评估的高级评分标准,目的是训练验证者根据这些标准评估证明评分标准,模拟数学专家的评估过程。该模型基于 Deepseek-V3.2-exp-SFT 的一个版本,通过强化学习进行训练,以生成鲁棒性分析。mom 训练过程使用两个奖励组件:格式奖励和分数奖励。然后是强化学习数据集的构建。 Deepseek基于17503个竞赛题、Deepseek-V3.2-exp-thinking生成的候选证明以及随机选择的专家评分证明样本构建了强化学习的初始训练数据。接下来,它设置强化学习目标和训练验证器的强化学习目标。具体来说,它基于 Deepseek-V3.2-exp-SFT 的一个版本,并通过强化学习训练模型进行证明分析。训练过程使用两个奖励部分:格式奖励和分数奖励。那么强化训练验证器的学习目标就完成了大致实现以下功能。为了解决训练过程中“验证者在做不存在的问题时可以通过预测正确分数获得全额奖励”的弱点,Deepseek引入了第二个分析过程——元验证(meta-verification),从而提高了验证者识别问题的准确性。在证明生成阶段,Deepseek 通过自我验证训练证明生成器并提高其推理能力,解决了模型需要同时生成和分析自己的证明时“生成器说证明是正确的,而不管外部验证者的错误”的问题。最后,Deepseek 证明了验证器和生成器形成了一个协作循环:验证器改进了生成器,并且随着生成器的改进,它生成新的证明挑战验证器当前的能力,而这些挑战成为改进验证器本身的有价值的训练数据。简单地说,DeepSeekMath-V2模型中的验证器可以顺序完成验证过程,而生成器则纠正自己的错误。从实验结果来看,在单步生成的结果分析中,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekmath-V2始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,展现了提供各个领域能力的优越定理。在自我验证的逐步优化中,2024年IMO备考题持续优化后,计算量有所提升。自选的最佳证明的验证分数明显高于线程平均值,表明生成器能够准确评估证明的质量。这些结果表明,其生成器能够可靠地区分高质量证明和有缺陷的证明,并使用自系统地提高数学推理能力的知识。在探索高计算方面,Deepseek扩大了验证和生成计算的规模。他们的方法解决了 2025 年 IMO 中 6 个问题中的 5 个问题,以及 2024 年 CMO 中的 4 个问题。另外 1 个问题获得部分分数,达到两项顶级高中比赛金牌水平,加深了 DeepMind 在基础组中的 Deepthink(IMO 金牌级别),在高级组中保持竞争力,同时显着超越所有其他基线模型。但 Deepseek 发现,IMO 层面最难的问题对其模型来说仍然很困难。有趣的是,对于未完全解决的问题,Deepseek 生成器经常在验证过程中识别出真正的问题,而完全可解决的问题则通过了所有 64 次验证尝试。这表明我们可以成功地训练一个基于大型语言模型的验证器来检查之前考虑的证明很难自动验证。通过在验证器的指导下增加测试时间的计算量,Deepseek 的模型可以解决需要竞争对手的计时人员才能解决的问题。结论:自我验证系统距离解决研究层面的数学问题又近了一步。总的来说,Deepseek 提出了一个既可以生成又可以证明数学证明的模型。该团队打破了基于最终答案的奖励机制的局限性,转向可自我验证的推理。这项工作表明,大规模语言模型可以为复杂的推理任务开发重要的自我评估能力。尽管仍然存在重要的挑战,但这一研究方向预计将有助于实现创建可自我验证的人工智能系统,以解决研究级数学问题的目标。 特别声明:以上内容(如有,包括图片或视频)由自媒体平台“网络”用户上传发布轻松账户”。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。
Tel
Mail
Map
Share
Contact