DeepSeek新数学模型刷爆记录!7B小模型发现671B模型不会的新技能

DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。DeepSeek-Prover-V2在普特南测试中直接把记录刷新到49道,成为第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。新模型通过强化学习发现新技能,如Prover-V2也有令人意想不到的能力。具体来说,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。 DeepSeek-Prover-V2系列模型已推出三款:DeepSeek-Prover、DeepSeek-Prover-V1.5和DeepSeek-Prover-V2。DeepSeek-Prover-V2通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3作为子目标分解和形式化的统一工具构建冷启动数据集,提示DeepSeek-V3将定理分解为高级证明草图,同时在Lean 4中将这些证明步骤形式化,从而产生一系列子目标。使用一个较小的70亿参数模型来处理每个子目标的证明搜索,从而减轻相关的计算负担。一旦一个具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链进行配对,以创建冷启动推理数据。 DeepSeek-Prover-V2的强化学习阶段采用GRPO算法,与传统的PPO不同,GRPO无需单独的裁判模型,它通过为每个定理提示采样一组候选证明,并根据它们的相对奖励来优化策略。训练过程中使用二元奖励机制,即生成的Lean证明若被验证正确则获得奖励1,否则为0。精心挑选训练提示,仅包含那些有足够挑战性但又能被监督微调后的模型解决的问题。 DeepSeek-Prover-V2系列在三个数据集上评测的最后总成绩如下:DeepSeek全明星阵容Prover-V2的作者共18人,共同一作Z.Z. Ren、邵智宏、辛华剑都是参与过V3、R1以及Prover系列前作的主力成员。该研究提出的Fire-Flyer AI-HPC架构,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。目前形式化数学领域的竞争态势堪称激烈,DeepSeek系列模型的持续更新和优化使得其在miniF2F测试中的通过率达到88.9%,并解决了普特南测试中的49道。 论文和模型地址请参见文中所示。

话题追踪

荣耀400海外版首发图片转视频AI功能

荣耀即将在海外市场推出搭载全新AI功能的两款新机型——荣耀400和荣耀400 Pro。这两款手机将于5月22日正式发布,其亮点是内置了基于谷歌Veo 2模型开发的图片转视频工具。该功能直接集成在手机相册应用中,操作简便,用户只需选择照片就能...

IT之家 | 2025-05-15 14:30

零售业大模型应用爆发:智能生鲜识别成本降至万元级

财联社5月12日讯(记者 付静)“当货架上的电子价签在闪烁的时候,您可能不知道它也正在经历一场毫米级的、非常高难度的算力革命,可能正在打价格战。”刚刚落下帷幕的2025中国零售业博览会上,中国连锁经营...

财联社 | 2025-05-15 13:00

电商云AI战略升级 字节开源DeepResearch 中医药大模型标准首发

【产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】国内资讯字节跳动元老陈林离职创业?知情人士:不实消息有消息称,...

钛媒体APP | 2025-05-15 11:00

AI巨头为何纷纷盯上《宝可梦》?

各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。围棋选手李世石与AlphaGo的五番棋对决已经过去近十年。而后,不论是谷歌的DeepMind在《DOTA2》《星际争霸2》这...

游研社 | 2025-05-15 10:48

"Transformer八子"创业团队推出"连续思维机器"新模型

当前的人工神经网络只是对生物神经网络的极其简化模拟,在能力和效率方面远远落后于人脑。我们能否进一步结合生物大脑中的特征,将人工智能(AI)的能力和效率提升到新的水平?受生物神经网络的启发,由“Transformer八子”之一 Llion J...

学术头条 | 2025-05-15 08:30

南智光电推出光子芯片专用大模型 国内首创

快科技5月12日消息,据媒体报道,中国光子芯片产业迎来重大突破。国内首个光子芯片专用大模型OptoChat AI正式发布,这一创新成果将推动我国光子芯片研发进入智能化新阶段。光子芯片作为现代光电技术与微电子技术融合的前沿领域,其研发过程长期...

快科技 | 2025-05-15 07:54

中国科学家突破太空技术,成功发射先进智能系统

一家中国AI公司研发的国产自研大模型介绍(图片来源:林志佳拍摄)这次,中国 AI 大模型终于“上天”了。5月12日消息,钛媒体AGI获悉,中国科学院计算技术研究所(以下简称“计算所”)近期披露,该所智...

钛媒体APP | 2025-05-14 15:18

国内首个全自研通用具身大模型"自变量机器人"获数亿元融资,华映资本、美团领投

5月12日,具身智能公司「自变量机器人」宣布完成Pre-A+++轮与A轮两轮数亿元融资。其中Pre-A+++轮融资由华映资本领投,云启资本、广发信德跟投;A轮融资由美团战投领投、美团龙珠跟投。两轮融资...

钛媒体APP | 2025-05-14 15:18

科技热点速览:松延动力推出女性仿生机器人,中医AI评测标准出炉,阿里押注电商与AI战略

|2025年5月12日 星期一|NO.1 国家统计局:2025年4月份居民消费价格同比下降0.1%5月10日,国家统计局数据显示,2025年4月份,全国居民消费价格同比下降0.1%。其中,城市持平,农...

每日经济新闻 | 2025-05-14 12:12

谷歌推出AI反诈新工具:语言模型识别欺诈网站

快科技5月11日消息,据媒体报道,谷歌公司近日宣布在其全线产品中部署AI反诈系统,通过人工智能技术构建全方位的网络安全防护网。这一系统已在搜索引擎、通信应用和浏览器等多个平台发挥显著作用,为用户提供更安全的数字体验。在搜索引擎方面,谷歌的A...

快科技 | 2025-05-13 20:05

奥尔特曼:我不会让儿子和 AI 交朋友,OpenAI 首个开源模型计划今年夏天发布

周四,奥尔特曼再次出席美国国会山听证会。他对美国政府呼吁:一定要放开监管,过早设定标准,对美国 AI 将是一场灾难!另外他还透露,OpenAI 第一个开源模型,会在今年夏天发布。值得一提的是,奥尔特曼神秘的家庭生活,也在一位记者的亲身探寻下...

IT之家 | 2025-05-13 14:49

我国科研人员发布全球首个地震诱发滑坡近实时智能预测模型

中新社成都5月10日电(记者贺劭清)记者10日从成都理工大学获悉,该校范宣梅教授团队基于过去50年来38次强震诱发的近40万处滑坡,建立了目前全球最大的地震诱发滑坡数据库,结合深度学习算法研发了全球首个地震诱发滑坡近实时智能预测模型。该模型...

滚动播报 | 2025-05-13 13:00

本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/47462/

(4)

导读信息推荐

  • "国产芯片巨头砺算科技:从欠薪风波到二次创业,未来何去何从?"

    这篇文章讲述了中国GPU芯片创业公司砺算科技的发展历程与当前困境。2018年以来,在国产化替代的背景下,一批拥有国际化背景的芯片人才组建团队投入GPU研发。砺算科技核心团队曾参与创办中天恒星,后因资金问题重组为砺算科技,致力于研发完全自主的

    2025-05-02
    0
  • 巴菲特投资转向 大举押注债券市场

    财联社周子意撰文报道,巴菲特旗下的伯克希尔哈撒韦公司目前持有大量现金等价物,主要投资于美国短期国债。根据摩根大通估算,该公司持有的美国短期国债规模已达3140亿美元,成为全球第四大持有者,同时也是美国短期国债市场最大的非政府持有机构。这些国

    2025-05-02
    0
  • 美的收购喜德瑞中国业务 达成多项战略合作

    5月12日,美的集团与全球知名智能室内气候解决方案企业喜德瑞集团达成多项战略合作。根据协议内容,美的将收购喜德瑞在中国的现有业务,包括生产制造、销售网络和核心技术等。同时,美的获得在中国市场继续使用喜德瑞旗下四个品牌的授权,这将进一步丰富美

    2025-05-02
    0
  • "奇瑞高管炮轰吉利新车'烂车' 公司紧急叫停涉事人员工作"

    近日,奇瑞汽车营销公司副总经理姚飞(姚远方)在社交媒体上发表针对吉利银河星耀8的不当言论,引发广泛关注。据新浪科技报道,姚飞在抖音车主群中使用了"烂车"、"二排挤的很"、"音响烂"等贬损性词语评价该车型,随后其抖音账号被设为私密状态。事件发

    2025-05-02
    0
  • "奇瑞高管炮轰吉利新车'烂车',吉利副总裁回应:双方已和解"

    近日,奇瑞汽车营销公司副总经理姚飞(姚远方)在社交媒体上评价吉利新车银河星耀8时使用了"烂车"等贬义词汇,引发争议。目前其抖音账号"姚远方"已设为私密状态。吉利控股集团高级副总裁杨学良回应称,已就此事与奇瑞高层沟通,并表示事件已妥善解决。双

    2025-05-02
    0
  • 中国27城GDP破万亿,酒业增长新机遇

    近年来,中国城市经济发展呈现显著变化,GDP突破万亿的城市数量从2006年的1座增长至2024年的27座。这些城市虽然仅占全国3%的国土面积,却贡献了超过40%的经济总量,成为推动中国经济发展的核心力量。从区域分布来看,这些万亿级城市主要集

    2025-05-02
    0
  • 中国科学家突破小麦育种技术瓶颈

    六倍体小麦(Triticum aestivum,AABBDD)是由三种野生近缘植物经过两次多倍化过程和长期驯化演变而来的重要粮食作物。其基因组由Triticum urartu(AA)、Aegilops speltoides(BB)和Aegi

    2025-05-02
    0
  • 软银2024年营收增长7.6% 加码高性能内存研发

    软银集团近日公布了2024财年(截至2025年3月31日)的财务报告。数据显示,公司全年营业收入达到6.54万亿日元,同比增长7.6%。营业利润为9890亿日元,增长12.9%;净利润6552亿日元,增幅11%。每股基本收益为10.99日元

    2025-05-02
    0

发表回复

本站作者后才能评论

    联系我们

    邮件:sooting2000@qq.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们