DeepSeek最新研究揭秘:V3大模型成本降低方案曝光

DeepSeek团队最新发布的论文详细介绍了DeepSeek-V3在训练和推理过程中如何突破硬件瓶颈。这篇由梁文锋亲自参与的论文,展示了仅用2048块H800 GPU就能达到数万块GPU集群训练效果的关键技术。论文重点阐述了四项创新优化方法,为解决大模型训练中的内存、计算和通信难题提供了新思路。 在内存优化方面,团队采用多头潜在注意力(MLA)技术,将传统模型中每个注意力头独立缓存的键值对压缩成更小的潜在向量。这种方法使KV缓存大小降至传统方法的1/7到1/4,大幅降低了显存压力。计算优化则通过混合专家模型(MoE)和FP8低精度训练实现,总参数6710亿的模型每次仅激活370亿参数,训练成本仅为同规模稠密模型的1/10。 通信优化方面,DeepSeek-V3采用多层胖树网络架构,将集群网络分为多个独立平面,相比传统三层网络降低成本40%,延迟减少30%。推理加速则通过多token预测(MTP)技术实现,使生成速度提升1.8倍。这些创新使DeepSeek-V3能在消费级GPU上高效运行,每秒可生成近20个token。 论文还展望了下一代AI硬件的五大发展方向,包括低精度计算支持、扩展融合、网络拓扑优化、内存系统改进和鲁棒性提升。这些建议旨在推动AI硬件从被动适配转向主动设计,为未来大模型训练提供更高效的硬件基础。

话题追踪

优志愿被指虚假宣传"行业首个"大模型

近日,国内高考志愿填报行业的两家科技企业因大模型备案问题引发争议。5月14日,靠谱AI通过官方公众号发布声明,质疑竞争对手优志愿在产品宣传中存在不实表述。根据声明内容显示,靠谱AI指出优志愿宣称的"全行业首个通过工信部备案"升学规划大模型、...

界面新闻 | 2025-05-17 16:09

"eLife主编独家回应:取消影响因子后,中国论文投稿量骤降八成"

2024年11月,科睿唯安宣布不再赋予eLife期刊SCI影响因子,这一决定对这本跨学科生物学杂志产生了显著影响。此前,eLife的影响因子为6.4,而失去这一指标后,来自中国的投稿量骤减80%。eLife主编Timothy Behrens...

知识分子 | 2025-05-17 15:45

西安工大团队推出智能仿真新方案 采用国产大模型技术

西安工业大学傅妍芳教授团队在军事仿真领域取得重大突破。该团队利用人工智能技术,成功研发出能够自动生成军事仿真想定的智能系统。这项技术将传统指挥员需要48小时完成的编排工作,缩短至仅需48秒就能生成上万种可能方案,实现了质的飞跃。这项创新不仅...

财联社 | 2025-05-17 15:45

阿里发布开源视频大模型通义万相2.1

阿里巴巴近日宣布开源其最新研发的视频生成与编辑模型通义万相Wan2.1-VACE。这款模型在行业内具有领先地位,能够实现多种视频处理功能,包括文字生成视频、基于图像的视频生成、视频重绘、局部编辑、背景延展以及时长延展等。这些功能的集成使得该...

界面新闻 | 2025-05-16 19:32

私募备案量激增,量化巨头上海宽德、黑翼领跑,AI布局引关注

今年以来,私募证券投资基金市场呈现出明显的回暖态势。根据Wind数据统计,截至5月14日,全行业已完成3624只私募证券投资基金的备案登记,较去年同期增长40.14%。这一增长态势主要得益于去年四季度以来市场情绪的持续修复,以及今年一季度科...

界面新闻 | 2025-05-16 19:08

佳禾智能:智能硬件产品已预留AI大模型接入端口

佳禾智能近期在投资者互动平台透露,公司正积极把握消费电子领域的技术创新机遇。公司管理层高度重视研发创新,致力于探索人工智能技术与消费电子产品的深度融合,旨在开发更符合市场需求的新产品。据悉,该公司生产的智能硬件产品已预留接入AI大模型的接口...

每日经济新闻 | 2025-05-16 11:30

英伟达开源代码推理模型,AI大模型推动光模块需求激增

近日科技行业迎来多项重要进展。英伟达开源了多个代码推理大模型,包括32B、14B和7B三个参数版本,这些模型基于阿里通义千问底座。AI大模型的发展也推动了高速光模块需求增长,仕佳光子和新易盛等企业在400G至1.6T光模块领域取得突破。固态...

财联社 | 2025-05-16 08:00

零售业大模型应用爆发:智能生鲜识别成本降至万元级

财联社5月12日讯(记者 付静)“当货架上的电子价签在闪烁的时候,您可能不知道它也正在经历一场毫米级的、非常高难度的算力革命,可能正在打价格战。”刚刚落下帷幕的2025中国零售业博览会上,中国连锁经营...

财联社 | 2025-05-15 13:00

电商云AI战略升级 字节开源DeepResearch 中医药大模型标准首发

【产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】国内资讯字节跳动元老陈林离职创业?知情人士:不实消息有消息称,...

钛媒体APP | 2025-05-15 11:00

AI巨头为何纷纷盯上《宝可梦》?

各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。围棋选手李世石与AlphaGo的五番棋对决已经过去近十年。而后,不论是谷歌的DeepMind在《DOTA2》《星际争霸2》这...

游研社 | 2025-05-15 10:48

南智光电推出光子芯片专用大模型 国内首创

快科技5月12日消息,据媒体报道,中国光子芯片产业迎来重大突破。国内首个光子芯片专用大模型OptoChat AI正式发布,这一创新成果将推动我国光子芯片研发进入智能化新阶段。光子芯片作为现代光电技术与微电子技术融合的前沿领域,其研发过程长期...

快科技 | 2025-05-15 07:54

中国科学家突破太空技术,成功发射先进智能系统

一家中国AI公司研发的国产自研大模型介绍(图片来源:林志佳拍摄)这次,中国 AI 大模型终于“上天”了。5月12日消息,钛媒体AGI获悉,中国科学院计算技术研究所(以下简称“计算所”)近期披露,该所智...

钛媒体APP | 2025-05-14 15:18

本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/60907/

(4)

导读信息推荐

  • "自动驾驶功能突然被撤?车企紧急回应"

    4月16日,工信部装备工业一司召开智能网联汽车产品准入及软件在线升级管理工作推进会,明确要求车企不得使用"自动驾驶""无人驾驶"等容易引发误解的表述,统一采用"L2级辅助驾驶"等标准化术语。这一政策被业内称为"史上最严宣传管控",标志着智能

    2025-05-18
    0
  • OpenAI推出编程智能体ChatGPT,堪称开发者终极助手

    OpenAI近日正式发布了名为Codex的编程智能体,这是一款基于云端运行的软件工程助手。该工具能够并行处理多个开发任务,帮助开发者高效完成编程工作。用户只需通过简单的输入框描述任务,Codex就能自动执行代码编写、bug修复等工作。Cod

    2025-05-18
    0
  • 中国空间站首次发现未知微生物

    我国科研团队在空间站研究中取得重要突破。近日,科学家们首次公布在空间站内发现了一种全新的微生物物种,并将其正式命名为"天宫尼尔菌"。这项研究成果已在国际权威学术期刊《International Journal of Systematic a

    2025-05-18
    0
  • 中国最赚钱高铁:86人团队年入百亿,靠"过路费"赚得比客运多

    京沪高铁2024年财报显示,公司实现营收421.57亿元,同比增长3.62%;归母净利润127.68亿元,同比增幅达10.59%。尽管高铁行业普遍面临早期投资大、盈利难的困境,京沪高铁凭借连接京津冀和长三角两大经济区的区位优势,成为少数持续

    2025-05-18
    0
  • "豆瓣9分神作!J型人格必读的成长指南"

    这篇文章探讨了"不确定性"这一常被误解的概念,揭示了它在人类认知和社会发展中的积极作用。作者通过美国作家玛吉·杰克逊的新书《意料之内》,重新审视了不确定性的价值。文章首先描述了生活中常见的"不确定"场景,比如航班延误或职业选择时的焦虑。玛吉

    2025-05-18
    0
  • 巴菲特为何避开A股却重仓日本?背后原因揭秘

    这篇文章探讨了巴菲特为何选择投资日本股市而非中国A股的原因,并深入分析了A股市场存在的问题。文章从多个角度展开讨论,帮助读者理解股市表现与经济增速之间的关系。文章首先指出,GDP增速并不能直接决定股市表现,因为股市更关注企业利润增长而非单纯

    2025-05-18
    0
  • "重磅!肖某被吊销医师执照,董某莹四项证书全撤,卫健委最新通报"

    国家卫生健康委近日通报了中日友好医院胸外科医生肖某及其相关人员违规违纪事件的调查处置进展。该事件因肖某妻子举报其违反生活纪律和医德医风问题而引发社会广泛关注。调查组对涉事人员的执业行为、学术诚信等方面进行了全面核查。调查结果显示,肖某在手术

    2025-05-18
    0
  • 南通爱尔眼科CEO因违规宴请公职人员被撤销政协委员资格

    南通爱尔眼科医院高层管理人员于文娟近日受到党纪处分,并被撤销政协委员身份。这一事件源于武汉市中心医院急诊科主任艾芬的实名举报,举报内容涉及南通市多名公职人员违规接受于文娟宴请。接到举报后,南通市纪委监委迅速成立工作专班展开调查,最终对相关涉

    2025-05-18
    0

发表回复

本站作者后才能评论

    联系我们

    邮件:sooting2000@qq.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们