Liang Wenfeng的新角色! DeepSeek降低成本的秘密已发

chhidongxi汇编| Cheng Qian Li Shuiqing编辑| Li Shuiqing Zhidongxi新闻于5月15日,昨天下午,Deptseek团队发布了一个新角色,代表DeepSeek-V3,深入解释了对硬件和模型架构的重大变化,并为实现有效的大型培训和推理提供了想法。 DeepSeek兼首席执行官创始人Liang Wenfeng目前也出现在著名的共同名单上,从作者名单的底部排名第五。该论文的邮寄地址是“北京,中国”,可以启发纸质研究可能由DeepSeek北京团队领导。大型语言模型的快速扩展将三个主要瓶颈暴露于硬件体系结构:不足的内存能力,不是出色的Cheern计算和有限的相互关联带宽。但是,DeepSeek-V3取得了惊人的效率成功 - 2048 H800 GPU培训,FP8培训准确性的损失小于0.25%,培训成本每个令牌为250个Gflops,而405B密集型型号的培训成本为2.45 Tflops,KV高速缓存KV CACHE少于70 KB(LLA -3.1。1/7的1/7。模型体系结构和AI基础架构的主要创新包括:用于记忆效率的多头潜在关注(MLA),用于优化计算通信权衡的混合专家(MOE)体系结构,FP8混合精度培训,以释放全面的潜在潜在潜在技能,并减少群集网络网络层面的群集网络拓扑。 paextension整个文本
▲DeepSeek-V3基本体系结构
DeepSeek的角色已证明,硬件和软件协作的有效设计可以实现大型模型有效培训的培训,从而为较小的团队提供了比赛的培训。
难怪Openai联合创始人Andrej Karpathy早些时候发生了:“ DeepSeek-V3的出现达到了平衡在高性能和低成本之间……将来超级GPU群集可能不是必需的。”
本文中提到的DeepSeek提到,本文的目的不是要重新重新重新详细介绍DeepSeek-V3架构和算法的详细信息,而是要使用双重观点来探索整个硬件体系结构和模型设计之间的复杂相互作用,以实现有效的Mascale Scale Scale Scale训练和推理和推理。专注于讨论:
法令驱动的模型设计:检查硬件功能(例如fp8低精度计算和可扩展/扩展网络属性)如何影响DeepSeek-V3中的体系结构的选择;
硬件和模型之间的希望:深入了解硬件形状的硬件功能如何,以及大型模型的需求如何推动对下一代硬件的需求;
硬件开发的未来方向:从DeepSeek-V3获得指导未来硬件设计合作和建筑的成就模型让位于可扩展的,具有成本效益的AI系统;
1。i优化从源中的内存效率,MOE模型可以降低成本并部署thecal
开幕章中提到的DeepSeek-V3的主要变化旨在解决三个主要规模的挑战:记忆效率,有效性和推理速度。
1。卓越内存:i-优化从源中使用内存并使用MLA减少KV缓存
来自资源的反对记忆使用是一种关键和有效的方法。与使用BF16称重的模型相比,FP8将记忆消耗大大减少了一半,从而有效地减轻了AI记忆墙的挑战。
▲KV缓存比较大小(BF16精度)
使用MLA减少KV缓存。对于大型推理模型,用户请求通常涉及许多对话。 KV缓存通过缓存以前的NAPROMCOMCOM CACHE键和向量的值解决了这一挑战,而无需重新计算以后的令牌。
在临时的每个摘要步骤中该模型简单地计算了当前令牌的向量的键和值,并通过将其纳入历史中的缓存键值对来进行注意计算。在处理长期粘附或许多输入时,此添加的计算使其非常好。但是,它引入了内存限制的瓶颈,因为计算从GEMM转移到GEMV,计算与记忆比较低。
为了解决这一挑战,研究人员采用了MLA,该MLA使用投影矩阵来压缩所有注意力头的KV表示向较小的潜在向量,从而使矩阵与Modelo一起训练。在理解过程中,与存储所有注意标头的KV缓存相比,仅需要治愈潜在的向量,可以减少存储器消耗。
2。成本效益:MOE可以降低培训成本并促进当地部署
DeepSeek开发了DeepSeekmoe。 MOE模型的优势是两个方面:
冷杉最重要的是,培训计算要求可以减少,并可以降低培训成本。 MOE模型允许参数的总数急剧增加,同时保持中等的计算要求。例如,DeepSeek-V2具有236b参数,但是每个令牌仅被激活21b参数。 DeepSeek-v3达到671b参数,同时仅将每个令牌的激活能力保持在仅37b。相比之下,诸如QWEN2.5-72B和LLAMA3.1-405B之类的致密模型需要所有参数在实践中都具有活性。
其次,这些是个人使用和本地扩展的好处。在个人代理商的繁荣未来中,MOE模型为单个请求方案提供了独特的好处。因为在每个请求下仅激活一个参数的一个子集,所以内存和计算要求大大降低。例如,DeepSeek-V2(236b参数)仅在处理过程中激活21b参数。它允许配备AI芯片的PC可实现近20个即使该速度是两次,令牌(TP)也是如此。相比之下,具有相似功能的密集模型通常在单位数字TPS可以达到的同一硬件中。
同时,最佳语言ModelKtransFormers的优化的大型模型允许Deptseek-V3模型的完整版本以10,000美元的$ 10,000的消费者GPU在低成本服务器上运行,可实现约20 TPS。这种效率使MOE的体系结构适合当地部署和具有有限硬件资源的个人用户。
2。下载计算和通信,高带宽垂直缩放网络以提高理解速度
第三个挑战是理解速度。 DeepSeek通过覆盖计算和通信来提高模型的理解速度,该计算和通信引入了高带宽缩放网络,多token预测框架等。
1。计算和通信覆盖:i-最大化吞吐量
识别速度包括最大全系统的最大请求的吞吐量和单一延迟。为了实现吞吐量,DeepSeek-V3是从一开始就构建的,以使用双微键叠加层,覆盖通信延迟和计算。
DeepSeek将MLA和MOE计算分解为两个不同的阶段。当MicroBatch执行MLA或MOE计算的一部分时,另一个微匹配同时执行相应的计划通信。取而代之的是,在第二个Microbatch的计算阶段,第一个Microbatch通过了组合的通信步骤。
这种管道的方法在整个通信和恒定计算之间提供了无缝的重叠,以确保始终完全使用GPU资源。
此外,在劳动中,他们使用预填充分歧的架构来分配大量的预填充和延迟的解码敏感请求,并在不同的组中并行。
▲培训MOE和密集模型的计算成本的比较:有意识
2。局限口号速度:高带宽垂直扩展网络潜力
高度理解所达到的MOE模型取决于在整个计算设备中的专业参数的有效扩展。为了尽快达到理想的速度,理想情况下,每个设备都必须为单个专家或多个设备进行计算,必须根据需要与单个专家合作。
但是,专业的并行性(EP)需要通往适当设备的令牌路线,这涉及整个网络中的大量通信。因此,高速限制理解MOE由相关的带宽确定。
考虑一个系统,每个设备每次都有大约32个令牌的专家的参数和过程。该令牌计数平衡了记忆比和通信延迟的计算,从而确保每个设备在专家并行性过程中处理相等的批量大小,从而计算通信时间。
如果使用高率IDTH互连,例如GB200 NVL72(900GB/s单向带宽在72 GPU),每个步骤的通信时间EP =(1个字节 + 2个字节)×32×9×9×7k/900gb/s =6.72μs
在设计时间计算等于通信时间之后,它将表明它将减少总理解时间,从而达到0.82毫秒以上TPOT,大约1200个令牌恢复和秒数。
尽管该数字是理论上得出的,尚未验证,但它描述了高带宽缩放网络在加速模型的大规模模型中的潜力。
3。多人预测
DeepSeek-V3引入了一个多型预测(MTP)框架,同时提高了模型的性能并提高了构想速度。
在理解过程中,传统的自回归模型在解码步骤中发展了一个令牌,这可能导致采用瓶颈的问题。 MTP理通过使模型能够以较低的成本产生额外的候选令牌来解决此问题,并并行证明它们,类似于以前的自定义方法。此概述促进了理解,而不会影响准确性。
此外,为了限制每个步骤预测多个令牌,MTP增加了推理的大小,这对于改善EP计算强度和硬件的使用至关重要。
4。4。以高速理解和测试为扩展差异模型的研究
以OpenAI的O1/O3系列为例,大型模型中的测试时间测试通过在感知过程中的动态计算源来改进数学推理,编程和一般推理。随后,DeepSeek-R1,Gemini 2.5 Pro和Qwen3都采用了类似的技术。
对于这些识别模型,高速令牌输出很重要。在加强工作流程(RL)中,需要快速生成大量样本S通过一个主要的瓶颈做出了阶段的理解。此外,延长的决定 - 遵循理解会增加用户的等待时间,从而降低了此类模型的实际可用性。
因此,通过硬件合作和软件更改优化理解速度对于提高理解模型的效率很重要。
3。DeepSeek-V3实践:通过效率限制的软件和硬件协作
基于基本设计原理的原理,DeepSeek描述了实施特定技术的详细信息,例如低头培训,互连优化和网络拓扑。
在低调技术的突破方面,DeepSee直接通过采用TheFP8混合精度训练来直接降低50%的模型记忆,从而有效地减轻了“墙壁内存”的问题。 DeepSeek还建议采用LogFMT对数空间体积方案,这在两件零件下都可以达到更高的精度。
在Interconne方面Ction优化,Deptseek提出了一种硬件意识方法。该团队留下了传统的张量并行性(TP),而采用了管道并行性(PP)和专门的并行性(EP),并自由地与深层图书馆合作以实现沟通效率的飞跃。
在网络拓扑方面,由DeepSeek启动的两层多层脂肪树(MPFT)网络拓扑结束了实现故障的分离和将负载的分离和负载通过8个独立的平面,并且成本比传统的三层拓扑。40%的Mahinstead 40%的Mahinstead,并且在整个填充的沟通性能方面,可以将其与单一的多层进行比较。
▲八平面两层脂肪树可以扩展网络
第四和六个钥匙组成下一代AI基础架构
为了响应当前的硬件疼痛点,Deptseek提出了下一代AI基础架构的主要升级路径。DeepSeek发布了确定的DeepSeek-V3实现,从硬件体系结构演变的角度提出了六个未来的挑战和解决方案,涵盖了内存,连贯,网络和计算等主要领域。
1。鲁棒性优先级:开发不容易压碎的训练系统
现有的硬件没有影响GPU故障,记忆沉默中的错误等,并且重大训练中断的风险很高。
在这方面,DeepSeek建议硬件应引入传统ECC之外的高级错误检测机制。诸如基于检查的验证或冗余检查硬件之类的技术为大型部署提供了可靠性。
此外,硬件供应商应为用户提供完成一个全面的诊断工具包,该工具包使它们严格验证系统的完整性并积极确定潜在的损坏数据损坏。
2。互连体系结构:CPU-GPU直接连接去除节点瓶颈
CPU仍然需要通过计算,I/O管理和系统吞吐量进行协调,并且当前的体系结构面临着几个主要的瓶颈。
CPU和GPU之间的PCIE接口通常在大尺度参数,梯度或KV缓存传递过程中成为带宽瓶颈。为了减轻此问题,未来系统必须采用直接的CPU-GPU互连(例如NVLink或Infinity Fabric),或在扩展的域中包括CPU和GPU,以删除节点内的瓶颈。
除了PCIE限制外,保持如此高的数据传输速率还需要过多的高内存带宽。最后,诸如核心启动和网络处理之类的延迟敏感活动需要高的单核CPU性能,这通常需要超过4GHz的基本频率。作为Karin的补充,现代AI工作负载要求每个GPU都包含足够的CPU核心,以防止控制侧瓶颈。对于基于芯片的架构,需要其他核心来支持缓存工作负载和分离的分区和分离。
3。升级智能网络:低潜伏期的动态路线
为了满足延迟敏感的工作负载的需求,与低延迟和智能网络相关的人应优先考虑。
共包装光学:综合硅光子学可以提高带宽可扩展性和更高的能源效率,这对于大共享系统至关重要。
无损网络:基于信用的流量机制(CBFC)确保没有数据传输损失,但是触发流量控制会导致严重的线路阻塞。因此,应部署由驱动端点(CC)驱动的先进算法,以积极调整注入率并防止异常的拥塞情况。
自适应途径:如将来第5.2.2节所述,网络应标准化动态路由方案(例如数据包InjeCTION和拥塞路径选择),不断监视实时网络条件和智能流量再分配。
通过消除自我修复方案,冗余端口和快速故障转移技术,可以显着增强对罪的宽容:失败失败的强大协议。
Dybrid资源管理:为了有效处理混合工作负载,未来的硬件应支持动态页面宽宽和流量优先级。
4。序列序列“硬件”:删除其他开销软件
使用存储内存负载/语义的节点通信有效且易于编程,但是当前的实现是由内存序列中的挑战所阻止的。
DeepSeek的倡导者的硬件支持为语义通信记忆提供了内置订单保证。该一致性应在编程层(例如通过语义获取/发布)和收件人的硬件层实现,该硬件可以激活适当的交付而无需进一步的开销。5。网络计算收敛:硬件加快通信效率
在混合专家模型(MOE)的分布阶段和组合中,有一个网络优化空间。该论文表明,自动包装功能和硬件级别降低功能与网络硬件集成在一起,并支持LogFMT压缩以减少通信带宽要求。
6。重建体系结构重建:从“芯片堆叠”到“晶圆集成”
模型大小的指数增长超过了高带宽内存(HBM)技术的促进,并且该空间创造了内存瓶颈。
DepSeek建议使用高级3D堆叠技术的DRAM堆叠加速器,可以将DRAM垂直与逻辑上的顶部垂直整合在一起,从而导致过度高内存带宽,超低延迟,实用记忆能力(尽管极限的堆叠)。
DeepSeek还指出了晶圆卷L系统(SOW),其中晶圆水平的整合最大化了组合密度和记忆带宽,这满足了高度计算模型的需求。
结论:模型进化迫使下一代改变计算的力量
AI行业在软件和硬件之间进行深入合作期间进入。通过将模型硬件功能合并到模型设计和反向驱动的硬件升级中,DeepSeek创建了良性复发的封闭软件和硬件循环。
从硬件到模型,DeepSeek-V3涵盖了硬件和软件设计潜力的转换,有助于促进大型AI系统的可扩展性,效率和稳定性。
从返回硬件,DeepSeek跳出了确定的DeepSeek-V3模型,以指定需要对Despairfront中大型模型进行优化的硬件的基本方向。它从许多层面(例如内存,连贯,网络和计算)中提供了建设性建议,该建议具有参考工业生态学的重要意义。回到Sohu看看更多