News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

DeepSeek更新模型:R1在小型升级方面具有巨大的跳

由|有一组SOHU技术| Liang Changjun更新了DeepSeek-V3模型两个月后,DeepSeek-R1的升级较低。 5月29日晚上,Deepeek正式向其正式帐户发布了一份文件,以披露DeepSeek-R1已升级到DeepSeek-R1-0528并进行了官方审查。此更新后的新模型具有更深入的思维和更强的推理。基本的基准评论是所有国内模型中最好的基准评论,在主要国际模型(例如Openai的O3和Google的Gemini-13-Pro)附近具有一般性能。前一天晚上,DeepSeek正式向用户通信团队宣布,R1推理模型完成了对小版本的试验升级。在-29早上的早晨,在BCommunity资源中揭示了模型和重量,模型卡和其他信息仅更新。这种低的更新引起了人们对开发人员社区和家庭社会平台的极大关注,广阔。根据许多网民的经验,DeepSeek-R1-0528显着改进了编程,逻辑推理,联系功能等。“这种小升级确实是一个重大的跳跃,这是许多人测试的实际体验。随着新的DeepSeek-R1模型达到了世界上最强的模型,网民还问:DeepSeek-R2有多远?总体性能接近O3,幻觉率降低了45%-50%,增加了45%和50%的DeepSeek。 DeepSeek发布的综述结果表明,更新的R1模型在许多基准评估(例如数学,编程和一般逻辑)中,在所有国内模型中都达到了最高的Mahusay结果,并接近其他领先的国际总体绩效模型,例如O3和Gemini-13-Pror。扩展全文 正式发布的测试表明,DeepSeek-R1-0528在数学,科学,代码和编辑等主要基准中的性能,如与DeepSeek-R1相比,百科全书中的知识和知识得到了显着提高。 DeepSeek指出,与R1的旧版本相比,具有复杂识别任务的新版本的性能大大改善了。例如,在数学测试AIME 2025中,准确度从70%增加到87.5%,这是由于模型在理解过程中的思维深度增强所致。 在此测试中,LTHE模型平均每个问题使用12K令牌,而新模型则使用每个问题的平均标记为23k代币,这表明它在解决问题的过程中对其进行了更详细和深刻的思考。 更重要的是,DeepSeek-R1-0528超过了这六个基准的阿里巴巴QWEN3-235B,其数学生成功能及其代码也超过了Google的Gemini-4.5-Pro-0506。但总的来说,与O3相比,该模型仍然存在一些差距。 在其他更新中,DeepSeek-R1的新版本具有已针对幻觉问题进行了优化。以前,在对远古化的Vectara Hhem人工测试的测试中(如果音量与原始证据一致,则由发现语言模型形成,从而检查模型的幻觉率),DeepSeek-R1的Guni-Guni速率为14.3%,是DeepSeek-v3近4倍,并且是该行业的平均平均值。 与旧版本相比,更新的模型将幻觉率降低了约45%-50%的情况,例如重写和抛光,汇总,摘要和阅读理解,这可以有效地提供更准确和可靠的结果。 在创意写作方面,更新的R1模型已针对论证论文,小说,散文和其他流派进行了优化,并且可以输出长度较长且更完整的结构的长期工作,同时显示出更接近人类偏好的写作风格。 DeepSeek-R1-0528还支持工具呼叫(非支撑),在Tau-ben中得分为53.5%CH / 63.9%的审查,可与OpenAI-O1-High相当,但仍具有O3-High和Claude 4十四行诗的空间。 Tau-Bench是由Openai董事长Bret Taylor创立的Sierra的公司,他评估了AI代理商与现实生活中复杂活动中用户和工具互动的能力。这主要是设计两个垂直字段:零售(零售场景)和航空公司(飞机场景)。 此外,新版本的R1 API仍然支持模型思维过程,并增加了对呼叫和jsonOutput的支持。调用函数是一个呼叫功能,它是一种机制,可以在特定任务中呼叫AI模型来调用预定的操作或API。它用于增强模型处理和功能。它是在大型模型和外部世界之间参与的关键技术。 主要模型,例如OpenAI的GPT模型和Baidu Wenxin模型都称为该功能的功能。这也意味着DeepSeek-r1-0528模型将增强与外部工具联系并帮助开发代理应用程序的能力。 DeepSeek还表示,DeepSeek-R1-0528在前端代码生成,角色扮演和其他领域的功能已得到更新和改进。 在代码功能方面,代码试验平台显示了去年的模型测试,DeepSeek-R1-0528的性能仅次于Openai于4月发布的O4 Mini和O3高版本。 就模型上下文的长度而言,官方网站上的新R1模型的上下文长度仍然为64K。如果用户需要更长的上下文长度,他们可以通过其他第三方平台调用带有128K上下文的R1-0528模型的开放版本。 正确的DeepSeekang DeepSeek-R1-0528是蒸馏的。消除了模型的思维链后,训练了Qwen3-8b基础,并获得了DeepSeek-R1-0528-QWEN3-8B,并且仍然有相对强大的理由G能力。 例如,数学测试模型AIME 2024的性能仅次于Deviceek-R1-0528,Alibaba和Qwen3-32b的Qwen3-8b以及Microsoft的PHI-4-14B,与QWEN3-235B相当,具有较大的参数。 DeepSeek说:“我们认为,DeepSeek-R1-0528思想链将是对学术推理模型的研究和行业中小型模型的发展的重要意义。” 目前,该模型目前是在Modai和Huggingface社区中采购的,并获得了MIT许可证的许可。 DeepSeek-R1系列(包括Baseand聊天)支持商业用途和蒸馏。 开发商评论说:“这是开放资源的另一个重大成功”,“开放资源的另一个里程碑”。 DeepSeek行业状态在Google上升级并返回到全球开放资源的顶峰 尽管DeepSeek已正式表示,目前它是一个小型升级版本,但它仍然引起人们对国内和Foreig的极大关注n社区。 人工评论是一个专门用于基准测试和AI评论的独立平台,他说,最新的DeepSeek模型超过了XAI,META和人类,并与Google息息相关,成为世界上第二个领先的AI实验室,并成为资源无可争议的领导者。 该机构表示,DeepSeek-R1-0528得分从60跃升至68,达到交互指数(包括基准的七个针迹,包括一般能力,数学,科学,代码),这与OpenAI的O1至O3的增加相当(从62到70)。 Ayon sa pinakabagong pagraranggo na inilabas ng ahensya, ang komprehensibong antas ng katalinuhan ng Deepseek-R1-0528 ay lumampas sa mga modelo ng inference tulad ng Anthropic's Claude4-Sonnet, Alibaba's Qwen 3-253b, Google Gemini 2.5 Flash, Xai's GroK 3 Mini (Mataas),在Pareho sa Google Google Gemini 2.5 Pro,在Ang Dalawang Puntos Lamang Sa Openii的O3和O3,O3,O3和O3 and O3 and O3和O3和O3 O4 Mini(高),恢复了世界上最强的最强地位开放资源。 近年来,世界上最早的模型一直在OpenAI,Gemini,Grok和其他模型中流通。一些网民说,DeepSeek现在正在回头。 人工评论还宣布,在审查9900万个令牌时使用了DeepSeek-R1-0528,在原始R1中使用了40%的than71亿个令牌,也就是说,新型号需要更长的时间来考虑它。 “但这并不是我们看到的令牌的最高用途,而Gemini 2.5 Pro代币的使用比R1-0528高30%。” 在实际测试中,许多网民也认为模型的思维链变得更长,并且思维更深。一些复杂的任务可能需要30分钟至60分钟,这也引起了跌倒的问题。 “我希望我可以控制思维水平,否则它的实用性将相对较低,并且在各种情况下都将非常困难。”由开发人员提到。 该机构还认为,DeepSeek-R1-0528开发带来了三个重要的启示。首先,开放资源和封闭资源模型之间的差距很狭窄,开放资源模型已经包装了明智的改进,可与所有权模型相提并论。 其次,它反映了中国与美国之间激烈的AI竞争。中国的AI的AI实验室模型几乎完全陷入了美国同行。该模型的发布延续了这一趋势。 第三个是加强研究以促进改进。在维护原始的体系结构和预训练的同时,Deptseek通过刺激性学习技术实现了显着的智能改进。 Openai先前曾透露,从O1到O3的增强研究数量增加了10倍,DeepSeek表明他们可以维持OpenAI兴奋性研究的计算增长量。 “强化研究的比例比例比预训练的计算较少,这是一种实现智能的方法改进,对于具有较少计算源的AI实验室尤为重要。 “ 培训后和高质量数据的推理共同起作用,R2有多远? 在很大程度上,新的R1模型的改进不仅仅是训练后培训优化。 根据DeepSeek的说法,DeepSeek-R1-0528使用2024年12月发布的DeepSeek V3基本模型作为基础。通过投资更多的计算能力以及在训练过程中的算法优化机制的引入,模型的思维深度和推理能力已大大提高。 此前,DeepSeek的创始人Liang Wenfeng签署的团队发行了一篇新论文,代表DeepSeek-V3,该论文深入探讨了,以使用硬件架构和模型设计,包括内存优化,计算功率优化,通信优化和力量计算,从而为实现成本效益的大型大规模尺度训练提供了想法和推理。 一个实用的AI说,DeepSeek-R1-0528仍是根据原始V3主模型对培训的,但是性能已经显着提高,并且蒸馏小型模型可以击败更大的模型,从而证实了无尽的训练后潜力。 “对加强研究是一项有力的技术,可以提高AI的性能,而且它也很昂贵。但是Deptseek的成功图表是由研究扩展的研究所驱动的改进,扩大了增强研究的研究可能比扩大的预训练更有效。 援助是领先大型模型的主要国内算法的研究人员,在SOHU技术中也提到,此时新的R1模型的改进在代码的功能中更为明显,也没有与高质量数据相距。 “ DeepSeek-R1-0528停车范式成功的关键是拥有更多和更高质量的培训后数据,而不是迷信。两者都不是一个Or另一个,但迭代的改进。 人们认为每个人现在都在做信息,但是忽略了数据质量的简单问题。 DeepSeek-R1-0528此时提醒您,高质量培训数据的边际益处很高。 两个月前,DeepSeek宣布,V3模型已更新并升级到DeepSeek-V3-0324,该模型已进一步优化了P功能插图,数学推理,创意活动等。它被评为世界上“最强大的非参与模型”。 目前,随着R1模型的更新,它再次引起了网民对R2的关注。 “这不是有点升级。这次我似乎看不到R2。”上述研究人员还预测,在释放V4后可能无法使用R2。 目前,社区平台上有很多有关R2的消息,包括1.2万亿元的参数量表,成本将降低。预计将是LAU在今年的第三季度被NCH。但是,这些消息并未被DeepSeek正式确认。 DeepSeek在其用户基础上的最新声明表示,目前将与公众无法使用,并且不会提供私有化的扩展和相关服务NG支持。它还说:“我们将专注于研发并提供更强大的模型,因此请保持专注。”这意味着DeepSeek仍然不被视为商业化,而是致力于研发。 网民似乎还总结了DeepSeek的发布政策:在重要假期之前进行更新。下一个重要的假期是四月节和全国重叠日。让我们看看DeepSeek当时将使用的大动作。回到Sohu看看更多
Tel
Mail
Map
Share
Contact