News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

O3正在上升,但是理解模型距离“压墙”仅一年了

Xin Zhiyuan报告编辑:Yingzhi [Xin Zhiyuan简介] O3的Openai推理沉入了AI世界,计算的实力为10次,其功能提高了飞跃和边界!但是专家警告说:将近一年的时间,识别模型可能已经达到了一年的计算电源限制。 Openai还能带来惊喜吗?在将近一年的时间里,识别模型将达到计算训练力量的“上限”。理解诸如Openai的O3之类的模型不到一年前就出生了,其功能改善了飞跃和界限。 Openai研究人员非常乐观,以至于这种趋势将继续下去。但是问题是:识别模型将有多远? Epoch AI是一个独立的AI研究团队Nak Nakand的前景研究,对大型模型的发展速度,发展和可能的社会影响。他们认为,理解模型有改进的空间,但并不是真的可以实现OPEnai或其他领先的AI公司实现“指数级别”。在目前的速度下,计算功能每隔几个月(例如O1至O3)增加10倍,并且估计它将撞到墙壁将近一年。到2026年,膨胀速度缓慢​​,每年恢复4次增长速度,并且模型升级速度也很慢。如果量表的增加(例如O1至O3)继续进行,那么计算资源计算的可能轨迹增长的主要提示如下:O3计算训练是10次O1,通常在仔细的训练阶段在特定的训练阶段,O3将在O1释放后4个月发布。尽管我不知道O1幂的用途数量,但DeepSeek-R1可以用于参考。 NVIDIA和PHI-4-MICROSOFT的Llama Nemotron也表达了一些培训细节。人类首席执行官达里奥·阿莫迪(Dario Amodei)也表达了相关意见。切割边缘切割成本有多少计算强度? oPenai的O3和其他识别模型都是从传统的大型语言模型中开发的。最初,该模型将使用大量的手动注释数据进行“预训练”;然后输入加固的刺激阶段,并通过反馈“理解”训练来优化模型解决问题的能力。历史,计算的力量是人工智能的关键发展。因此,我们需要知道:今天的推理培训使用了多少计算强度?它可以是多少,如何影响模型的技能?尽管理解模型在AI圈中非常受欢迎,但关于了解计算识别能力模型的培训的公众信息很少。从O1到O3:推理的计算能力增加了十倍。 Openai发送了一张图片,将O1和O3性能与AIME基准测试进行了比较。水平轴是计算训练的强度。它表明强度OO3训练的F计算为10倍O1。引用了Openai的O3实时广播会议,为什么说水平轴不是最终力量?由于O1的早期版本的计算强度为4个磁磁级,小于O3,但是AIME标记为25%,如果您最终计算计算能力,则此结果将非常生气。此外,如果水平轴是总计算源,则意味着OpenAI正在训练许多预先的训练 - 在训练阶段,O1的高度不完整版本。 OpenAI研究人员最近透露,该公司计划专注于开发未来的增强研究,并投入更多的计算资源,而不是在初始模型中进行培训。 O3使用多少计算强度?目前还没有真正的证据,因此我们需要寻找其他模型和行业内幕词的线索。 DeepSeek-R1的观点大多数AI公司都严格培训细节,但DeepSeek慷慨揭示了R1数据:DeepSeek-R1在一项强化研究中花费了6×10²³的浮点操作(成本接近100万美元),形成了2万亿代币,这约为主要DEPSEK-V3模型的前培训前成本的20%。尽管这些数据有错误,但仍然有帮助。 DeepSeek-R1和O1水平相似,可以用作基准测试。但是,由于多种原因,Deptseek-R1的构想的力量可能与O1不同。两个模型的计算的参数和效率不同,因此结果仅用于参考。 Llama-Nemotron Ultra 253B和Microsoft的Phi-4折扣中其他识别模型的表现也显示出Llama-Nemotron的数据:使用140,000个小时的H100 Computiof Power(大约是1×10²³浮点操作)的140,000小时,这是基本模型初始模型的成本少于1%。 PHI-4轨:识别阶段的大小较小,构成4.6亿个令牌,成本OF计算小于1×10²⁰浮点操作,计算强度的消耗少于预训练的0.01%。这两种模型都在基准上取得了出色的成果,以及与DeepSeek-R1和O1相同的分数的Llama-Nemotron。但是,它们都使用了其他理解模型形成的趋势的大量高质量示例在刺激研究阶段之前进行了“管理微调”。它们在切割模型(例如O1和O3)的训练逻辑上有所不同,并且参考值有限。巨型行业如何看待?总的来说,这些信息在理解O1或O3的计算强度训练的大小方面有限。肯定的一件事是:对于某些模型,例如PHI-4,计算训练的来源(至少在加固的刺激阶段)可能相对较小。这并不意味着O3也接受了相同数量的计算源训练,但表明这很难Ult可以判断仅一种理解模型的理解力量的大小在基准上表现良好。此外,传统上管理的微调可以在开发识别模型中发挥重要作用。由于采用了各种培训方法,在不理解公共培训细节的情况下,很难预测对培训模型量表的理解。拟人化的首席执行官Si Sidario Amodei于今年1月提到:当前的强化学习培训是在“新手村”中,花费100万美元比花100,000美元要好。每个人都在试图扩大培训量表,在此阶段将投资提高到数百万。在数十亿美元的数十亿美元中,我们处于消费的关键点,而新的范式才刚刚开始,因此它迅速增长。不可能确定100,000美元还是100万美元是否反映了其对培训特定型号(例如O1,O3或DeepSeek-R1)的估计。但是可以看到当前训练理解模型的成本并没有达到他们将资金燃烧到飞行的地方的地步,即少于数亿美元的浮点运营。通常,这一估计值表明,计算能力的大小与O1和O3之间的“计算功率天花板”之间的差距可能不会达到很多数量级。毕竟,在理解阶段使用超过1×10³的浮点操作,有一些模型(例如DeepSeek-R1和Llama-Nemotron Ultra),O1和O3可以使用更多的计算源。计算能力的增长如何影响AI开发的计算?当前识别能力模型的水平对短期AI开发有重要影响。 O3取决于10倍计算能力以压碎O1,并全面升级数学,编程和代码编写。至少在这些领域,E计算训练的强度与模型功能有关。效果越明显,那么更多的计算功能。这些模型可以执行更多的计算问题,从而提高其性能,但是与传统模型相比,劣势完成任务的时间更长。尽管目前尚无关于推理训练量表的法律(例如训练量表定律法)的严格研究,但OpenAI所示的比例曲线类似于经典的日志线性量表定律。 DeepSeek-R1纸张图还表明,随着概念训练步骤的数量增加,精度率大约增加对数。它表明,至少在数学和编程活动中,类似于培训的识别和培训模型之间的性能与培训模型之间的关系具有一定的效果。因此,在接下来的几个量表扩展中,您会看到模型性能的重大和快速改善。 AIME测试中的O1性能S与训练计算源相关,但是一旦计算推断的力量达到了天花板,增长率就可以从“ 10次几个月”下降到“每年4次”。如果预见的训练与切割计算的一般力量之间的间隔只是数量级的少数数量级(例如少于三个数量级),则估计增长率在一年内放缓。推理可以扩展吗?事实并不那么简单。图形卡还不够,数据是扼流圈的关键。锻炼训练需要很多困难的问题数据,但是高质量的问题不是永恒的,并且查找问题,编辑问题和数据开发并不容易。在复杂的情况下,除了数学和编程以外,例如理解复杂的人类情绪,如果理解模型同样有用,则仍然未知。在发展理解模型时,真正值得的钱可能不会本身要训练,但是大量的反复试验实验 - 测试不同的问题,评分策略和培训方法,这些成本目前是无预览的。虽然成本随着技术的增长而降低,但这些隐藏成本可能会限制模型的扩展。对于AI行业,任何表明推理模型可能会在短期内打入开发瓶颈的消息都将使人们感到高兴。毕竟,为了开发这种模型,目标的目的是涌入其中的许多资源。研究表明,与某些传统模型相比,运行的理解模型非常昂贵,并且更有可能具有幻觉。回到Sohu看看更多
Tel
Mail
Map
Share
Contact