来源:微博头条
作者:张俊林
责编:梦依丹
Scaling Law过去是、现在是、将来也会继续是推动大模型快速发展的第一动力,我自己一般是通过它来对大模型未来发展悲观乐观做总体判断的,只要目前Scaling Law仍然成立,其实就没有看衰大模型未来发展的理由,如果硬要看衰,那被打脸的概率相当之大,真正可以看衰大模型未来发展的时机是什么?如果什么时候发现Scaling Law熄火了,此时看衰,赌对的概率会大很多。
最近之所以 Deepseek R1火出天际,一个重要原因是它复现并开源了大模型Post-Training和Inference两个阶段Scaling Law的具体做法,模型效果拔群。关于Scaling Law,我一直有几个疑问,比如 Scaling Law曲线可以无限增长吗?再比如,目前我们有三种Scaling Law(Pre-train、RL、Test Time),它们组合起来的Scaling Law看起来是什么样子?诸如此类的问题。
本文后面打算用S型智能增长曲线来解释我们目前看到的Scaling Law的一些现象。其实智能发展应该遵循S型曲线,这不是新观点,LLM最大的反对派Lecun和第二大反对派马库斯,去年在Twitter上就反复提过这个观点,以此作为否定LLM未来发展的重要依据。我个人是比较赞同用S型曲线来描述AI智能发展的,但可惜的是,关于这个话题并没有后续更深入的讨论,所以计划把它和Scaling Law联系起来,期望对此能有更具深度的一些思考,这里很多都是我自己的推断,还请谨慎思考,权且当做一种思想实验即可。
AI智能的S型增长曲线
1.1 世上没有永远持续的增长,只有S型曲线式增长
世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则,即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧?所以,我觉得很可能各种看着貌似可以无限增长,但那是因为我们看它的时间窗口还是太短,S型增长曲线(Sigmoid函数刻画的非线性曲线)可能才是更准确对增长准确描述的曲线,要我猜AI智能增长趋势大概也是如此。
随着时间的发展(参考上图),早期AI相关技术处于探索期,不确定性大,进展缓慢,产生重大技术突破后,进入技术突破期,AI智能呈现指数增长态势(Sigmoid函数快速增长阶段),之后进入技术成熟期,AI智能进入平台期,增长缓慢或者停止增长。
假设我们此刻站在快速增长期,此时对未来进行判断,会看到陡峭的智能增长曲线,会倾向于把这种
高速增长外推,以为AI智能会永远像现在这样保持指数级的高速增长,但事实是:如果加入短期未来时间增量Δshort-time,看着AI智能确实是处于高速增长,但若把时间周期放长,加入Δ long-time,则会看到不同的景象,Sigmoid智能增长曲线进入平台期,就是说AI智能增长这事情不会一直这样持续下去,早晚总会到顶。当然,这不代表AI的智能不会超过人类平均水平,甚至达到SGI的超人类水平,这两者并不矛盾。
1.2 S型智能曲线的叠加仍然是S型曲线
Sigmoid函数(参考左图中的公式)有个很好的性质:若我们把多个S型函数累加,形成的曲线仍然是S型曲线,不过它的取值范围区间拓宽了。参考上图,三个取不同K值(K值大小决定了Sigmoid函数快速增长区间走势的陡峭程度,K越小,越平缓,K越大,越陡峭,请记住这个知识点,后面我们会用到)的Sigmoid函数,累加后得到的曲线也是S型曲线,只是它的最大高度由1拓展到了3(每个Sigmoid函数取值范围[0,1],三个叠加就是3*[0,1]=[0,3])。
尽管最近两年大家都在谈大模型的Scaling Law,但很明显对它的理解整体还比较表面化(包括很多学术论文),不少市面上咖位比较大的大佬出来讲,你会发现他讲的观点是非常随意的,很明显没有深入思考过,有些甚至存在明显的错误(如果我们以Chinchilla Scaling Law作为标准答案来看的话)。
我一直试图思考产生这个现象背后的原因,觉得大模型Scaling Law里的关键秘密很可能就隐藏在类似上图的S型曲线叠加里(个人观点无实证,谨慎参考),对照上面的S型曲线叠加图,我这里列出两个问题,您可以费心思考一下:
问题1:您能用这个知识点解释下Pre-Training阶段的Scaling Law为何会表现出我们目前看到的现象吗?
问题2:您能用这个知识点解释下Pre-Training阶段的Scaling Law和RL Scaling Law,乃至Test time Scaling Law三者之间的关系吗?
我们下面就探讨这两个问题,不过我想很多聪明的朋友可能已经知道我想要说什么了,相信我,第二个问题可能比较容易想到,第一个其实是不太容易的。
从S型曲线推导Scaling Law的未来
2.1 三种Scaling Law
我们知道,大模型主要有三个阶段:预训练、后训练和在线推理(inference)。在24年9月前,大模型领域只有一个Scaling Law,就是预训练阶段的Scaling Law,之前炒的比较热的“Scaling Law撞墙说”,指的是这个阶段。OpenAI o1推出后,另外两个阶段不再孤单,也各自拥有了姓名,产生了各自的Scaling Law,对应后训练阶段的强化学习Scaling Law(RL Scaling Law)和在线推理阶段的Inference Scaling Law(也叫Test Time Scaling Law)。
三个阶段Scaling Law核心思想是一样的:就是说在本阶段,如果增加算力,则大模型效果会持续提升。当然上图中每个阶段的Scaling Law之所以呈现S曲线,这是我画的,我的假设如本文开头所说,不存在无限增长的曲线,所以Scaling Law曲线也呈现出S型曲线的形态。这一点估计很多人不同意,认为Scaling Law会持续指数增长? 这个算非共识,我们暂且按下不表。
是为目前现状。
2.2 用S型增长曲线解释Pre-Train 阶段的Scaling Law
我觉得用S型增长曲线叠加,大致可以解释我们当前看到的预训练阶段Scaling Law产生的各种现象。我个人习惯把大模型的智能粗分为三大类:语言智能、世界知识智能和逻辑推理智能。在预训练阶段,大模型学习这三类智能的难易程度为:语言智能最容易学习,也学得最好;其次是世界知识,最难的是逻辑推理智能,在基座模型角度,这方面的总体能力是比较弱的(上述现象,有大量实证证据,可视为事实)。
如何用S型曲线叠加,来解释大模型预训练阶段Scaling Law出现的这种现象呢?参考上图,我觉得,可以认为语言、世界知识和逻辑推理,作为基本能力,各自都有对应的一个Sigmoid函数,随着算力的增加(增加模型大小和数据量),这方面的能力持续增加,且三个基本能力的Sigmoid函数各自对应不同的K值,K值越小走势越平缓,意味着学习难度越大,因为走势平缓代表增加很多算力或数据只获得了少量的能力提升。很明显,语言能力对应的K值最大,最容易学习,其次是世界知识,K值最小的是逻辑推理能力。
而大模型的总体智能水平Scaling Law曲线,是三个S型曲线的叠加,前面我们提过,叠加后的曲线仍是S型的,这对应Scaling Law测试到的Next Token Prediction对应Loss曲线(Loss是越小越好,上面作为智能衡量是反过来的,所以越大越好)。
那新问题来了:为啥语言能力最容易被大模型学到,而逻辑推理能力最难被学到呢?我个人经过思考,得出的可能原因或猜想是这样的:
“能力密度”猜想:决定某项能力Sigmoid函数对应K值大小的主要因素,取决于训练数据中包含体现此种能力的数据在总体数据的占比情况,可称之为“能力密度”,即:
A项能力的能力密度=训练数据中体现A项能力的数据总量/训练数据总量
比如对于语言能力来说,任意一份文本,都包含大量语言要素在内(词法、句法、语义等),所以训练数据中包含体现语言能力的“能力密度”最高,于是对应Sigmoid函数的K值就越大,能力上升曲线就越陡峭,意味着使用少量算力或数据对大模型的语言能力就有明显提升,但是随着数据增加,相关智能曲线也很容易见顶走平。反过来,能体现逻辑推理能力的数据一般包括:代码、数学、科学题目等,很明显,这种数据在数据的自然分布中占比天然就很小,所以逻辑推理能力对应Sigmoid函数K值就很小,导致学习难度很高,即使大量增加总体数据,效果提升也不明显。
如果归纳下最近两年先进大模型的进展,除了不断增加模型大小和数据总量外,从数据层面,我认为大模型快速提升智能最关键的方法有两条:
关键方法一:大量增加代码、数学等能提升逻辑推理能力的数据在总数据量中的占比。这种数据因为天然数据量少,所以可看成一种更珍贵的数据资源。
关键方法二:越是珍贵的数据资源,越要把大比例这类数据放在预训练的最后阶段,比如目前常见的所谓预训练最靠后的“退火”阶段,其实就是把大比例逻辑推理类数据放在最后一个阶段,去调整模型参数。
至于其它具体技术手段重要吗?比如是MOE还是Dense?或者其它技术,我个人认为不是太重要,很多最近两年提出真正有效的技术,大部分都对降低大模型训练和在线推理的成本有巨大帮助,但对于提升模型智能,可能帮助不大,真正帮助大的有可能是上面两个数据因素。
我举个例子,比如Deepseek V3提出的Multi-Token Prediction,这是个纯算法改进,V3论文也给出了实验数据,证明对大模型效果有正面作用,看着貌似是通过算法优化带来模型质量的提升是吧?但是,如果你仔细分析过实验数据,结论大概是这样的(我自己分析推断的,不保真):随着模型规模变大,Multi-Token Prediction带来的收益是递减的,如果规模到了V3最后版本的671B大小,大概它的收益就没有了。它的真正作用是什么呢?如果在线推理的时候,把它和“投机解码”联合起来,在线推理速度能提升大约1.83倍,也就是说,其实Multi-Token Prediction的主要作用是用来提升在线推理速度的,但是如果你只看论文,不仔细分析的话,很容易把它误读为用它是来提升大模型智能的。
跑题了,说回来。从S型曲线叠加的角度,如何解释上述两个关键做法起到的作用呢?先看关键做法一,增加代码、数学题目等的数据占比,等价于什么?等价于增加逻辑能力的能力密度,也就是加大对应Sigmoid函数的K数值,这等于改变了逻辑推理能力Sigmoid函数走势的陡峭程度(参考上图New Logic曲线)。也就是说,在相同算力条件下,通过这种方法可以快速提升大模型的逻辑推理能力,导致大模型总体智能快速增加。(有人问了:你增加逻辑题目占比,那么语言和世界知识数据就会降低占比,这两方面能力不就降低了吗?我觉得,如果做公平对比实验的话,大概会看到这种现象。但是逻辑推理能力对于提升大模型智能更为重要,所以这种损失是合算的)。
再看关键方法二,之所以把相当比例的珍贵数据(逻辑推理类)放在训练靠后的阶段能快速提升大模型智能,其实也跟增加逻辑推理的“能力密度”有关系。这等价于在训练靠后的阶段,临时把逻辑推理能力对应Sigmoid函数的K数值调得非常大,参考上图绿色曲线阴影部分曲线的突然增长(退火阶段,大部分都是逻辑推理类数据,等于在这个训练时间范围内,逻辑推理类数据占比急剧增大,能力密度剧烈提升,对应Sigmoid 函数的K值大幅提升)。
2.3三阶段Scaling Law智能叠加
如何用S型智能增长曲线叠加原理,来解释目前阶段大模型的Scaling Law呢?这个貌似比较直观(参考上图),我们原先只有预训练阶段的Scaling Law,普遍认为已经走缓(绿色曲线,对应Sigmoid的K数值相对应该较低);而O1/R1类模型开启了RL和Test Time阶段的新型Scaling Law。很明显,这两个阶段Scaling Law对应Sigmoid函数K数值应该比较大,因为只需增加较少的算力,大模型的智力水平就得到了剧烈的增长,说明它们对应的走势是比较陡峭的(我觉得RL阶段比Test Time阶段应更陡峭些)。
严格意义上,RL和Test Time Scaling law并不应和预训练阶段Scaling Law等效,它们增强的主要是逻辑推理能力,所以RL Scaling Law其实是在原先预训练阶段Scaling Law组成成分之一的逻辑推理能力S型曲线后面,再接上了一个新的S型曲线,然后再接上Test Time阶段逻辑推理能力的新S型曲线,类似一个接力赛。
不论怎样,如果我们把三个S型曲线叠加,就得到了智力更高的大模型,以及它对应的Scaling Law,也呈现出S曲线形态。
我个人比较相信的一点是:无论是RL还是Test Time,它们的Scaling Law曲线也应是S型的,就是说总会到顶,或者说早晚要撞墙。也许现阶段最值得讨论的问题是:它们两个何时或者什么条件下会撞墙?如果撞墙了,有没有新的Scaling Law能顶替上来?如果有,那么就可以往图上新增一个S型曲线,这会进一步提升大模型的整体智能(大模型摩尔定律?:通过技术创新,不断产生新的S型Scaling Law子曲线,叠加到现有曲线中,以此来制造出大模型效果整体仍在指数上升通道假象的S型曲线。)而且,最关键的问题可能是:如果有,那么,这个新的Scaling Law会是什么?这可能是当前阶段最有价值的一个问题。
原文链接:
https://weibo.com/ttarticle/x/m/show/id/2309405132431274410022?_wb_client_=1&s_channel=5&s_trans=1064649941_
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。
截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告
2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
Deepmind:AI 加速科学创新发现的黄金时代报告
Continental 大陆集团:2024 未来出行趋势调研报告
埃森哲:未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学:2024 具身大模型关键技术与应用报告
爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能
欧洲议会:2024 欧盟人工智能伦理指南:背景和实施
通往人工超智能的道路:超级对齐的全面综述
清华大学:理解世界还是预测未来?世界模型综合综述
Transformer 发明人最新论文:利用基础模型自动搜索人工生命
兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现
兰德公司:新兴技术领域的全球态势综述
前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)
罗戈研究:2024 决策智能:值得关注的决策革命研究报告
美国航空航天专家委员会:2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述:过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告 英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版
Linux 基金会 2024 去中心化与人工智能报告 英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版
Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版
Gartner2025 年重要战略技术趋势报告 英文版
Fastdata 极数 2024 全球人工智能简史
中电科:低空航行系统白皮书,拥抱低空经济
迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战
哈佛博士论文:构建深度学习的理论基础:实证研究方法
Science 论文:面对 “镜像生物” 的风险
镜面细菌技术报告:可行性和风险
Neurocomputing 不受限制地超越人类智能的人工智能可能性
166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)
未来生命研究所:《2024 人工智能安全指数报告》
德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。
2024 世界智能产业大脑演化趋势报告(12 月上)公开版
联邦学习中的成员推断攻击与防御:综述
兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版
Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版
Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版
MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告
DeepMind:Gemini,一个高性能多模态模型家族分析报告
模仿、探索和自我提升:慢思维推理系统的复现报告
自我发现:大型语言模型自我组成推理结构
2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书
《自然杂志》2024 年 10 大科学人物推荐报告
量子位智库:2024 年度 AI 十大趋势报告
华为:鸿蒙 2030 愿景白皮书(更新版)
电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209
中国信通院《人工智能发展报告(2024 年)》
美国安全与新兴技术中心:《追踪美国人工智能并购案》报告
Nature 研究报告:AI 革命的数据正在枯竭,研究人员该怎么办?
NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习
LangChain 人工智能代理(AI agent)现状报告
普华永道:2024 半导体行业状况报告发展趋势与驱动因素
觅途咨询:2024 全球人形机器人企业画像与能力评估报告
美国化学会 (ACS):2024 年纳米材料领域新兴趋势与研发进展报告
GWEC:2024 年全球风能报告英文版
Chainalysis:2024 年加密货币地理报告加密货币采用的区域趋势分析
2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告
世界经济论坛:智能时代,各国对未来制造业和供应链的准备程度
兰德:《保护人工智能模型权重:防止盗窃和滥用前沿模型》-128 页报告
经合组织 成年人是否具备在不断变化的世界中生存所需的技能 199 页报告
医学应用中的可解释人工智能:综述
复旦最新《智能体模拟社会》综述
《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述
《基础研究,致命影响:军事人工智能研究资助》报告
欧洲科学的未来 - 100 亿地平线研究计划
Nature:欧盟正在形成一项科学大型计划
Nature 欧洲科学的未来
欧盟科学 —— 下一个 1000 亿欧元
欧盟向世界呼吁 加入我们价值 1000 亿欧元的研究计划
DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告
兰德《人工智能和机器学习用于太空域感知》72 页报告
构建通用机器人生成范式:基础设施、扩展性与策略学习(CMU 博士论文)
世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版
人工智能行业应用建设发展参考架构
波士顿咨询 2024 年欧洲天使投资状况报告 英文版
2024 美国制造业计划战略规划
【新书】大规模语言模型的隐私与安全
人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204
美国环保署 EPA2024 年版汽车趋势报告英文版
经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势 英文版
华为 2024 迈向智能世界系列工业网络全连接研究报告
华为迈向智能世界白皮书 2024 - 计算
华为迈向智能世界白皮书 2024 - 全光网络
华为迈向智能世界白皮书 2024 - 数据通信
华为迈向智能世界白皮书 2024 - 无线网络
安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版
2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告
《2024 年 AI 现状分析报告》2-1-3 页.zip
万物智能演化理论,智能科学基础理论的新探索 - newv2
世界经济论坛 智能时代的食物和水系统研究报告
生成式 AI 时代的深伪媒体生成与检测:综述与展望
科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版
计算机行业专题报告 AI 操作系统时代已至 - 241201
Nature 人工智能距离人类水平智能有多近?
Nature 开放的人工智能系统实际上是封闭的
斯坦福《统计学与信息论》讲义,668 页 pdf
国家信息中心华为城市一张网 2.0 研究报告 2024 年
国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版
大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战
毕马威 2024 年全球半导体行业展望报告
MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119
DeepMind 36 页 AI4Science 报告:全球实验室被「AI 科学家」指数级接管
《人工智能和机器学习对网络安全的影响》最新 273 页
2024 量子计算与人工智能无声的革命报告
未来今日研究所:2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成:十年回顾
《以人为中心的大型语言模型(LLM)研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告 英文版
理解世界还是预测未来?世界模型的综合综述
GoogleCloudCSA2024AI 与安全状况调研报告 英文版
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学 、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
上下滑动查看更多