
数据短缺,AI的石油危机
2024年12月, OpenAI联合创始人IlyaSutskever在NeurIPS大会上宣布:「预训练时代将毫无疑问地结束」他把数据比作化石燃料,「我们已经到了数据的最高点,不会再有更多数据了」。
过去十年里, AI行业信奉ScalingLaw,也就是堆积算力、堆积参数还有堆积数据,觉得这样模型能力就会展现出来,不过Sutskever表示,互联网数据增长已经碰到了上限,再接着扩大预训练那就只会是边际效益减少,2024年下半年,OpenAI那个代号为Orion的模型就证实了,单单增加参数可没有达到预想的提高。

从记忆到思考,推理时运算的兴起
ScalingLaw没有失效,只是换了一个发动机罢了
传统预训练让AI死记硬背,而推理时的计算让AI学会思考,OpenAI的o1模型已经展现出这样一条路,碰到复杂问题的时候, 模型在回答之前得进行多步推理,花更多算力来换更深入的智能,2025年1月,DeepSeekR1开源了,这就证明这不是只有巨头才能够做到的事情。
Sutskever对两种扩展做了区分,如今的Scaling不再是靠预训练的暴力堆积,而是ScalingRL在推理阶段投入算力, 让AI像AlphaGo那样进行试错学习。
但他有疑问, 「你当下做的事情是效率最高的吗,在某种程度上,我们又回到研究时代了」靠大量投入出效果的逻辑已经走到头了,AI行业得去找下一个「Transformer级」的突破。
应用场景,当AI从复读机变为解题家
医疗诊断方面, 以前AI靠着模式识别,碰到罕见病常常没办法,而新模型能够一步步分析症状、推导病因,疑难病例诊断准确率提高40%以上,而且还能展示诊断逻辑链。
科学研究领域,传统AI仅仅能推荐已知的材料, 可是新系统能从第一性原理出发预测全新化合物的性质,谷歌DeepMind的AI已经帮助发现好几种新型晶体结构,把好几个月的实验缩短到几天。

日常决策的时候,老版本的AI只能根据关键词推荐景点,但是新一代的AgenticAI会主动问预算、特殊需求,自己完成机票比价、酒店预订、行程优化, Sutskever预测,未来AI会有真正的主动性。
争议与挑战,超级智能的双刃剑
推理能力提升会带来不肯定性
Sutskever提醒说, 「系统的推理能力越是强大,它的行为就越是难以预料」就像高级AI在下国际象棋的时候人类不能提前知道它会怎么下棋。
对于数据瓶颈的处理办法有很多争议
合成数据被看成救命的办法,但可能会产生回音室效应, Meta的前研究员DhruvBatra反驳说视频数据远远超过了处理能力,可是提取和标注的成本还是个难题。
伦理方面就更复杂了
当AI有自我意识和自主决策能力的时候, 要不要给它权利,Sutskever坦率地说,「这可能要创建某种自上而下的社会治理结构,我想不出办法」
未来的样子,研究时代的重新兴盛
AI行业正处于从工程回归科学的转型进程之中, Sutskever将2020-2025年定义为Scaling时代,并且预言我们马上就要进入奇迹与发现时代。
当下对于推理时计算的那种狂热或许仅仅是一个过渡状态,真正的突破不要去探寻「NextTransformer」一种从根本上提升学习效率的新架构, 不只是简单地堆砌算力。

未来3到5年,AI能力将会出现两极分化情况,基于现有架构的推理优化会很快实现商业化,AgenticAI会渗透到各个行业之中,底层创新或许会陷入停滞, 直到某个实验室发现新的配方。
对于个人而言,简单的提示词工程会迅速贬值, 而理解AI推理逻辑、和它一起协作解决复杂问题的能力,将会成为新的核心竞争力。
当预训练的免费午餐已经结束, AI发展正式进入困难模式,这既是警钟,也是号角就像Sutskever所说,「我们正处在大变化的前夕。」
这一回,没有现成的地图,只有要被重新发现的第一性原理
思考问题:
如果AI真的具备自我意识和不可预测性,你愿意将重要决策权交给它吗?
在数据枯竭的背景下,合成数据与人类生成数据的最佳比例应该是多少?
延伸阅读:
Ilya Sutskever NeurIPS 2024演讲完整视频
DeepSeek R1技术论文:arXiv开源项目页面
声明:本文内容超过90%为原创,少部分借助AI进行辅助,但所有内容均经过本人严格审核与核对。所用图片均为真实拍摄或AI生成的原创素材。全文旨在传递积极健康的价值观,不含任何低俗或不良导向。特此说明,敬请读者知悉。
股票配资资质,配资平台股票开户,配资炒股平台网提示:文章来自网络,不代表本站观点。