GPT-5.5参数有10T？病毒式论文刚刚被打假，实际缩水至1.5T,gpt-3论文

新智元报道

编辑：Aeneas KingHZ

【新智元导读】五一假期前，AI社区被一篇「GPT-5.5拥有近10万亿参数」的论文刷屏，今天这项研究就被研究者打假了！研究者表示，修正论文中的各种问题后，GPT-5.5的参数很可能约为1.5T。

2026年4月底，AI界被一篇名为《不可压缩知识探针》（Incompressible Knowledge Probes，简称 IKP）的论文震动了。

论文地址：https://www.alphaxiv.org/abs/2604.24827

Pine AI的首席科学家Bojie Li发表了一项研究，声称通过一种全新的「黑盒探测法」，推算出了那些闭源模型的真实体量。

GPT-5.5：9.7万亿（9.7T）参数

Claude Opus 4.7：4.0万亿（4.0T）参数

o1：3.5万亿（3.5T）参数

这个数据瞬间引爆了社交媒体。

要知道，如果GPT-5.5真的达到了10T规模，那意味着它比传闻中的GPT-4（约1.8T）大了5倍有余。

一时间，这个参数瞬间传遍全网。

然而，仅仅几天后，反转就来了。

逻辑的漏洞：从10T到1.5T的缩水内幕

最近，来自UC伯克利CHAI实验室的Lawrence Chan和UK AISI的研究员Ben Sturgeon对这篇论文进行了深挖。

他们发现，这篇声称「逆推大模型规模」的爆火论文，竟然存在严重的逻辑与代码偏差。

修复这些问题后，GPT-5.5的参数约为1.5T（90% 置信区间：256B-8.3T）。

被修饰的拟合曲线

在原始论文中，作者声称没有对模型的得分进行「保底处理」（flooring）。但在复现代码时，研究者发现作者在计算小模型得分时，偷偷地将负分归零了。

科普：当模型遇到不知道的冷知识时，如果乱猜（幻觉），得分会是负数。

如果把这个「归零」操作去掉，小模型的得分会大幅下降。这意味着原本陡峭的「得分-参数」拟合曲线会变得平缓。修正后，估算的GPT-5.5规模直接从9.7T暴跌至1.5T。

「人工智障」出题：25%的题目本身就有错

研究者发现，这套用来测试模型的「冷知识题库」质量同样堪忧。

歧义性：约25%的专家知识题存在歧义（例如重名研究员）。

事实错误：部分标准答案本身就是错的。

最戏剧性的是，原作者Bojie Li后来坦言：这篇研究是他在AI智能体的辅助下，仅用4天时间完成的早期探索。

这种「AI写论文研究AI」的模式，被Lawrence Chan戏称为「充满槽点的Vibe-coding」。

核心理论依然坚挺

知识「不可压缩」

用严谨的话说，论文的核心思想——IKP 得分与对数参数数量之间的线性关系——仍然成立，但参数数量的估计却不成立。

解决这两个问题后，基于IKP的前沿模型估计的参数数量通常会下降，置信区间会扩大：

GPT 5.5：9.7T -> 1.5T

Claude Opus 4.7：4.0T -> 1.1T

DeepSeek R1（实际大小671B）：424 B -> 760 B

难得的是，论文中的三种说法，承受住了各种测试，被证明依然是正确的。

比如，IKP分数和模型的参数呈对数线性关系。

总之，论文提出的核心模型依然得到了学界的认可：不可压缩知识探针（IKP）。

这个理论认为，大模型的能力可以分为两部分。

程序性能力（逻辑、推理、代码）：这是可以压缩的。随着架构优化，更小的模型可以拥有更强的推理能力。

事实性知识（某人的出生日期、冷门研究领域）：这是不可压缩的。

你可以把模型想象成一个硬盘，存一个事实就需要占几个比特位。

因此，测试模型到底知道多少「不可压缩」的冷知识，确实是目前探测闭源模型参数最科学的「测力计」。

谁才是真正的「知识之王」？

而且，尽管参数规模下调了，但各家模型的「有效容量」排名依然极具参考价值。

梯队格局

第一梯队（巅峰王者）：GPT-5.5。虽然可能只有1.5T左右，但它在T6级别的超冷门知识表现上依然冠绝群雄。

第二梯队（贴身肉搏）：Claude Opus 4.7、o1、Grok-4。这几款模型的有效容量高度接近，竞争进入白热化。

MoE（混合专家模型）的秘密：研究发现，MoE模型的知识量取决于其总参数，而非每次运行时的「激活参数」。这意味着，如果你想让模型博学，堆参数依然是唯一的硬道理。

「思考模式」的玄学

测试显示，开启「思维链」（Thinking Mode）并不能显著增加模型的知识量。这再次印证了：思考能提高逻辑，但不能凭空变出你没读过的书。

最后，Lawrence Chan吐槽说：这项工作果然是AI智能体在四天内完成的，因为网站和代码库到处都体现着vibe coding的粗糙风格。

GPT-5.5参数有9.7T？

4月30日，Pine AI的首席科学家李博杰的这篇论文引发了热议。

核心观点是：事实性容量与模型规模呈对数线性关系。

论文展示了 7 个知识层级，其中T7对所有模型来说几乎都是0%左右，这表明预训练仍有巨大的提升空间。

Gemini 3.1 Pro很可能超过 10T，因为它被用作锚点，但论文中没有对其直接估算。

这意味着，我们可以在一定程度上推断不同模型的训练成本，以及它们的后训练效果——即在给定规模下，在某些非事实性任务上的表现。

在原作中，李博杰构建了一个包含1400个事实性问题的数据集，并将准确率与参数数量进行拟合。

通过反转拟合，从闭源模型的数据集得分，研究人员推断出其参数数量。

特别要注意最后一行的90%预测区间「Predicition interval, PI」非常大。

此前，就有网友注意到这些「规模只是推测，不应当作事实」。

现在许多人，想知道估算对方法论有多敏感——

李博杰直言，「同一个评估任务，结果横跨60倍区间 → 任何单一的点估计都不诚实。」

不过，IKP本是一个起点，而非终点。

作者坦诚自己匆忙上传了一篇未成熟的arXiv论文，只是为了把这个想法放出来。

论文、代码、数据集和网站都是在 4 天内完成的，主要借助 Claude Code，发布前未经同行审阅。采用下限处理和 λ=−1，是为了在开放权重模型上最大化R²。

我们期待未来的工作能将它做得更好！

Scaling Law失效了吗？

这次「参数神话」的破灭，给行业敲响了警钟：盲目崇拜大数字的时代正在过去。

GPT-5.5从10T降到1.5T，并不意味着它变弱了，而是意味着OpenAI可能在数据质量和参数效率上做了更惊人的优化。

正如Lawrence Chan在总结中所说：「GPT-5.5到底有多少参数？我们依然不确定。但这种通过探测知识容量来反推规模的方法，为我们揭开黑盒模型的面纱提供了一条新路径。」

在通往AGI的路上，我们需要的或许不再是更大的硬盘，而是更聪明的索引方式。

参考资料：

https://x.com/deedydas/status/2049523583517634862

https://x.com/justanotherlaw/status/2050399317782155726