
GPT-5被算出“过度训练”100倍:一位芯片工程师的黑板推演,揭穿大模型真实成本账
当整个AI行业都在追逐更大参数、更多数据、更强算力时,一场罕见的黑板推演却揭示了一个反直觉的真相:当前顶级大模型的经济账,可能算错了。
芯片工程师Reiner Pope,这位曾在谷歌负责TPU架构与编译器优化的全栈专家,近日在一场深度对话中,用方程和图表撕开了GPT-5、Claude和Gemini背后的成本结构。他的核心结论令人意外——GPT-5的预训练数据量,是理论最优解的100倍。
理解这一结论,需要从硬件的最基本单元说起。现代大模型推理运行在GPU集群上,英伟达Blackwell NVL72是目前主流部署形态,一个机架内集成72块GPU,通过NVLink高速互联,任意两块之间仅需两跳。
这种高带宽内部网络与混合专家模型的“全对全”通信模式天然契合。DeepSeek V3拥有256个专家,每次推理只激活32个,不同专家分布在不同的GPU上协同工作。
但问题在于,一旦专家分布跨越机架边界,通信速度立即下降8倍。
这个8倍差距,直接决定了MoE架构的部署上限——一个机架的大小,限制了模型专家层的规模。这也解释了为何谷歌Gemini能更早取得预训练成功:其TPU系统拥有更大的scale-up域,能在更广范围内维持高效通信。
更令市场关注的是Pope对推理成本的拆解。他给出了一个直观的比喻:GPU每隔约20毫秒发出一班“列车”,每班能搭载多少乘客,就是批处理规模。
推理的单位成本在批处理量小时极高,随着批处理增大急剧下降,最终趋于下限。原因在于权重加载成本——每次推理都要将模型权重从内存读入芯片,这个固定成本不论服务1个用户还是2000个用户都一样。
如果不做批处理,成本可高出1000倍。最优批处理规模约等于300乘以模型稀疏度,对DeepSeek这类激活1/8专家的模型,大约是2400个并发序列。这个数字与总参数量无关,只取决于硬件特性和稀疏度,是一个反直觉的结论。
Pope还展示了一套令人印象深刻的逆向推导方法——通过公开API定价反推模型内部架构。Gemini在20万token处涨价50%,恰好对应KV缓存内存带宽成本超过权重矩阵计算成本的临界点,也就是模型从计算瓶颈切换到内存带宽瓶颈的转折点。
由此反算,每个token的KV缓存大约占2KB,与公开论文中的注意力机制参数高度吻合。
输出token比输入token贵3到5倍的原因同样清晰:prefill阶段一次性并行处理大量输入token,效率高,而decode阶段每次只生成一个token,需读取全部模型权重和KV缓存,极度受内存带宽制约。
缓存命中token便宜10倍,则对应KV缓存在不同存储层级间的成本差异——从HBM读取、从闪存读取乃至从机械硬盘读取,价格层层递减。
最震撼的推演来自GPT-5的“过度训练”问题。Pope从一个经济学直觉出发:当预训练成本、RL训练成本和推理成本三者大致相等时,整体效率最优。
他代入真实数字——假设前沿模型推理流量约5000万token每秒,模型生命周期约2个月,合计推理token数约200万亿。
而基于约1000亿激活参数的Chinchilla最优解大约是2万亿token。两者之比为100倍。也就是说,当前顶级模型的预训练数据量,是从纯训练效率角度出发所需数据量的100倍。
市场传言GPT-5预训练了约150万亿token,与推算出的200万亿接近。其核心逻辑很简单:你花在服务用户上的计算,应该和花在训练上的计算大体相当,否则就是在某一头浪费钱。
至于流水线并行——将模型不同层分散到不同机架串行执行,Pope的结论是它虽然能节省内存容量,但解决不了KV缓存问题,在推理场景价值有限。
因为流水线并行需要同时保持多个在途的batch,全局batch大小随流水线级数增长,虽减少了各机架上的权重存储,但KV缓存总量并未减少。这也解释了为何Ilya Sutskever曾说“现在我们都知道,流水线并行是不明智的”。
Pope还观察到神经网络与密码学之间的“趋同进化”——两者都需要把输入信息在整个系统中充分混合,只是目标相反:密码学努力破坏结构,神经网络努力发现结构。
密码学中的Feistel网络在2017年被引入神经网络形成RevNets,允许在反向传播时无需预先存储所有层的激活值,用更多计算换取更少内存,这与KV缓存用更多内存换取更少计算的逻辑恰好相反。在当前硬件条件下,用内存换计算通常是合算的。
这场黑板推演的意义,远不止于技术揭秘。它实际上为理解大模型产业的成本结构、定价策略和未来演进方向提供了稀缺的工程视角。
当市场还在为参数规模和数据量的飙升级数喝彩时,Pope的方程提醒我们:物理瓶颈、内存带宽和批处理经济学,才是真正塑造这个行业面貌的底层力量。
免责申明:本文所引述的第三方分析及推演系基于公开信息与个人专业判断,不代表任何模型开发方的官方立场,亦不构成对相关技术实现及商业定价的最终结论。文中涉及的推算数据及成本结论仅供参考,不构成投资建议或技术采用依据。
格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。


