GPT-5被算出“过度训练”100倍：一位芯片工程师的黑板推演，揭穿大模型真实成本账

全球视野, 下注中国

打开APP

14 小时前8.6k

+关注

当整个AI行业都在追逐更大参数、更多数据、更强算力时，一场罕见的黑板推演却揭示了一个反直觉的真相：当前顶级大模型的经济账，可能算错了。

芯片工程师Reiner Pope，这位曾在谷歌负责TPU架构与编译器优化的全栈专家，近日在一场深度对话中，用方程和图表撕开了GPT-5、Claude和Gemini背后的成本结构。他的核心结论令人意外——GPT-5的预训练数据量，是理论最优解的100倍。

理解这一结论，需要从硬件的最基本单元说起。现代大模型推理运行在GPU集群上，英伟达Blackwell NVL72是目前主流部署形态，一个机架内集成72块GPU，通过NVLink高速互联，任意两块之间仅需两跳。

这种高带宽内部网络与混合专家模型的“全对全”通信模式天然契合。DeepSeek V3拥有256个专家，每次推理只激活32个，不同专家分布在不同的GPU上协同工作。

但问题在于，一旦专家分布跨越机架边界，通信速度立即下降8倍。

这个8倍差距，直接决定了MoE架构的部署上限——一个机架的大小，限制了模型专家层的规模。这也解释了为何谷歌Gemini能更早取得预训练成功：其TPU系统拥有更大的scale-up域，能在更广范围内维持高效通信。

更令市场关注的是Pope对推理成本的拆解。他给出了一个直观的比喻：GPU每隔约20毫秒发出一班“列车”，每班能搭载多少乘客，就是批处理规模。

推理的单位成本在批处理量小时极高，随着批处理增大急剧下降，最终趋于下限。原因在于权重加载成本——每次推理都要将模型权重从内存读入芯片，这个固定成本不论服务1个用户还是2000个用户都一样。

如果不做批处理，成本可高出1000倍。最优批处理规模约等于300乘以模型稀疏度，对DeepSeek这类激活1/8专家的模型，大约是2400个并发序列。这个数字与总参数量无关，只取决于硬件特性和稀疏度，是一个反直觉的结论。

Pope还展示了一套令人印象深刻的逆向推导方法——通过公开API定价反推模型内部架构。Gemini在20万token处涨价50%，恰好对应KV缓存内存带宽成本超过权重矩阵计算成本的临界点，也就是模型从计算瓶颈切换到内存带宽瓶颈的转折点。

由此反算，每个token的KV缓存大约占2KB，与公开论文中的注意力机制参数高度吻合。

输出token比输入token贵3到5倍的原因同样清晰：prefill阶段一次性并行处理大量输入token，效率高，而decode阶段每次只生成一个token，需读取全部模型权重和KV缓存，极度受内存带宽制约。

缓存命中token便宜10倍，则对应KV缓存在不同存储层级间的成本差异——从HBM读取、从闪存读取乃至从机械硬盘读取，价格层层递减。

最震撼的推演来自GPT-5的“过度训练”问题。Pope从一个经济学直觉出发：当预训练成本、RL训练成本和推理成本三者大致相等时，整体效率最优。

他代入真实数字——假设前沿模型推理流量约5000万token每秒，模型生命周期约2个月，合计推理token数约200万亿。

而基于约1000亿激活参数的Chinchilla最优解大约是2万亿token。两者之比为100倍。也就是说，当前顶级模型的预训练数据量，是从纯训练效率角度出发所需数据量的100倍。

市场传言GPT-5预训练了约150万亿token，与推算出的200万亿接近。其核心逻辑很简单：你花在服务用户上的计算，应该和花在训练上的计算大体相当，否则就是在某一头浪费钱。

至于流水线并行——将模型不同层分散到不同机架串行执行，Pope的结论是它虽然能节省内存容量，但解决不了KV缓存问题，在推理场景价值有限。

因为流水线并行需要同时保持多个在途的batch，全局batch大小随流水线级数增长，虽减少了各机架上的权重存储，但KV缓存总量并未减少。这也解释了为何Ilya Sutskever曾说“现在我们都知道，流水线并行是不明智的”。

Pope还观察到神经网络与密码学之间的“趋同进化”——两者都需要把输入信息在整个系统中充分混合，只是目标相反：密码学努力破坏结构，神经网络努力发现结构。

密码学中的Feistel网络在2017年被引入神经网络形成RevNets，允许在反向传播时无需预先存储所有层的激活值，用更多计算换取更少内存，这与KV缓存用更多内存换取更少计算的逻辑恰好相反。在当前硬件条件下，用内存换计算通常是合算的。

这场黑板推演的意义，远不止于技术揭秘。它实际上为理解大模型产业的成本结构、定价策略和未来演进方向提供了稀缺的工程视角。

当市场还在为参数规模和数据量的飙升级数喝彩时，Pope的方程提醒我们：物理瓶颈、内存带宽和批处理经济学，才是真正塑造这个行业面貌的底层力量。

免责申明：本文所引述的第三方分析及推演系基于公开信息与个人专业判断，不代表任何模型开发方的官方立场，亦不构成对相关技术实现及商业定价的最终结论。文中涉及的推算数据及成本结论仅供参考，不构成投资建议或技术采用依据。

格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为实际操作建议，交易风险自担。

App内直接打开

商务、渠道、广告合作/招聘立即咨询

我也说两句

IPTV机顶盒行业分析报告：市场规模、细分数据及竞争情况