英伟达，最“大”对手来了

全球视野, 下注中国

打开APP

英伟达，最“大”对手来了

原创5 小时前19.4k

弗雷迪

长期聚焦新能源赛道，关注清洁能源转型，挖掘投资机会，观察并记录重要的人和企业。

+关注

推理新王？

英伟达的真正“大”对手来了。

5月14日，Cerebras以488亿美元的估值，超额认购超过20倍登陆纳斯达克。

据说这是今年来全球最大估值规模的IPO。

要知道，就在8个月前，这家公司估值还只有81亿美元。现在等于翻了6倍，可见现在的市场对于AI铲子股究竟有多疯狂。

AI推理是时代来了，但英伟达的GPU不再是唯一解。

市场凭什么认为Cerebras，能够撼动英伟达的地位？

01 推理新王

2026年，随着推理需求大爆发，传统GPU架构在推理场景的物理瓶颈愈发凸显，而Cerebras晶圆级芯片，为破解这一难题提供了颠覆性方案。

黄仁勋在GTC2026上明确提出：AI推理拐点已至。

据德勤数据，2023年，AI算力支出还是训练占60%，推理占40%，但两年后，这个比例几乎都要翻过来了，推理预计将占企业AI预算的85%。

推理大模型还在持续放大这一趋势。据a16z对100万亿token数据的研究，2025年推理模型的token消耗份额从近乎归零飙升至总算力的半数以上。每一次模型升级，都在成倍放大推理的算力消耗。

GPU推理有一个结构性弱点。要理解它，需先明确LLM推理的两大核心阶段：Prefill（预填充）与Decode（解码）。

Prefill阶段负责处理用户提示词，支持并行计算，GPU很擅长，因此这阶段GPU效率表现优异。

而Decode阶段是逐一生成token，属于串行运算，后一个token的生成必须等待前一个完成。且每生成一个token，都需要完整读取全部模型权重与KVCache缓存，数据搬运成本极高、重复损耗严重。

以70B参数模型为例，其权重约140GB，叠加对话过程中持续膨胀、可达数十GB的KVCache，庞大的数据量进一步加重了GPU的运算与搬运负担。

也就是说，GPU推理低效的核心，并非算力不足，而是传统架构物理局限导致的内存墙问题。

这就是AI行业的核心“内存墙”——算力增长远快于内存带宽增长，计算性能被数据搬运卡住了。

数据显示，算力每两年提升3倍，HBM带宽仅提升1.6倍；十年维度下，算力暴涨1000倍，带宽仅提升10倍，这相当于买了一张超级计算卡，实际跑推理的时候98%的时间在发呆。

性能剪刀差持续扩大，就导致了架构矛盾日益凸显。

据HuggingFace Blog分析，B200在batch等于1时，tensor core空闲超过99%。

这个痛点也体现在英伟达核心营收上。

黄仁勋公开确认，其数据中心业务65%收入来自推理场景，意味着英伟达最核心的营收来源，恰恰是GPU架构效率最低的场景。这也是为什么英伟达要斥资200亿美元去收购Groq的原因。侧面印证传统GPU无法适配高端推理需求，行业亟需专用推理架构。

在此背景下，Cerebras跳出传统GPU设计逻辑，以晶圆级计算架构给出了破局方案。其核心产品WSE-3摒弃芯片切割模式，将整片300mm硅晶圆作为单一处理器，集成90万个AI核心、搭载44GB片上SRAM，官方带宽达21PB/s，是B200 8TB/s带宽的2625倍，实现了跨量级的性能突破。

也就是说，这是真正物理意义上的超大芯片，所以说它是英伟达的“大”对手，确实没毛病。

晶圆级计算75年没人做出来，不是没人想过，是工程上做不到。Cerebras解了三个难题。

第一，突破光刻工艺极限。传统光刻单次曝光最大面积仅26mm×33mm，远小于晶圆尺寸。Cerebras联合台积电研发“划线桥接”技术，复用晶圆划线区域延伸金属沉积路径，让通信网络无缝覆盖整片晶圆，彻底消除芯片边界与跨芯片延迟。

第二，解决大芯片缺陷。虽然Cerebras把芯片做得极大，但它把每个AI核心做到了只有0.05平方毫米，约等于H100 SM核心面积的1%。单个缺陷只废掉0.05平方毫米，而不是6平方毫米。据Cerebras官方博客，WSE-3的缺陷容忍度是GPU的100倍。额外加1%到1.5%的冗余核心做替换。

第三，攻克超大功率供电散热难题。WSE-3功耗达23kW，需输送超2万安培电流。Cerebras采用上置垂直供电、底部水冷散热方案，将整片晶圆温差控制在20℃以内，保障芯片高负载稳定运行。

据实测数据，Cerebras WSE-3对最佳GPU/云方案，四个主流模型全部领先。Llama 3.3 70B差距最大，2140对120，18倍。Llama 4 Maverick 400B差距最小，2500对1000，超过2倍。

凭借出奇快的推理速度，Cerebras的估值一路水涨船高。根据S-1融资轮次数据，公司估值八个月涨了六倍。从81亿美元到230亿再到488亿。

并且，公司的商业前景也得到了科技巨头的背书。OpenAI一上来就直接跟它签了超百亿美元的多年合同。还有AWS也选择Cerebras作为Bedrock推理加速层。

整体而言，Cerebras以颠覆性的晶圆级架构，发起了对GPU行业霸主的技术挑战。这套突破传统束缚的技术方案，打破了长期的GPU算力垄断，想象空间广阔，也让公司估值从一开始就偏离了正常的比较范围。

02 估值合理吗？

根据S-1文件，CerebrasIPO估值对应2025年5.1亿美元营收，约95倍收入倍数。据StockMaven数据，NVIDIA大约25倍，Cerebras是NVIDIA的近4倍。

但盈利能力上Cerebras显然还没有证明自己，NVIDIA财报显示其毛利率75%到80%，Cerebras只有39%。

公司2025年GAAP净利润2.378亿美元，里面有3.63亿非现金会计收益（远期合约负债公允价值变动）。实际Non-GAAP亏损7570万美元。毛利率从42.3%滑到39.0%，还在往下走。

这也说明了，公司的估值逻辑本身已经超出了芯片公司的标准，市场更像是把它当成了一种稀缺的AI基础设施来定价。

但是翻一翻账，估值给的太高还不是最大的问题。

根据S-1经审计财务报告附注，2025年公司86%的收入来自两个阿联酋实体。MBZUAI占62%，G42占24%。美国收入反而降了34%。

OpenAI的百亿美元合同目前是该公司最大的一笔潜在收入。但事情还要更加复杂，OpenAI同时扮演了四个角色：客户、债权人，潜在股东，还有个人投资者，Altman等人做过天使投资人。

数据还显示，246亿美元订单积压中，只有15%在2026到2027年确认。43%在2028到2029年。一旦交付不了产能，OpenAI有权终止合同并要求偿还贷款。

虽然签了百亿合同，但OpenAI在同时押注多条路线，Cerebras只是其中一条。去年10月，OpenAI与AMD签署了6GW部署协议。

实际上，每家科技巨头都在推理上多方下注，没有一家把Cerebras当成主力路线孤注一掷。亚马逊跟Cerebras合作，但也只让它负责decode加速层。主力推理用的依然是自研Trainium3。

近几年，推理芯片创业公司的归宿也佐证了这一点。Groq被NVIDIA收购，Graphcore被SoftBank收购，UntetherAI被AMD收购。而Cerebras是唯一独立IPO的推理独角兽。

对于科技巨头而言，Cerebras又何尝不是补丁，只是补丁熬到了上市。

再者，标称速度也有水分。Cerebras用了推测解码技术——让小模型先猜、大模型再验证，能快3倍。去掉技术加速，纯硬件对推理速度的支持没那么多。而且测试是在单用户条件下跑的，实际多用户并发时优势还会进一步缩水。

更关键的是，Cerebras的44GB片上内存只够做"一问一答"式的快速推理。但推理市场增长最快的方向是AIAgent——需要长对话、大上下文，内存需求远超44GB。据Stratechery判断：内容在片上内存内，Cerebras速度惊人；一旦超出，就不划算了。

Cerebras未来能在推理市场拿下多大份额，取决于晶圆级架构能否突破44GB内存的天花板，从"一问一答"走向更复杂的推理场景。

03 尾声

总的来说，"英伟达对手"这个定位，更多来自资本市场的叙事需求，支撑溢价的核心假设是"稀缺AI基础设施"。

Cerebras能走多远，还是要看自身的稀缺性能否转换成更大的商业价值。

拆开看，稀缺性的成立依赖于两个前提：其一，OpenAI百亿合同的交付执行。其二，晶圆级架构能否突破场景限制。

尤其是后者，如果技术迭代停滞、应用场景难以拓展，那么一切的叙事都可能变成巨大的泡沫，沦为AI算力生态里的边角备胎。

01

推理新王

02

估值合理吗？

03

尾声

相关文章

SiC，AI隐藏主线爆发了

算力狂飙撞上“水墙”与“人墙”：冷却系统正成为AI基建的新命门

SiC千亿赛道大爆发，最核心10家企业梳理