OpenAI与Cerebras达成超100亿美元AI推理芯片合作协议
创始人
2026-01-16 19:09:35
0

OpenAI宣布将在2028年前部署750兆瓦容量的Cerebras晶圆级加速器,以增强其推理服务能力。据知情人士透露,这项协议价值超过100亿美元,Cerebras将承担为OpenAI建设和租赁数据中心的风险。

通过将Cerebras的晶圆级计算架构集成到推理管道中,OpenAI可以利用该芯片的大容量SRAM来加速推理过程。Cerebras的WSE-3加速器芯片面积达到46,225平方毫米,配备44GB的SRAM。

与现代GPU上的HBM相比,SRAM的速度要快几个数量级。单颗Nvidia Rubin GPU可以提供约22TB/s的内存带宽,而Cerebras芯片的带宽达到21PB/s,几乎是前者的1000倍。

这种带宽优势转化为极快的推理性能。在运行OpenAI的gpt-oss 120B等模型时,Cerebras芯片据称可以达到每秒3,098个Token的单用户性能,相比之下使用Nvidia GPU的竞争对手Together AI仅为885Token/s。

在推理模型和智能体时代,更快的推理意味着模型可以在不影响交互性的情况下进行更长时间的"思考"。OpenAI在最近的博客文章中解释道:"将Cerebras集成到我们的计算解决方案组合中,目的是让AI响应更快。当你提出复杂问题、生成代码、创建图像或运行智能体时,后台会发生一个循环过程:发送请求、模型思考、返回结果。当AI能够实时响应时,用户会更多地使用它,停留时间更长,运行更高价值的工作负载。"

然而,Cerebras的架构也有一些局限性。SRAM在空间效率方面表现不佳,这就是为什么尽管芯片尺寸令人印象深刻,但其内存容量仅相当于六年前的Nvidia A100 PCIe卡。

因此,更大的模型需要在多个芯片间并行化处理,每个芯片的功耗高达23千瓦。根据使用的精度,所需的芯片数量可能相当可观。在Cerebras历史上偏好的16位精度下,每十亿参数需要消耗2GB的SRAM容量。因此,即使是Llama 3 70B这样的中等规模模型也需要至少四个CS-3加速器才能运行。

距离Cerebras发布新的晶圆级加速器已经近两年了,期间公司的重点已从训练转向推理。我们预计该公司的下一款芯片可能会为SRAM分配更大的面积,并增加对MXFP4等现代块浮点数据类型的支持,这应该能显著增加单芯片可服务的模型规模。

话说回来,去年夏天随着OpenAI GPT-5发布而引入的模型路由器应该有助于缓解Cerebras的内存限制。这种方法确保ChatGPT处理的绝大多数请求都由较小的成本优化模型来完成,只有最复杂的查询才会在OpenAI最大且最耗资源的模型上运行。

OpenAI也可能选择在Cerebras设备上运行部分推理管道。过去一年中,分离式推理的概念开始兴起。

理论上,OpenAI可以在AMD或Nvidia GPU上运行计算密集的提示处理,然后将Token生成任务卸载到Cerebras的SRAM密集型加速器上,用于处理带宽受限的Token生成阶段。这是否真的可行将取决于Cerebras。

当被问及在分离式计算架构中使用CS-3的可能性时,Cerebras公司发言人表示:"这是一项云服务协议。我们为OpenAI建设配备我们设备的数据中心,为他们的模型提供最快的推理能力。"

这并不意味着不会发生,但需要Cerebras在其数据中心内与晶圆级加速器一起部署支持此类配置所需的GPU系统。

Q&A

Q1:Cerebras的WSE-3加速器相比Nvidia GPU有什么优势?

A:Cerebras的WSE-3加速器拥有21PB/s的内存带宽,几乎是Nvidia Rubin GPU(22TB/s)的1000倍。在运行推理任务时,WSE-3可以达到每秒3,098个Token的性能,而使用Nvidia GPU的竞争对手仅为885Token/s。这主要得益于其大容量SRAM的超高带宽特性。

Q2:Cerebras芯片有哪些技术限制?

A:主要限制是SRAM空间效率不高,尽管芯片面积达46,225平方毫米,但内存容量仅相当于六年前的Nvidia A100 PCIe卡。大型模型需要多芯片并行处理,每个芯片功耗高达23千瓦。在16位精度下,每十亿参数需要2GB SRAM,连Llama 3 70B这样的模型都需要至少四个芯片。

Q3:OpenAI为什么选择与Cerebras合作而不是继续使用Nvidia?

A:OpenAI选择Cerebras主要是为了获得更快的推理速度。在智能体和推理模型时代,更快的推理让模型可以进行更长时间的"思考"而不影响交互性。当AI能实时响应时,用户会更多使用、停留更久、运行更高价值的工作负载。Cerebras的超高带宽SRAM架构特别适合推理任务的需求。

相关内容

热门资讯

华景传感科技申请一种运算放大电... 国家知识产权局信息显示,华景传感科技(无锡)有限公司申请一项名为“一种运算放大电路”的专利,公开号C...
资本加码超导量子赛道:量旋科技... 近日,量子计算领军企业量旋科技宣布完成数亿元C轮融资,本轮由隆利科技、晶凯资本、恒泰华盛、毅达资本、...
日本将建立车载半导体信息共享系... 【CNMO科技消息】近日,有媒体报道称,日本汽车工业协会及日本汽车零部件工业协会正牵头筹备一套车载半...
理想汽车早盘涨逾4% 自研智驾... 理想汽车盘中涨超4%,截至发稿,股价上涨3.81%,现报65.35港元,成交额5.64亿港元。 近日...
全球CPU涨价潮加速,科创芯片... 1月22日开盘半小时,国产AI芯片概念股高开后集体回落。截至10:00,上证科创板芯片设计主题指数上...
首瑞申请利用静触头位移致开关脱... 国家知识产权局信息显示,首瑞(天津)电气设备有限公司申请一项名为“一种利用静触头位移致开关脱扣的开关...
贴片晶振测试仪电子领域的精密检... 在现代电子技术飞速发展的今天,晶振作为电子产品中提供稳定时间和频率基准的关键元件,其性能优劣直接影响...
中国研制纤维芯片成果再登顶刊!... 1月22日,国际权威学术期刊《自然》发表了一项来自中国研究团队的原创技术突破。研究人员突破传统硅基芯...
路维光电:1月21日融资买入2... 证券之星消息,1月21日,路维光电(688401)融资买入2750.48万元,融资偿还2689.85...
效率健康全都要!小熊小食光电蒸... 清晨七点,厨房再次变成分秒必争的“战场”:孩子的营养蒸蛋需要嫩滑,长辈的杂粮早餐必须软烂,自己要控制...