betway官方网站,betway网址,betway链接,必威体育app,必威中国,必威官方网站,必威体育登录入口,必威体育官网网址,必威体育链接,必威体育2025,必威体育2026,必威体育世界杯
要理解这场复权的底层逻辑,必须先厘清存储层级的基本分工。在当代计算架构中,存储系统呈现为一座金字塔:塔尖是集成在CPU、GPU计算核心附近的片上SRAM,具备纳秒级访问时延与高度确定性的带宽特性,带宽极高但容量极小、成本极高;向下依次是HBM、DRAM和SSD,每一级的容量递增,但时延和带宽的不确定性也随之增加。在过去以训练为主的时代,大容量吞吐比纳秒级响应更重要,因此HBM占据了主导。但当AI应用从实验室走向普罗大众,当用户体验的标尺从“模型有多大”转向“回答有多快”,这座金字塔的受力结构正在发生深刻变化。
更令人震撼的是其机架级方案:Groq 3 LPX机架搭载256个LPU处理器,提供128GB片上SRAM和高达40PB/s的推理加速带宽,并通过每个机架640TB/s的专用扩展接口将这些芯片连接在一起。黄仁勋在现场宣布,这款芯片将由三星电子代工,目前已进入生产阶段,预计今年下半年开始出货。更令业界震动的是,OpenAI已确定成为该芯片的首批客户,并承诺投入300亿美元采购相关推理算力。这不仅是英伟达在AI芯片之路上的一次技术路线微调,更是一个清晰的信号:AI计算的需求结构正在发生根本性位移,推理已取代训练,成为定义下一代芯片架构的决定性力量。
这正是Groq投资人Gavin Baker所强调的“推理拆分”:模型处理提示词的prefill阶段依然需要GPU的大规模并行算力,而逐字生成回复的decode阶段,瓶颈早已不在算力,而在内存带宽。传统GPU的困境在于,其海量参数存放在片外的HBM中。每生成一个token,计算核心都需要穿越复杂的封装和互连线路去HBM中搬运一次权重。这种“远距离运输”在prefill阶段或许可以容忍,但在需要串行输出成百上千个token的decode阶段,却造成了巨大的延迟和能耗浪费。
在大模型应用中,相比依赖外置HBM,SRAM可显著降低权重与激活数据的访存延迟与抖动,从而改善Time-to-First-Token与尾时延表现。Groq和Cerebras两家明星创业公司正是抓住了这一技术痛点,推出了基于SRAM的AI芯片。当新一代Groq LPU将片上带宽提升至HBM的7倍时,其意义不仅是数字上的领先,而是从根本上改变了推理的体验边界。以Llama 3.3 70B模型为例,根据Artificial Analysis等独立基准测试,Groq平台在不同上下文长度下能维持200-300+ token/s的稳定推理速度,显著优于传统GPU推理平台。这种带宽的确定性和时延的可预测性,对于构建实时交互系统而言至关重要。
而Cerebras则走得更远。根据Cerebras官网信息,其晶圆级引擎3(WSE-3)芯片集成了高达44GB的片上SRAM,片上存储带宽达到惊人的21 PB/s。这种将整片晶圆做成一颗芯片的激进设计,使得海量计算核心与海量SRAM之间的数据交换几乎不存在瓶颈。在OpenAI GPT-OSS 120B推理任务中,Cerebras实现了超过3000 tokens/s的输出速度,较主流GPU云推理快约15倍。如果说Groq证明了SRAM架构在单卡推理上的效率优势,Cerebras则展示了当SRAM容量足够大时,推理速度可以逼近何种极限。SRAM就像放在CEO办公桌上的便签纸,无需等待秘书从档案室调取文件,抬手即可获取。这种“纳秒级”的响应速度,对于构建真正具备实时交互感的AI Agent而言,是致命的竞争优势。
与此同时,SRAM阵营的另一极也在快速壮大。根据 Cerebras 官方披露,2026 年 2 月,Cerebras 宣布完成 10 亿美元 H 轮融资,估值达到 230 亿美元。更引人注目的是,OpenAI与Cerebras签署了一份高达100亿美元的合同,部署多达750兆瓦的定制AI芯片。紧接着在2026年2月,OpenAI推出了首个运行在Cerebras Systems AI加速器上的模型——GPT-5.3-Codex-Spark预览版,该模型支持超过1000 tokens/s的代码生成响应速度,为用户提供更具交互性的编程体验。这一系列动作清晰地表明,头部大模型厂商已经开始为下一代实时交互应用储备“SRAM算力”。
这意味着未来的AI芯片将出现复杂的异构内存层级:底层是负责prefill的计算晶圆,中间层是通过3D堆叠提供的巨大SRAM缓存用于高速decode,旁边则依然通过CoWoS封装着大容量的HBM用于存储海量上下文(KV Cache)。这种设计既保留了GPU在并行计算上的统治力,又吸收了LPU在串行生成上的低延迟优势,同时还能通过英伟达的Dynamo推理框架和KV缓存管理系统,智能地路由不同的token请求。
从物理特性看,SRAM的单元面积是DRAM的5到10倍,每比特成本极高,注定无法替代HBM作为主内存的角色。即便Cerebras的WSE-3集成了44GB SRAM,这已是工程上的奇迹,但要存储一个700亿参数模型的全部权重,仍需要数百GB的存储空间,这只能由HBM或DRAM来承担。SRAM的用武之地在于需要极致低延迟的特定场景,比如OpenAI的代码生成工具,或者未来的物理AI机器人——这些场景中,每毫秒的延迟都可能打断人类的思维流或机器人的动作连续性。
在此次GTC 2026上,台积电被供应链明确点名为“受惠第一排”。SRAM作为嵌入式计算核心的一部分,其设计与制造完全依赖于顶尖的逻辑制程工艺。无论是英伟达采用N3P制程打造下一代LPU,还是AMD、英特尔以及各大ASIC厂商跟进类似的SRAM增强架构,最终都要回归到台积电的先进产线。对于台积电而言,这不仅意味着更高的晶圆平均销售单价(因为芯片面积增大、制程更先进),更巩固了其在AI半导体制造领域的核心枢纽地位。
华邦电因其具备SRAM量产经验而受到关注,其定制化内存(CMS)业务中的PSRAM(伪静态随机存取存储器),结合了DRAM的高容量与SRAM的高速接口特性,被视为在成本与性能之间的折中方案 。力积电则通过其3D AI Foundry策略,展现了在多层晶圆堆叠与高容值中介层技术上的实力,具备了承接SRAM相关代工的潜力 。此外,钰创的产品线纳米制程的SRAM,容量范围刚好符合Groq LPU采用的标准;而爱普则提供新一代ApSRAM,在功耗和带宽上实现倍数级提升。