开云(中国)官网 英伟达启程点,SRAM重回C位
发布日期:2026-03-20 03:26 点击次数:66
文 | 半导体产业纵横
以前两年,全球半导体产业的聚光灯遥远打在 HBM 身上。这种通过硅通孔期间垂直堆叠的 DRAM,追随英伟达 GPU 的大限制出货,完成了从一个小众产品到供不应求的"硬通货"的鼎新。关联词,就在 2026 年的春天,一个看似腐烂的期间名词—— SRAM(静态立时存取存储器),正在以惊东谈主的速率重回舞台中央。
要并吞这场复权的底层逻辑,必须先厘清存储层级的基本单干。在现代揣摸架构中,存储系统呈现为一座金字塔:塔尖是集成在 CPU、GPU 揣摸中枢隔邻的片上 SRAM,具备纳秒级走访时延与高度细则性的带宽特质,带宽极高但容量极小、成本极高;向下步骤是 HBM、DRAM 和 SSD,每一级的容量递加,但时延和带宽的不细则性也随之增多。在以前以教悔为主的时间,大容量蒙眬比纳秒级反应更迫切,因此 HBM 占据了主导。但当 AI 哄骗从履行室走向普罗全国,当用户体验的标尺从"模子有多大"转向"回答有多快",这座金字塔的受力结构正在发生深刻变化。

3 月 17 日,加州圣何塞 SAP 中心的舞台上,身着符号性玄色皮夹克的黄仁勋用两个半小时的演讲,持重为这一趋势写下了注脚。在这场备受贯注标 GTC 2026 主题演讲中,英伟达持重发布了集成 Groq LPU 架构的推理芯片,并露馅了令东谈主贯注标期间细节:最新 Groq 3 LPU 单芯片集成 500MB 片上 SRAM,存储带宽高达 150TB/s,而行为对比,主流 GPU 的片外 HBM4 带宽约为 22TB/s。
更令东谈主颠簸的是其机架级决议:Groq 3 LPX 机架搭载 256 个 LPU 处理器,提供 128GB 片上 SRAM 和高达 40PB/s 的推理加快带宽,并通过每个机架 640TB/s 的专用彭胀接口将这些芯片畅通在一齐。黄仁勋在现场布告,这款芯片将由三星电子代工,目下已进入坐蓐阶段,瞻望本年下半年启动出货。更令业界漂流的是,OpenAI 已细则成为该芯片的首批客户,并喜悦进入 300 亿好意思元采购相关推理算力。这不仅是英伟达在 AI 芯片之路上的一次期间门路微调,更是一个明晰的信号:AI 揣摸的需求结构正在发生根人道位移,推理已取代教悔,成为界说下一代芯片架构的决定性力量。
01 SRAM 如何重塑 AI 推理体验
要并吞 SRAM 为安在此时爆发,必须起先厘清 AI 使命负载的历史性移动。以前五年,AI 产业的中心矛盾是"算力饥渴",即如何用更多的 GPU 堆出更大的模子。彼时,无论是 OpenAI 照旧 Google,中枢诉求皆是用最短的时辰完成海量数据的预教悔。在阿谁阶段,HBM 凭借其极高的容量和数据传输速率,齐全地充任了 GPU 揣摸中枢的"粮仓",尽管存在延伸,但蒙眬量是第一要务。
关联词,德勤在《2026 科技、传媒和电信行业预测》中断言,到 2026 年,"推理"将占据全部 AI 揣摸才气的三分之二。当 AI Agents 启动承担复杂的多表率任务,现代码生成用具需要及时响哄骗户的每一次按键,用户体验的揣度标尺发生了地覆天翻的变化。用户不再关怀模子教悔了多久,只关怀发问后多久能看到第一个字(Time-to-First-Token),以及笔墨生成是否流通无卡顿(尾时延)。
这恰是 Groq 投资东谈主 Gavin Baker 所强调的"推理拆分":模子处理领导词的 prefill 阶段依然需要 GPU 的大限制并行算力,而逐字生成报酬的 decode 阶段,瓶颈早已不在算力,而在内存带宽。传统 GPU 的逆境在于,其海量参数存放在片外的 HBM 中。每生成一个 token,揣摸中枢皆需要穿越复杂的封装和互连泄漏去 HBM 中搬运一次权重。这种"远距离输送"在 prefill 阶段粗略不错容忍,但在需要串行输出成百上千个 token 的 decode 阶段,却形成了巨大的延伸和能耗虚耗。
在大模子哄骗中,比较依赖外置 HBM,SRAM 可显赫缩短权重与激活数据的访存延伸与抖动,从而改善 Time-to-First-Token 与尾时延阐扬。Groq 和 Cerebras 两家明星创业公司恰是收拢了这一期间痛点,推出了基于 SRAM 的 AI 芯片。当新一代 Groq LPU 将片上带宽提高至 HBM 的 7 倍时,其兴味不仅是数字上的起先,而是从根蒂上转换了推理的体验界限。以 Llama 3.3 70B 模子为例,阐发 Artificial Analysis 等沉寂基准测试,Groq 平台在不同高下文长度下能保管 200-300+ token/s 的潜入推理速率,显赫优于传统 GPU 推理平台。这种带宽的细则性和时延的可预测性,关于构建及时交互系统而言至关迫切。
而 Cerebras 则走得更远。阐发 Cerebras 官网信息,其晶圆级引擎 3(WSE-3)芯片集成了高达 44GB 的片上 SRAM,片上存储带宽达到惊东谈主的 21 PB/s。这种将整片晶圆作念成一颗芯片的激进策画,使得海量揣摸中枢与海量 SRAM 之间的数据交换确切不存在瓶颈。在 OpenAI GPT-OSS 120B 推理任务中,Cerebras 完了了朝上 3000 tokens/s 的输出速率,较主流 GPU 云推理快约 15 倍。淌若说 Groq 讲授了 SRAM 架构在单卡推理上的恶果上风,Cerebras 则展示了当 SRAM 容量阔绰大时,推理速率不错面临何种极限。SRAM 就像放在 CEO 办公桌上的便签纸,无需恭候文告从档案室调取文献,抬手即可获取。这种"纳秒级"的反应速率,关于构建真确具备及时交互感的 AI Agent 而言,是致命的竞争上风。
02 英伟达的"钞才气"与 SRAM 的总结
英伟达显着洞悉到了这一范式移动的风险。尽管其在教悔阛阓占据悉数统治地位,但在低延伸推理这一细分战场上,Groq 和 Cerebras 等创业公司正凭借 SRAM 架构撕开舛错。淌若任由这种趋势发展,畴昔数据中心可能会演变为" GPU 作念教悔、LPU 作念推理"的双头口头,英伟达的统治河山将被从角落蚕食。
旧年 12 月,英伟达斥资 200 亿好意思元获取 Groq 常识产权的非独家授权,其中包括其话语处理单位(LPU)和配套软件库,并吸纳了 Groq 中枢工程团队。这笔交游的计谋兴味重大于财务数字。它意味着英伟达承认,开云体育在纯正的串行推理场景中,GPU 的架构确乎存在短板,而 Groq 的 SRAM 决议是目下最佳的补丁。
与此同期,SRAM 阵营的另一极也在快速壮大。阐发 Cerebras 官方露馅,2026 年 2 月,Cerebras 布告完成 10 亿好意思元 H 轮融资,估值达到 230 亿好意思元。更引东谈主闪耀标是,OpenAI 与 Cerebras 签署了一份高达 100 亿好意思元的契约,部署多达 750 兆瓦的定制 AI 芯片。紧接着在 2026 年 2 月,OpenAI 推出了首个运行在 Cerebras Systems AI 加快器上的模子—— GPT-5.3-Codex-Spark 预览版,该模子扶持朝上 1000 tokens/s 的代码生成反应速率,为用户提供更具交互性的编程体验。这一系列动作明晰地标明,头部大模子厂商依然启动为下一代及时交互哄骗储备" SRAM 算力"。
阐发 GTC 2026 上持重发布的信息,英伟达并未接纳将 LPU 单位 3D 堆叠在 GPU 中枢晶圆上的激进决议,而是遴荐了更为求实的门路:Groq 3 LPU 行为沉寂的推理加快器芯片,与 Rubin GPU 通过协同策画的架构进行组合,共同组成 Vera Rubin 平台。云岫成本此前的分析指出,若通过 PCIe 等外部接口畅通,数据传输会引入新的延伸,部分对消 SRAM 的上风。
这意味着畴昔的 AI 芯片将出现复杂的异构内存层级:底层是负责 prefill 的揣摸晶圆,中间层是通过 3D 堆叠提供的巨大 SRAM 缓存用于高速 decode,傍边则依然通过 CoWoS 封装着大容量的 HBM 用于存储海量高下文(KV Cache)。这种策画既保留了 GPU 在并行揣摸上的统治力,又罗致了 LPU 在串行生成上的低延伸上风,同期还能通过英伟达的 Dynamo 推理框架和 KV 缓存管束系统,智能地路由不同的 token 苦求。
不错说,SRAM 的总结并非要"杀死" HBM,而是将内存层级推向一个更精致化单干的多元时间。
03 机遇,来了
英伟达的期间转向,在成本阛阓上激起了巨大的漂泊,也激勉了一些道理的误读。当"英伟达将推 SRAM 推理芯片"的音尘传出后,韩国股市一度剧烈波动,阛阓担忧 SRAM 的使用会减少对 HBM 的需求,进而冲击三星和 SK 海力士的中枢业务。关联词,这种担忧很快被专科机构澄莹为误判。
从物理特质看,SRAM 的单位面积是 DRAM 的 5 到 10 倍,每比特成本极高,注定无法替代 HBM 行为主内存的变装。即便 Cerebras 的 WSE-3 集成了 44GB SRAM,这已是工程上的遗迹,但要存储一个 700 亿参数模子的全部权重,仍需要数百 GB 的存储空间,这只可由 HBM 或 DRAM 来承担。SRAM 的用武之地在于需要极致低延伸的特定场景,比如 OpenAI 的代码生成用具,或者畴昔的物理 AI 机器东谈主——这些场景中,每毫秒的延伸皆可能打断东谈主类的念念维流或机器东谈主的动作一语气性。
事实上,内存层级的细分反而会扩大扫数这个词阛阓的总限制。因为畴昔每一个数据中心可能皆需要同期配备用于教悔的 HBM 工作器和用于及时反应的 SRAM 加快卡。HBM 负责承载模子的"经久记念",而 SRAM 负责处理需要"瞬时反应"的交互任务。两者是互补而非替代关系。韩系存储巨头需要警惕的,不是 SRAM 替代 HBM,而是淌若 SRAM 加快卡大限制部署,GPU 的采购比例是否会发生变化,进而影响 HBM 的搭载率。
此外,当推理阛阓的聚光灯转向 SRAM,半导体产业链的受益逻辑也随之发生高明变化。以前,HBM 的繁华主要利好的是专诚从事记念体制造的厂商。而当今,由于 SRAM 平直集成在逻辑芯片里面,依赖于先进逻辑制程,晶圆代工场的地位被前所未有地突显出来。
在这次 GTC 2026 上,台积电被供应链明确点名为"受惠第一溜"。SRAM 行为镶嵌式揣摸中枢的一部分,其策画与制造完全依赖于顶尖的逻辑制程工艺。无论是英伟达接纳 N3P 制程打造下一代 LPU,照旧 AMD、英特尔以及各大 ASIC 厂商跟进肖似的 SRAM 增强架构,最终皆要总结到台积电的先进产线。关于台积电而言,这不仅意味着更高的晶圆平均销售单价(因为芯单方面积增大、制程更先进),更闲暇了其在 AI 半导体制造领域的中枢关节地位。
与此同期,中国台湾的存储供应链也在这股波浪中找到了新的叙事空间。以前,由于其在圭臬 DRAM 和 HBM 领域的份额远不足韩系厂商,时时在 AI 存储盛宴中饰演陪跑变装。但 SRAM 门路的兴起,为他们掀开了一扇窗。这次 GTC 前后,阛阓关注点飞速锁定了几居品备联想空间的台厂。
华邦电因其具备 SRAM 量产训戒而受到关注,其定制化内存(CMS)业务中的 PSRAM(伪静态立时存取存储器),麇集了 DRAM 的高容量与 SRAM 的高速接口特质,被视为在成本与性能之间的折中决议 。力积电则通过其 3D AI Foundry 策略,展现了在多层晶圆堆叠与高容值中介层期间上的实力,具备了连接 SRAM 相关代工的后劲 。此外,钰创的产品线遮掩 38 纳米、63 纳米制程的 SRAM,容量范围刚好合乎 Groq LPU 接纳的圭臬;而爱普则提供新一代 ApSRAM,在功耗和带宽上完了倍数级提高。
这标明,诚然 SRAM 的中枢制造在台积电,但其相关的 IP 策画、利基型产品供应以及先进封安装套,为扫数这个词国产的半导体生态带来了增量契机。
站在此刻回望,SRAM 的总结像是一场期间的循环。在半导体历史上,每一次算力中心的移动开云(中国)官网,皆会追随存储层级的重构。当 AI 产业从教悔狂飙转入推理深耕,当用户体验的焦点从"模子有多大"转向"回答有多快",咱们正在见证的不仅是英伟达一家公司的产品迭代,更是一个时间的切换。存储金字塔的尖端,阿谁也曾因为成本过高而被束之高阁的 SRAM,正在因为东谈主类对及时交互的渴慕,重新茂盛祈望。
OD体育(ODSports)官网入口
备案号: