DDR4 当 DDR5 用! Meta 发表自研 Vistara 芯片,回收旧内存省下数千万美元

全球DRAM价格持续飙涨,连财大气粗的Meta也开始叫苦。 在6月29日于日本举办的ISCA 2026(国际计算机架构研讨会)上,Meta公布了一款自行研发的客制化ASIC芯片,代号Vistara,能将旧服务器拆卸下来的DDR4内存模组,通过CXL协议桥接到只支持DDR5的新一代服务器上使用。 这项技术预计可为 Meta 省下数千万美元的硬件采购成本,同时让 AI 推理服务器的需求量减少多达 25%,在当前存储器价格持续高涨的环境下格外引人关注。

DDR4 当 DDR5 用! Meta 发表自研 Vistara 芯片,回收旧内存省下数千万美元 - 安卓手赚网

DDR4 当 DDR5 用! Meta 发表自研 Vistara 芯片,回收旧内存省下数千万美元

Vistara 是什么?

Vistara 是Meta 自行设计的第一代CXL(Compute Express Link)内存扩充ASIC芯片,它扮演桥接器角色,通过PCIe Gen5 x16 接口与CXL 2.0/1.1协议,将旧款DDR4 RDIMM连接至搭载AMD EPYC「Turin」处理器的新世代服务器。 每颗Vistara芯片支持两条独立的72-bit DDR4内存通道,最大可提供256GB容量(使用64GB DIMM),而Meta目前实际部署是从淘汰服务器回收32GBDDR4模组,每颗芯片提供128GB。
DDR4 当 DDR5 用! Meta 发表自研 Vistara 芯片,回收旧内存省下数千万美元 - 安卓手赚网

Vistara 的核心架构基于三颗RISC-V处理器核心,负责安全启动、装置初始化、固件管理与健康监控等关键任务。 Meta表示其CXL控制器与内存管线经过深度优化,可将闲置往返延迟压低至约50奈秒(约250个时脉周期),并支持Reed-Solomon双符号错误修正与x4 chip-kill保护,确保回收内存的可靠性不亚于全新模块。 该芯片采用台积电的先进制程节点制造,详细的功耗与芯片面积数据尚未公开。

MemServer 架构:新旧内存混搭运作原理

Meta 将 Vistara 芯片部署于名为「MemServer」的独立单元中。 每台 MemServer 配备两颗 Vistara ASIC,通过 PCIe 5.0 x8 连接到一颗 158 核心的 AMD EPYC Turin 处理器。 最终配置为:768GB 原生 DDR5-6400 内存加上 256GB 经 CXL 接口连接的回收 DDR4-2400 内存,合计约 1TB 容量。 在操作系统的眼中,这两层内存被识别为不同的 NUMA 节点。
DDR4 当 DDR5 用! Meta 发表自研 Vistara 芯片,回收旧内存省下数千万美元 - 安卓手赚网

在软件层面,操作系统会将CXL内存自动识别为一个额外的NUMA节点。 Linux 核心的页面迁移机制会将较少存取的「冷数据」移至较慢的 DDR4 层(带宽约 76 GB/s),而将频繁存取的热数据保留在快速的 DDR5 层(带宽约 614 GB/s)。 这样的设计确保效能敏感的工作负载不受影响,同时让闲置的旧内存发挥剩余价值。
DDR4 当 DDR5 用! Meta 发表自研 Vistara 芯片,回收旧内存省下数千万美元 - 安卓手赚网

为什么需要自制芯片?

Meta在论文中直言不讳地指出了痛点:该公司约40%的服务器机队无法扩充内存,尽管DIMM模组的实际寿命可达7至10年,但服务器主机每3至5年就面临汰换。 大量仍可正常运作的DDR4内存随着旧机器一起报废,形成巨大的资源浪费与成本负担。 市售的CXL硬件之所以无法解决这个问题,是因为它们将内存控制器与内存本身绑定在一起,用户无法自行更换DIMM。 Vistara 则完全分离了控制器与内存,让 Meta 能够随意插上手上现有的 DDR4 模块,无论厂牌与型号。

效益数据:AI 推理服务器减少 25%

根据Meta在ISCA 2026上发表的论文数据(需留意为Meta自行测量,未经第三方验证),Vistara架构带来了三项显著效益:

  • AI 推理服务器需求减少 25%:回收内存有效缓解了内存容量瓶颈,使每台服务器能承载更多推理任务
  • 任务重启与资源碎片开销降低 33%:CXL 层有效缓冲了内存不足(OOM)事件的发生频率
  • 支持多代内存混用:即使未来进入DDR6世代,Vistara 架构同样可继续沿用DDR5与DDR4内存,实现跨世代内存重用

不只是Meta:CXL生态系正在成形

Meta并非唯一在ISCA 2026上发布CXL存储器解决方案的厂商,韩国新创公司Panmnesia在同一场IndustrySession中展示了其全新的CXL控制器与Fabric Switch方案,支持最多64个节点的内存池扩充,并已进入PCIe 7.0/CXL 4.0IP开发阶段。 Panmnesia 首席执行官 Myoungsoo Jung 表示,早期 CXL 实作因继承 PCIe 架构而存在显著延迟问题,CXL 交换器常被认为无法满足内存存取的延迟需求,但该公司的新一代架构已可完全克服这项限制。 Panmnesia 的 Fusion Switch 已进入预发布硅片阶段。

这也凸显了一个值得观察的产业趋势:拥有自研芯片能力的超大规模业者(Hyperscaler)可以绕过DRAM短缺的冲击,自行打造专属的存储器解决方案,而其他企业只能承受市场波动的价格。 CXL 控制器供应商现在有了一个极具说服力的参考客户,而 AMD 的 EPYC Turin 平台也获得了过去仅存在简报中的实际存储器扩充应用场景,这对整个服务器生态系来说都是正向发展。

(0)
GameNinja88GameNinja88

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注