
AMD正式推出ROCm 7开放式软件堆叠,支持MI350 AI GPU,加强推论性能、引入FP8 /FP6算法与新模型框架,相较前代ROCm 6,AI效能最高提升3.8倍,并将支持Ryzen笔记本与Windows平台。
AMD ROCm 7平台将强化AI推论与通用部署
AMD正式发表其新一代开放式AI软件平台ROCm 7,为其Instinct MI350系列加速器提供完整支持,并针对AI推论场景进行大量优化。 相较前代ROCm 6平台,ROCm 7可带来高达3.5倍的推论效能提升,并在训练任务上也有明显进步,显示AMD正全面加速其AI生态系发展。
ROCm 7 内置对下列高级 AI 算法的支持:
- GEMM 自动调校 (Autotuning)。
- MoE (Mixture of Experts) 模型。
- 多层次 Attention 运算。
- 基于 Python 的核心函数 (Kernel Authoring)。

此外,该平台支持全新低精度格式,包括FP8、FP6、FP4与混合精度(Mixed Precision),进一步提升AI加速器的吞吐表现与能源效率。
AMD 也提供了具体实测数据佐证 ROCm 7 平台的效能提升:
- Llama 3.1 70B:性能提升3.2倍。
- Qwen2-72B:性能提升3.4倍。
- DeepSeek R1:性能提升3.8倍。
值得注意的是,ROCm 7在DeepSeek R1测试中,搭配MI355XGPU可超越NVIDIA Blackwell B200平台(使用CUDA)约30%的推论吞吐效能(FP8计算),显示AMD在某些特定场景已具备实质竞争力。

ROCm 7 在训练任务上也有稳定提升:
- Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B:平均性能提升3倍。
更重要的是,AMD计划在今年下半年将 ROCm 延伸支持至:
- 搭载Ryzen处理器的笔记本与工作站。
- 完整 in-box Linux 整合。
- 正式支持 Windows 系统。
这代表ROCm将从仅限于数据中心部署,走向更加广泛的应用场景,扩大其AI软件生态。