AMD推出ROCm 7软件平台追赶英伟达CUDA性能优势

栏目：我们的优势发布时间：2025-09-19 12:48:49

　　　　AMD在今年春季推出MI355X芯片，在性能方面缩小了与英伟达Blackwell加速器的

　　AMD在今年春季推出MI355X芯片，在性能方面缩小了与英伟达Blackwell加速器的差距。现在该公司需要克服英伟达CUDA软件的优势，让开发者更容易获得这种性能提升。

　　本周发布的AMD ROCm 7.0软件平台朝着这个方向迈出了重要一步，承诺在推理和训练性能方面实现重大改进，不仅让最新芯片受益，其较老的MI300系列产品也能获得提升。所谓的CUDA护城河可能正在变窄。

　　ROCm是一套软件库和开发工具套件，包括HIP框架，为开发者提供低级编程接口，用于在GPU上运行高性能计算(HPC)和AI工作负载。这个软件栈在很多方面类似于CUDA运行时，但针对的是AMD GPU而非英伟达。

　　自2023年推出首款真正针对AI优化的图形加速器MI300X以来，AMD通过其ROCm运行时扩展了对新数据类型的支持，改善了与流行运行时和框架的兼容性，并引入了硬件特定的优化。

　　ROCm 7可以说是AMD迄今为止最大的更新。与ROCm 6相比，AMD表示客户可以期待MI300X的推理性能提升约3.5倍。同时，公司称已成功将模型训练中实现的有效浮点性能提升了3倍。

　　AMD声称，这些软件增强功能的结合，使其最新最强的GPU MI355X在运行SGLang中的DeepSeek R1推理工作负载时，比英伟达B200有1.3倍的优势。如往常一样，所有厂商的性能声明都应谨慎对待。

　　AMD MI355X的主要竞争对手实际上是英伟达的B300，后者配备288 GB HBM3e内存，实现14 petaFLOPS的密集FP4性能，这在理论上可能在推理工作负载中给它带来优势。

　　谈到FP4支持，MI350系列是AMD首代为OCP微缩放数据类型提供硬件加速的GPU，我们在上个月OpenAI gpt-oss发布时详细了解过这项技术。

　　这些更小的格式对推理和训练性能有重大影响，可提升吞吐量并将内存需求减少2到4倍。ROCm 7.0.0扩展了对这些低精度数据类型的更广泛支持，AMD表示其Quark量化框架现已准备好投入生产使用。

　　这是一个重大改进，相比之下，为MI300提供FP8支持就滞后了将近一年时间。

　　除了数据类型，ROCm 7.0.0还引入了AMD的AI张量引擎(AITER)，它具有专门调优的算子，旨在实现最大的生成式AI性能。

　　对于推理，AMD表示AITER可以将MLA解码操作提升17倍，MHA预填充操作提升14倍。当应用于DeepSeek R1等模型时，这家GPU厂商称AITER可以将吞吐量提升超过2倍。

　　更重要的是，AITER和MXFP4数据类型已经被合并到流行的推理服务引擎中，如vLLM和SGLang。AMD告诉我们，启用该功能就像安装依赖项和设置适当的环境变量一样简单。

　　其他改进包括支持最新的Ubuntu 24.04.3 LTS版本以及Rocky Linux 9和KVM直通，供那些想要为虚拟机添加GPU加速的用户使用。

　　最后，对于在生产环境中部署大量Instinct加速器的用户，AMD推出了一对新的仪表板，旨在让管理大型GPU集群变得更容易。AMD的资源管理器提供关于集群性能和利用率的详细遥测数据，以及访问控制和设置项目配额的能力，这样一个团队就不会占用所有的计算资源。

　　除了资源管理器，AMD还推出了AI工作台，旨在简化训练或微调流行基础模型的过程。

　　ROCm 7.0现可从AMD支持网站下载，也可在Docker Hub上获得预构建的容器镜像。

　　A：ROCm 7是AMD迄今最大的更新，与ROCm 6相比，MI300X的推理性能提升约3.5倍，模型训练中的有效浮点性能提升3倍。新版本还引入了AI张量引擎AITER，支持OCP微缩放数据类型，并改善了与主流框架的兼容性。

　　A：ROCm 7.0现可从AMD支持网站免费下载，也可在Docker Hub上获得预构建的容器镜像。对于AITER等新功能，启用过程很简单，只需安装依赖项和设置适当的环境变量即可，已经集成到vLLM和SGLang等流行推理引擎中。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。