AMD推出ROCm 7软件平台追赶英伟达CUDA性能优势
栏目:我们的优势 发布时间:2025-09-19 12:48:49
     AMD在今年春季推出MI355X芯片,在性能方面缩小了与英伟达Blackwell加速器的

  

AMD推出ROCm 7软件平台追赶英伟达CUDA性能优势

  AMD在今年春季推出MI355X芯片,在性能方面缩小了与英伟达Blackwell加速器的差距。现在该公司需要克服英伟达CUDA软件的优势,让开发者更容易获得这种性能提升。

  本周发布的AMD ROCm 7.0软件平台朝着这个方向迈出了重要一步,承诺在推理和训练性能方面实现重大改进,不仅让最新芯片受益,其较老的MI300系列产品也能获得提升。所谓的CUDA护城河可能正在变窄。

  ROCm是一套软件库和开发工具套件,包括HIP框架,为开发者提供低级编程接口,用于在GPU上运行高性能计算(HPC)和AI工作负载。这个软件栈在很多方面类似于CUDA运行时,但针对的是AMD GPU而非英伟达。

  自2023年推出首款真正针对AI优化的图形加速器MI300X以来,AMD通过其ROCm运行时扩展了对新数据类型的支持,改善了与流行运行时和框架的兼容性,并引入了硬件特定的优化。

  ROCm 7可以说是AMD迄今为止最大的更新。与ROCm 6相比,AMD表示客户可以期待MI300X的推理性能提升约3.5倍。同时,公司称已成功将模型训练中实现的有效浮点性能提升了3倍。

  AMD声称,这些软件增强功能的结合,使其最新最强的GPU MI355X在运行SGLang中的DeepSeek R1推理工作负载时,比英伟达B200有1.3倍的优势。如往常一样,所有厂商的性能声明都应谨慎对待。

  AMD MI355X的主要竞争对手实际上是英伟达的B300,后者配备288 GB HBM3e内存,实现14 petaFLOPS的密集FP4性能,这在理论上可能在推理工作负载中给它带来优势。

  谈到FP4支持,MI350系列是AMD首代为OCP微缩放数据类型提供硬件加速的GPU,我们在上个月OpenAI gpt-oss发布时详细了解过这项技术。

  这些更小的格式对推理和训练性能有重大影响,可提升吞吐量并将内存需求减少2到4倍。ROCm 7.0.0扩展了对这些低精度数据类型的更广泛支持,AMD表示其Quark量化框架现已准备好投入生产使用。

  这是一个重大改进,相比之下,为MI300提供FP8支持就滞后了将近一年时间。

  除了数据类型,ROCm 7.0.0还引入了AMD的AI张量引擎(AITER),它具有专门调优的算子,旨在实现最大的生成式AI性能。

  对于推理,AMD表示AITER可以将MLA解码操作提升17倍,MHA预填充操作提升14倍。当应用于DeepSeek R1等模型时,这家GPU厂商称AITER可以将吞吐量提升超过2倍。

  更重要的是,AITER和MXFP4数据类型已经被合并到流行的推理服务引擎中,如vLLM和SGLang。AMD告诉我们,启用该功能就像安装依赖项和设置适当的环境变量一样简单。

  其他改进包括支持最新的Ubuntu 24.04.3 LTS版本以及Rocky Linux 9和KVM直通,供那些想要为虚拟机添加GPU加速的用户使用。

  最后,对于在生产环境中部署大量Instinct加速器的用户,AMD推出了一对新的仪表板,旨在让管理大型GPU集群变得更容易。AMD的资源管理器提供关于集群性能和利用率的详细遥测数据,以及访问控制和设置项目配额的能力,这样一个团队就不会占用所有的计算资源。

  除了资源管理器,AMD还推出了AI工作台,旨在简化训练或微调流行基础模型的过程。

  ROCm 7.0现可从AMD支持网站下载,也可在Docker Hub上获得预构建的容器镜像。

  A:ROCm 7是AMD迄今最大的更新,与ROCm 6相比,MI300X的推理性能提升约3.5倍,模型训练中的有效浮点性能提升3倍。新版本还引入了AI张量引擎AITER,支持OCP微缩放数据类型,并改善了与主流框架的兼容性。

  A:ROCm 7.0现可从AMD支持网站免费下载,也可在Docker Hub上获得预构建的容器镜像。对于AITER等新功能,启用过程很简单,只需安装依赖项和设置适当的环境变量即可,已经集成到vLLM和SGLang等流行推理引擎中。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。