来源:雪球App,作者: 臭臭3,(https://xueqiu.com/8356457084/322479404)
28.5G vs 745MB,足以说明$AMD(AMD)$ 过去一年在ROCm上下了多大的决心软件生态是amd当前最急切要解决的问题,作为使用者我很有发言权
雪球上几乎看不到真正上手使用ROCm的人,但人人都在说CUDA是$英伟达(NVDA)$ 的护城河。互联网言必称A卡适合(只能)玩游戏,生产力只能选N卡。其实AMD已经慢慢突破了CUDA这道墙。
-22年我刚开始尝试用A卡做DL,别说流畅运行TensorFlow,就连想要装上ROCm,都得自己动手写驱动
-23年ROCm5.6发布之后,所有算子都已经支持GPU运算,并且兼容pytorch2.0的compile特性,性能直接翻倍
-今天的ROCm6.3,不仅一键安装,并且支持flash attention,pytorch代码从N卡迁移0修改成本,使用体验和性能都已经不输N最新卡(工作原因我绝大部分时间都在和最新的N卡打交道)
图是linux上同一张A卡的性能优化爬坡过程,即使不换最新的A卡,也能享受到各种好处
几年前Au在事实上已经碾压Intel,但不管PC还是服务器市场,大家都还有很强的intel信仰。说明即使是业内人士,思想的转变也是非常缓慢的。人心才是最大的护城河。$Meta(META)$ 的合作者对MI325X赞不绝口,torch也一直和ROCm保持高强度更新联动,各大公司对Instinct的部署都在逐渐铺开。也许和Au一样,再过两年人们才会发现,A卡的ZEN时刻早已到来。