AMD游戏显卡这几年被严重压制,不过新的大招正在酝酿之中。现在,AMD显卡率先进入了7nm工艺世代,首先用于Radeon Instinct专业计算卡,新的游戏卡也将在明年和我们见面。
7nm Radeon Instinct系列首发两款产品,型号分别是MI60、MI50,主打机器学习训练、高性能领域,也可用于虚拟化、机器学习推理,将在今年底出货,相关系统和应用明年问世,2020年还有下一代产品。
Radeon Instinct MI60、MI50仍旧基于Vega GPU核心架构,但是一方面升级新工艺,另一方面也针对数据中心应用做了调整优化,包括计算单元、显存、PCI-E 4.0等等。
14nm Vega 10核心拥有125亿个晶体管,核心面积484平方毫米,7nm Vega则增至132亿个晶体管(增幅6.4%),面积却缩小到331平方毫米(幅度31.6%),同时只相当于对手(815平方米的12nm GV100)的大约40%。
新核心对基础的计算单元进行了针对性的调整增强,比如矢量ALU单元支持16/32/64位操作,同时所有模块都支持ECC。
它还是世界上第一个显存带宽达到1TB/s的GPU,最多32GB HBM2。
架构优化加上频率提升(具体未公开),MI60相比于MI25在流处理器相同的情况下,性能提升幅度十分惊人,比如FP16浮点性能快了20%,INT8、INT4整数性能分别快了140%、380%,还有新的指令集,更适合执行机器学习应用。
如果只是进行矩阵乘法运算,MI60只会提升25%以上,但对于Resnet-50这样的特定应用,提升幅度最高可达2.8倍,非常惊人。
TensorFlow FP32提升幅度在25-50%之间,而且凭借Infinity Fabric,MI60还支持近乎线性提升的多路扩展,比如四路性能就几乎是单路的整整4倍。
Vega、EPYC现在都支持PCI-E 4.0,但是平台尚未构建完成,所以八路并行在PCI-E 3.0下性能提升会受到一定的限制,未来都换到PCI-E 4.0还有望更猛。
PCI-E 4.0,7nm Vega是第一个支持的GPU,Rome EPYC则是第一个支持的CPU,二者互相配合,双向带宽可达64GB/s,最多可以四块并行。
Infinity Fabric总线则可以在不同显卡之间提供200GB/s的带宽,是PCI-E 3.0的足足6倍,不过注意这里用了硬件桥接方式互连,目的是更方便地处理超大传输数据量。
而得益于对硬件虚拟化的支持(唯一哦),MI60/56还可以最多八块卡并行,但实现方式略有不同,每四块通过Infinity Fabric高速互联,然后两组四块卡再通过PCI-E总线互连。
如果不需要这么多卡,也可以一块、两块、四块各自组成虚拟机再并联于同一个系统内,但注意必须是完全同一型号的卡,不能混用。
MI60是个完全体,集成64个计算单元、4096个流处理器,峰值整数性能INT4 118Tops、INT8 59Tops,峰值浮点性能FP16 29.5TFlops、FP32 14.7TFlops、FP64 7.4TFlops,技术特性支持全芯片ECC错误校验、RAS、PCI-E 4.0、双链路Infinity Fabric,显存搭配4096-bit 32GB HBM2,带宽1TB/s,热设计功耗300W。
MI50精简到60个计算单元、3840个流处理器,性能降低约9.5%,显存容量减半至16GB,其他完全同上。?