性能实测
只看官方算力大小不完全能体现出不同GPU的差异和好坏,比如显存带宽对最终耗时也会产生较大影响,这里以深度学习典型任务为例进行实测对比。
测试说明:¶
-
使用PyTorch=1.9.0在zscloud不同GPU(均为单卡测试)上实测
-
网络的输入为使用torch.zero在内存中构造的伪数据,因此不包含CPU预处理数据的负载和额外IO的影响,主要是GPU本身的性能占主导
-
测试ResNet50和ViT Transformer两种算法。ResNet网络包含激活较多,除了本身算力,显存的带宽也对性能有较大影响。ViT Transfomer卷积多,本身算力大小占主要因素
-
包含单精FP32和半精FP16(非混合精度)的测试结果,请根据自己的需要进行对比