最近,AMD发布了最新的AI生产力工具,打压下英伟达的嚣张气焰。
印象深刻的就是192GB显存,英伟达的H100为80GB,单卡跑400亿模型,毫无压力。但我觉得单卡H100其实也能跑。
重要参数对比:
AMD MI300X猛啊。
通过下图来稍微展开下几个参数
模型的训练和推理都是要放到显存中的,显存越大,可支持的模型大小越大,训练也会加速。 之前的文章提到过具体细节(平凡的兵:怎样用单卡12GB显存训练大模型)
2. 显存带宽
GPU包含运算单元和显存,显存带宽就是运算单元和显存之间的通信速率,越大越好。
3. Nvlink和infinity fabric
一般用于显存之间的通信,分布式训练,无论是模型并行还是数据并行,GPU之间都需要快速通信,不然就是性能的瓶颈。
4. 算力FP32
32位浮点的运算能力。
5. 外部通信接口
这里主要是跟CPU和硬盘通信,AMD MI300用的是PCIE4.0接口,低于英伟达的H100。 我猜测,主要目前深度学习任务,瓶颈不在硬盘和GPU的通信上,也就是训练数据的载入上(dataloader),省点成本。
《一》什么是DSD?这种格式有什么优缺点?DSD是Direct Stream Digital的缩写,是Sony与Philips推出SACD时所注册的商标。这种编 ...