【资料图】
如今,人工智能和深度学习不断成为头条新闻,无论是ChatGPT 生成糟糕的建议、自动驾驶汽车、被指控使用人工智能的艺术家、人工智能的医疗建议等等。这些工具中的大多数都依赖于具有大量硬件的复杂服务器来进行训练,但是可以在您的 PC 上使用其显卡通过推理使用经过训练的网络。但是消费类 GPU 进行 AI 推理的速度有多快?
我们在最新的 Nvidia、AMD 甚至英特尔 GPU 上对流行的 AI 图像创建器 Stable Diffusion 进行了基准测试,以了解它们的性能如何。如果您偶然尝试在您自己的 PC 上启动并运行 Stable Diffusion,您可能对它的复杂性或简单性略有了解!- 可以。简短的总结是 Nvidia 的 GPU 占据主导地位,大多数软件都是使用 CUDA 和其他 Nvidia 工具集设计的。但这并不意味着您无法在其他 GPU 上运行 Stable Diffusion。
我们最终使用三个不同的 Stable Diffusion 项目进行测试,主要是因为没有一个包适用于每个 GPU。对于 Nvidia,我们选择了Automatic 1111 的 webui 版本(在新标签页中打开);它表现最好,有更多选择,而且很容易上手。AMD GPU 使用Nod.ai 的 Shark 版本进行了测试(在新标签页中打开)— 我们检查了 Nvidia GPU 的性能(在 Vulkan 和 CUDA 模式下),发现它……缺乏。由于缺乏支持,让英特尔的 Arc GPU 运行起来有点困难,但Stable Diffusion OpenVINO(在新标签页中打开)给了我们一些非常基本的功能。
免责声明是有序的。我们没有编写任何这些工具的代码,但我们确实在寻找易于运行(在 Windows 下)并且似乎也经过合理优化的东西。我们相对有信心 Nvidia 30 系列测试在提取接近最佳性能方面做得很好——尤其是在启用 xformers 时,它提供了大约 20% 的额外性能提升(尽管精度降低可能会影响质量)。同时,RTX 40 系列结果最初较低,但 George SV8ARJ提供了此修复(在新标签页中打开),其中替换 PyTorch CUDA DLLs 给性能带来了健康的提升。
AMD 的结果也有点喜忧参半:RDNA 3 GPU 表现非常好,而 RDNA 2 GPU 似乎相当平庸。Nod.ai 让我们知道他们仍在为 RDNA 2 开发“调整”模型,一旦可用,它们应该会大大提高性能(可能翻倍)。最后,在英特尔 GPU 上,尽管最终性能似乎与 AMD 选项相当,但实际上渲染时间要长得多——实际生成任务开始需要 5-10 秒,而且可能需要很多额外的背景东西正在发生,这会减慢它的速度。