【赞奇实测】DeepSeek 不同 GPU 性能测试一期(4090 VS 5000 Ada VS 5880 Ada)

前几天我们发起了 DeepSeek 私有化部署远程测试体验,我们4卡 RTX 5000 Ada 的本地工作站上部署了R1 32B的基础模型,基于 OpenwebUI 简单搭了一个前端,文章发出后,只得感叹 DeepSeek 的带货能力确实很强,非常感谢大家的关注!

那么,除了 RTX 5000 Ada,4090 的表现如何,性能更强的 RTX 5880 Ada 的表现又怎么样,从单卡到4卡的工作站在满血部署的前提下性能表现到底怎么样?

这两天,某用户技术小伙伴也参与进来,一起测试了这3款 GPU 在 DeepSeek R1 7B、14B 和 32B 三个模型中的性能表现。

因为只是性能测试,没有加入量化版的性能表现,所得数据仅供大家参考:

统一提示词

"prompt":"9.11 and 9.9 ,which is bigger?"

测试模型1:DeepSeek-R1-Disti11-Qwen-7B

图片

一个月前7B还是个人知识库的主流模型,因此目前看24GB显存能很完美的满足个人开发者的需求,如果再考虑量化后的版本,表现应该会更好。根据技术社区的反馈,基于 Llama 70B 蒸馏的版本中文表现不及 Qwen 32B,因此对于企业知识库的需求,我们觉得 R1 Qwen 32B 是企业入门最合适的版本,对比测试我们放在后面。

测试模型2:DeepSeek-R1-Disti11-Qwen-14B

【赞奇实测】DeepSeek 不同 GPU 性能测试一期(4090 VS 5000 Ada VS 5880 Ada)_第1张图片

我们使用 4090、RTX 5000 Ada 和 RTX 5880 Ada 三张显卡进行测试。

【赞奇实测】DeepSeek 不同 GPU 性能测试一期(4090 VS 5000 Ada VS 5880 Ada)_第2张图片

4090:显存不足,无法测试14B模型。

在14B测试中,由于 4090 显存不足,因此更推荐使用 RTX 5000 Ada 或 RTX 5880 Ada 作为单GPU环境推荐,尝鲜的话,单卡 RTX 5000 Ada 工作站目前整机单价约在4-5万左右,性价比上面会是一个相对不错的选择。

测试模型3:DeepSeek-R1-Disti11-Qwen-32B

32B我们推荐4卡工作站,对比数据如下:

【赞奇实测】DeepSeek 不同 GPU 性能测试一期(4090 VS 5000 Ada VS 5880 Ada)_第3张图片

可以看出在32B测试中,双卡 RTX 5880 Ada 的表现非常优秀。

四卡 4090 和四卡 RTX 5000 Ada 的表现接近,但考虑到 4090 的功耗更高,噪音也更大,并且4卡 RTX 5000 Ada 相比4卡 4090 的机器多出32GB显存,可以容纳多至30%到50%的并发访问。

我们依然推荐采用企业级 RTX 5000 Ada 或 RTX 5880 Ada 来搭建AI环境!

测试小结

  1. 7B模型场景:24GB显存即可实现 60+ tokens/s 的高效推理,是性价比较优的入门选择。
  2. 14B模型场景:需至少配备单卡32GB显存的 RTX 5000 Ada/RTX 5880 Ada,其中 RTX 5880 Ada 通过更大的显存带宽实现24.67 tokens/s的最佳性能。而RTX 5000 Ada 单卡工作站可能是14B入门首选,土豪还是选 RTX 5880 Ada吧!
  3. 32B大模型场景:这个场景下双卡 RTX 5880 Ada 表现非常优秀,而四卡 RTX 5000 Ada 凭借128GB显存在相同性能的前提下相比四卡 4090 多了30%-50%以上的并发提升,且低功耗低嗓音是办公室打工人的福音。
    从成本上,2卡 RTX 5880 Ada 价格逼近4卡 4090,但多了两个冗余GPU插槽,依然土豪首选;如果不考虑冗余场景,3-4卡 RTX 5000 Ada 可能会是这个场景下的性价比首选。

致土豪:32B及以下场景,请直接选择 RTX 5880 Ada,以上测试可忽略!顶级土豪,直接上141GB 8卡 H20 吧,满血版671B才是真的香!现在下单,3月就可以上手了。

欢迎大家贡献自己的测试数据,后台联系我们吧

你可能感兴趣的:(【赞奇实测】DeepSeek 不同 GPU 性能测试一期(4090 VS 5000 Ada VS 5880 Ada))