NVLink 对显卡集群的影响有多大？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› 下载 GeForce Experience

› NVIDIA SHIELD

› GPU Ray Tracing

› ShadowPlay

› NVIDIA Unix Driver

这是一个创建于 39 天前的主题，其中的信息可能已经有所发展或是发生改变。

组了 8 台 NVIDIA A100-PCIE-40GB ，用 Ollama 跑了 Deepseek 的 70B 版本，理论上性能是足够的，但是思考时间特别长，显存的占用率也不是很高，功率甚至连五分之一都没达到，不知道问题出在什么地方

nvlink

显卡集群

ollama

19 条回复 • 2025-02-17 20:46:39 +08:00

neteroster

39 天前 via Android

1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
2. 没多大并发占用当然不会高，bs=1 decode 是显存带宽瓶颈。

zhuwd

39 天前

@neteroster 感谢！！小白刚上手，搜了下都是用 ollama 在部署，这就去看一下 sglang

hertzry

39 天前 via iPhone

NVLink 需要专门的硬件交换机，你这 PCIe 版用不了。

TimeNewRome

39 天前

deepseek 对 IO 要求很高。楼主的 token 输出慢，多半是因为 IO 传输存在瓶颈。

所以最好的解决办法，应该是换成 NVLINK 而不是继续用 PCIE 。

PCIE 通道数有上限，会严重拖慢 IO 速度。

liuyuncai

39 天前

被多机互联的通信带宽限制了，而且你这个是 PCIE 的，GPU 通信也被限制了

cpstar

39 天前

谁给的勇气判定“理论上性能是足够的”？
这 8 台，还不知道单台多少块 A100 ，就算是 8 块，总共 64 块。那么首先单台的八卡联合工作问题不大，总共可用显存 320G ，可以上 q8 甚至 fp16 量化，但是 671b 够不到。
然后就是 8 台机器协同，基本上 PCIE 的不要想了。如果是 8 卡的情况，还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡，然后 IB 组网还需要至少 8 台交换机（也许更多，具体方案没有细算过）。反正是 PCIE 版的基本就放弃机间组网，玩一玩本机多卡协同就到头了。然后如果需要机器协同，请去查找 SXM 版的 A100 。

zhuwd

39 天前

@cpstar 目前 8 张卡在一台机器上，总显存 320G ，部署 70B 版本的应该够了吧，只不过 8 张卡是 PCIe 版的

scys

39 天前

看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。

apuslilie

39 天前

好奇去了解了一下 NVlink ，感觉机器学习对 GPU 之间通信的要求还挺高的（不然 PCIe 应该就够了）。

个人理解这方面是不是在算法上还有继续挖掘的空间？如果对通信带宽的要求这么高，通信本身的开销就不小吧。

一般 CPU 为主的计算，通信的开销有，但是感觉要小得多，节点不多的时候用普通网线连接都可以。

iorilu

39 天前

70b? 为什么要这么多卡

wuyadaxian

39 天前

https://post.smzdm.com/p/a96e6rg5/
早上刚看了这个。

reeco

39 天前

生产环境显存足够还用 ollama 这种套壳干嘛，暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的

secondwtq

39 天前

你把 PCIe P2P 搞起来就可以，应该是不需要 NVLink 的。

secondwtq

39 天前

70B 的话试试用四块跑，卡越多通信开销越大。

kernelpanic

39 天前

deepseek 只有一个 671B 版本

eternitym31

38 天前

我试过 pcie 和 nvlink 的 8 卡 a100 ，性能差的很少，10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的，我怀疑可能发生了显存和内存的交换，出现了 IO 瓶颈。

carmark

38 天前

8 台还是 8 张，节点内可以走 nvlink 或者 pcie ，节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽，但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ，这个比以太网好太多，如果是单机八卡那么其实上 nvlink 意义不大，重点还是要用正经的推理引擎，ollama 的目标是为了能兼容多种硬件。

lkc3093

38 天前 via Android

sxm 版本的才能用 nvlink

mengban

36 天前

70B 是指蒸馏版本的 Qwen 吧？严格来说这个和 dsk 相差甚远真想部署所谓的满血 dsk 起步配置是 16 张 80G 的卡你这配置估计体验不到 dsk 的能力