![]() |
1
neteroster 4 天前 via Android ![]() 1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。 |
![]() |
2
zhuwd OP @neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang
|
3
hertzry 4 天前 via iPhone
NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。
|
4
TimeNewRome 4 天前
deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。
所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。 PCIE 通道数有上限,会严重拖慢 IO 速度。 |
5
liuyuncai 4 天前
被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了
|
![]() |
6
cpstar 4 天前
谁给的勇气判定“理论上性能是足够的”?
这 8 台,还不知道单台多少块 A100 ,就算是 8 块,总共 64 块。那么首先单台的八卡联合工作问题不大,总共可用显存 320G ,可以上 q8 甚至 fp16 量化,但是 671b 够不到。 然后就是 8 台机器协同,基本上 PCIE 的不要想了。如果是 8 卡的情况,还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡,然后 IB 组网还需要至少 8 台交换机(也许更多,具体方案没有细算过)。反正是 PCIE 版的基本就放弃机间组网,玩一玩本机多卡协同就到头了。然后如果需要机器协同,请去查找 SXM 版的 A100 。 |
![]() |
8
scys 4 天前
看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。
|
9
apuslilie 4 天前
好奇去了解了一下 NVlink ,感觉机器学习对 GPU 之间通信的要求还挺高的(不然 PCIe 应该就够了)。
个人理解这方面是不是在算法上还有继续挖掘的空间?如果对通信带宽的要求这么高,通信本身的开销就不小吧。 一般 CPU 为主的计算,通信的开销有,但是感觉要小得多,节点不多的时候用普通网线连接都可以。 |
![]() |
10
iorilu 4 天前
70b? 为什么要这么多卡
|
![]() |
11
wuyadaxian 4 天前 ![]() |
![]() |
12
reeco 4 天前 ![]() 生产环境显存足够还用 ollama 这种套壳干嘛,暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的
|
![]() |
13
secondwtq 4 天前
你把 PCIe P2P 搞起来就可以,应该是不需要 NVLink 的。
|
![]() |
14
secondwtq 4 天前
70B 的话试试用四块跑,卡越多通信开销越大。
|
![]() |
15
kernelpanic 4 天前
deepseek 只有一个 671B 版本
|
16
eternitym31 4 天前
我试过 pcie 和 nvlink 的 8 卡 a100 ,性能差的很少,10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的,我怀疑可能发生了显存和内存的交换,出现了 IO 瓶颈。
|
![]() |
17
carmark 4 天前
8 台还是 8 张,节点内可以走 nvlink 或者 pcie ,节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽,但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ,这个比以太网好太多,如果是单机八卡那么其实上 nvlink 意义不大,重点还是要用正经的推理引擎,ollama 的目标是为了能兼容多种硬件。
|
18
lkc3093 3 天前 via Android
sxm 版本的才能用 nvlink
|
19
mengban 2 天前
70B 是指蒸馏版本的 Qwen 吧? 严格来说 这个和 dsk 相差甚远 真想部署所谓的满血 dsk 起步配置是 16 张 80G 的卡 你这配置估计体验不到 dsk 的能力
|