V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhuwd
V2EX  ›  NVIDIA

NVLink 对显卡集群的影响有多大?

  •  
  •   zhuwd · 4 天前 · 2453 次点击
    组了 8 台 NVIDIA A100-PCIE-40GB ,用 Ollama 跑了 Deepseek 的 70B 版本,理论上性能是足够的,但是思考时间特别长,显存的占用率也不是很高,功率甚至连五分之一都没达到,不知道问题出在什么地方
    19 条回复    2025-02-17 20:46:39 +08:00
    neteroster
        1
    neteroster  
       4 天前 via Android   ❤️ 1
    1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
    2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。
    zhuwd
        2
    zhuwd  
    OP
       4 天前
    @neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang
    hertzry
        3
    hertzry  
       4 天前 via iPhone
    NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。
    TimeNewRome
        4
    TimeNewRome  
       4 天前
    deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。

    所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。

    PCIE 通道数有上限,会严重拖慢 IO 速度。
    liuyuncai
        5
    liuyuncai  
       4 天前
    被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了
    cpstar
        6
    cpstar  
       4 天前
    谁给的勇气判定“理论上性能是足够的”?
    这 8 台,还不知道单台多少块 A100 ,就算是 8 块,总共 64 块。那么首先单台的八卡联合工作问题不大,总共可用显存 320G ,可以上 q8 甚至 fp16 量化,但是 671b 够不到。
    然后就是 8 台机器协同,基本上 PCIE 的不要想了。如果是 8 卡的情况,还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡,然后 IB 组网还需要至少 8 台交换机(也许更多,具体方案没有细算过)。反正是 PCIE 版的基本就放弃机间组网,玩一玩本机多卡协同就到头了。然后如果需要机器协同,请去查找 SXM 版的 A100 。
    zhuwd
        7
    zhuwd  
    OP
       4 天前
    @cpstar 目前 8 张卡在一台机器上,总显存 320G ,部署 70B 版本的应该够了吧,只不过 8 张卡是 PCIe 版的
    scys
        8
    scys  
       4 天前
    看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。
    apuslilie
        9
    apuslilie  
       4 天前
    好奇去了解了一下 NVlink ,感觉机器学习对 GPU 之间通信的要求还挺高的(不然 PCIe 应该就够了)。

    个人理解这方面是不是在算法上还有继续挖掘的空间?如果对通信带宽的要求这么高,通信本身的开销就不小吧。

    一般 CPU 为主的计算,通信的开销有,但是感觉要小得多,节点不多的时候用普通网线连接都可以。
    iorilu
        10
    iorilu  
       4 天前
    70b? 为什么要这么多卡
    wuyadaxian
        11
    wuyadaxian  
       4 天前   ❤️ 1
    https://post.smzdm.com/p/a96e6rg5/
    早上刚看了这个。
    reeco
        12
    reeco  
       4 天前   ❤️ 1
    生产环境显存足够还用 ollama 这种套壳干嘛,暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的
    secondwtq
        13
    secondwtq  
       4 天前
    你把 PCIe P2P 搞起来就可以,应该是不需要 NVLink 的。
    secondwtq
        14
    secondwtq  
       4 天前
    70B 的话试试用四块跑,卡越多通信开销越大。
    kernelpanic
        15
    kernelpanic  
       4 天前
    deepseek 只有一个 671B 版本
    eternitym31
        16
    eternitym31  
       4 天前
    我试过 pcie 和 nvlink 的 8 卡 a100 ,性能差的很少,10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的,我怀疑可能发生了显存和内存的交换,出现了 IO 瓶颈。
    carmark
        17
    carmark  
       4 天前
    8 台还是 8 张,节点内可以走 nvlink 或者 pcie ,节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽,但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ,这个比以太网好太多,如果是单机八卡那么其实上 nvlink 意义不大,重点还是要用正经的推理引擎,ollama 的目标是为了能兼容多种硬件。
    lkc3093
        18
    lkc3093  
       3 天前 via Android
    sxm 版本的才能用 nvlink
    mengban
        19
    mengban  
       2 天前
    70B 是指蒸馏版本的 Qwen 吧? 严格来说 这个和 dsk 相差甚远 真想部署所谓的满血 dsk 起步配置是 16 张 80G 的卡 你这配置估计体验不到 dsk 的能力
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1164 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 23:09 · PVG 07:09 · LAX 15:09 · JFK 18:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.