1
fcten 17 小时 44 分钟前
MoE 模型的主要瓶颈在于内存/显存带宽,对算力的要求比较小。你的这个配置的瓶颈全在内存带宽上,GPU 妥妥打酱油。
用 24 通道的双路服务器主板,纯 CPU 跑 Q8 量化的模型也能达到 6 ~ 8 token/s 的速度。可以参考: https://x.com/carrigmat/status/1884244369907278106 |
2
snowkylin OP @fcten 是的,所以我在正文里写了,文中测试的这套配置对于跑大规模 LLM 推理并不是最有性价比的(我用这个只是因为我手上刚好有,主要是做训练用)。如果纯做 LLM 推理,目前最有性价比的新机方案我觉得可能是高配大内存的 Mac Studio 。
https://x.com/ggerganov/status/1884358147403571466 |
3
vpsvps 15 小时 44 分钟前 via iPhone
请问 1.73-bit 量化版( 158GB 大小的模型)
一个 4090 24G 加上 160G 内存 可以跑起来吗? 不是需要 7 块 4090 吗? |
5
vpsvps 15 小时 18 分钟前 via iPhone
@snowkylin #4 谢谢回复,用 ollama 就可以吧,显存用完就会调用内存,
比如 我的服务器有 8 块 4090 ,内存 640G ,能跑得动 671b 404GB 这个,就是速度慢点是吧? |
6
snowkylin OP |
7
BanShe 14 小时 30 分钟前
马克一下。我缺显卡😂
|
8
googlefans 13 小时 54 分钟前
出个教程
|
9
vpsvps 13 小时 52 分钟前 via iPhone
@snowkylin #6 👍,这种方式是不是不能直接使用 ollama run deepseek-r1:671b 从 ollama 上下载,404G 的,而需要在 huginnface 上下载?
Download the model files (.gguf) from HuggingFace (better with a downloader, I use XDM), then merge the seperated files into one |
10
snowkylin OP @vpsvps 我没试过直接用 ollama 下载,不太确定,以及这个是 unsloth ai 出的动态量化版本,目前我只看到 huggingface 上有
|
11
erek 12 小时 22 分钟前
抱歉,一块 显卡都没有 T T
|
12
uncat 7 小时 9 分钟前
> 我的服务器有 8 块 4090 ,内存 640G ,能跑得动 671b 404GB 这个吗?
可以跑得动,跟你类似的配置,8 * 4090 + 512G 内存。Ollama 671B Q4 ,回答问题,短的 10s ,长的 20 - 30s 的样子。体验较差。 实际显存+内存总共:180 - 200G 。 ollama 现在会因为显存分配策略问题导致无法启动,需要 dump 出 Modefile 后手动添加 parameter num_gpu 为显卡数量 * 2 |
14
vpsvps 7 小时 0 分钟前
@uncat 谢谢回复,是直接 ollama run deepseek-r1:671b 这个就行吗?这个简单些。huginnface 上的版本还得合并,比较麻烦,您说的是指用 unsloth/DeepSeek-R1-GGUF 这个模型文件吗
|
15
uncat 6 小时 54 分钟前
> 是直接 ollama run deepseek-r1:671b 这个就行吗?
先 ollama pull deepseek-r1:671b 拉下来后,保存 modefile 到本地,添加 num_gpu 参数后再重新导入即可。 参考这个: https://github.com/ollama/ollama/issues/6950#issuecomment-2373663650 @vpsvps |
16
uncat 6 小时 49 分钟前
1. ollama pull deepseek-r1:671b
2. ollama show --modelfile deepseek-r1:671b | sed -e 's/^FROM.*/FROM deepseek-r1:671b/' > Modelfile 3. echo "PARAMETER num_gpu 0" >> Modelfile 4. ollama create deepseek-r1:671b-custom 第 3 步,将 0 替换为 2 (假设你是 24G 显存的显卡,实际显存除以 9 取整数商) |
19
TUCANA 5 小时 38 分钟前
这个介绍适合发小红书🤣
|
20
snowkylin OP |