parad

parad

V2EX 第 466908 号会员,加入于 2020-01-27 21:30:24 +08:00
parad 最近回复了
推荐 Fireworks, Together 和 Hyperbolic ,我自己测试下来速度比较快。Hyperbolic 最近两天变慢了。

测试脚本的原始数据: https://github.com/paradite/deepseek-r1-speed-benchmark

测试报告 https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed
19 小时 18 分钟前
回复了 Themyth 创建的主题 奇思妙想 有没有出租 deepseek 本地模型的云服务器?
@lovestudykid 问了另一家 provider ,他们说因为 Deepseek R1 是 "trained in FP8",所以本来就是 FP8 quantization 。所以没有影响。
但我也不确定这些 provider 有没有自己多做一层 quantization ,因为 Deepseek R1 的 FP8 是某些 layer 才有的,有会多其他 layer 还是 BF16:
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00001-of-000163.safetensors
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00160-of-000163.safetensors
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00163-of-000163.safetensors
这些 BF16 不确定是不是被额外的做了 FP8 quantization 。按照 vLLM 的说法,如果是 Online Dynamic Quantization
“all Linear modules (except for the final lm_head) have their weights quantized down to FP8_E4M3 precision with a per-tensor scale”:
- https://docs.vllm.ai/en/v0.5.0.post1/quantization/fp8.html
23 小时 25 分钟前
回复了 Themyth 创建的主题 奇思妙想 有没有出租 deepseek 本地模型的云服务器?
@lovestudykid 根据我的理解,DeepSeek 最终的 weight 是 mixed F8_E4M3 + FP32 。这个可以在 Hugging Face 的 原始 model layer details 里面看到: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00027-of-000163.safetensors

而 Hyperbolic 的 FP8 是他们自己的 quantization ,是在 model 上面额外的 quantization ,这里有解释: https://docs.hyperbolic.xyz/docs/hyperbolic-ai-inference-pricing

所以我理解 Hyperbolic 应该是做了额外的 quantization 。当然有可能是我理解错了。欢迎指正。
域名太小众,渲染不出 link [https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed]( https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed)
有很多,我这里做了对比

https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed

持续更新中
4 天前
回复了 CC11001100 创建的主题 程序员 全球工单系统: deepseek 是挂了吗?
2022-08-31 16:03:53 +08:00
回复了 wenzaiquan199 创建的主题 问与答 为安全问题,早上公司热烈讨论
PCI DSS
2022-02-16 13:20:53 +08:00
回复了 iDontEatCookie 创建的主题 English 英语很烂怎么办啊?
https://www.nginx.com/resources/wiki/community/faq/

How do you pronounce “NGINX”?
There seems to be some confusion surrounding the pronunciation of NGINX.

Correct
en-juhn-eks*
Engine-X

Incorrect
en-jingks
2021-04-21 10:32:23 +08:00
回复了 8e47e42 创建的主题 问与答 遇到什么都不懂的面试官应该怎么办?
位运算,一个 int 搞定
2020-10-17 11:30:59 +08:00
回复了 LUREN 创建的主题 问与答 求助用 shell 循环输出一段内容
XY?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1467 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 00:53 · PVG 08:53 · LAX 16:53 · JFK 19:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.