swmjjy 最近的时间轴更新
swmjjy

swmjjy

V2EX 第 123752 号会员,加入于 2015-06-23 17:27:35 +08:00
swmjjy 最近回复了
我这也是, 63 小时活动时间, 122T 读取 36T 写入

4 天前
回复了 moudy 创建的主题 Apple Mac Studio 实战 671B 全量大模型成绩出来了
@wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已
4 天前
回复了 moudy 创建的主题 Apple Mac Studio 实战 671B 全量大模型成绩出来了
@wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
4 天前
回复了 moudy 创建的主题 Apple Mac Studio 实战 671B 全量大模型成绩出来了
@wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
你没去了解=没有
5 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@newbeelity 这并不是什么问题, 主流推理框架全都正式支持至少一种并行方式, 而且都不必选依赖 nvlink 或者对应 GPU 的同等通信方式, exo 仅仅属于在 mac 社区里比较知名的简单山寨实现而已
5 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
@BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

举例, 8 张 3060, Qwen2.5-72B 4bit 量化
promp prefill: 470token/s
decode bs=1: 37token/s
decode 高并发: 430token/s

(这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)




2023-06-07 12:17:04 +08:00
回复了 polobug 创建的主题 Apple 库克的内存和存储还是那么抠,可吐了
@wy315700 一般是没有...但这个一般大概不包括真的把 mac 的内存当显存并据此认为价格合理的那些
2023-06-07 11:49:48 +08:00
回复了 polobug 创建的主题 Apple 库克的内存和存储还是那么抠,可吐了
@dlwlrm 除非你说的是推理而不是训练, 正常训练数据集预处理逻辑吃内存随随便便上百 G, 老黄给 gh200 配单节点 96G HBM3+480GB lpddr5x 这个比例足够体现主流需求的显存内存消耗占比了
2023-06-07 11:40:23 +08:00
回复了 polobug 创建的主题 Apple 库克的内存和存储还是那么抠,可吐了
@dlwlrm 我说的就是炼丹啊, 内存吃的远比显存多
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2676 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 12:26 · PVG 20:26 · LAX 05:26 · JFK 08:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.