swmjjy

V2EX 第 123752 号会员，加入于 2015-06-23 17:27:35 +08:00

swmjjy 提问技术话题好玩工作信息交易信息城市相关

swmjjy 最近回复了

1 天前

回复了 omz 创建的主题 › Apple › 终端查看 Mac mini 硬盘读写数据，感觉超出我使用的范围

我这也是, 63 小时活动时间, 122T 读取 36T 写入

4 天前

回复了 moudy 创建的主题 › Apple › Mac Studio 实战 671B 全量大模型成绩出来了

@wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已

4 天前

回复了 moudy 创建的主题 › Apple › Mac Studio 实战 671B 全量大模型成绩出来了

@wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上

4 天前

回复了 moudy 创建的主题 › Apple › Mac Studio 实战 671B 全量大模型成绩出来了

@wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
你没去了解=没有

5 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@newbeelity 这并不是什么问题, 主流推理框架全都正式支持至少一种并行方式, 而且都不必选依赖 nvlink 或者对应 GPU 的同等通信方式, exo 仅仅属于在 mac 社区里比较知名的简单山寨实现而已

5 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

@BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

举例, 8 张 3060, Qwen2.5-72B 4bit 量化
promp prefill: 470token/s
decode bs=1: 37token/s
decode 高并发: 430token/s

(这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)

2023-06-07 12:17:04 +08:00

回复了 polobug 创建的主题 › Apple › 库克的内存和存储还是那么抠，可吐了

@wy315700 一般是没有...但这个一般大概不包括真的把 mac 的内存当显存并据此认为价格合理的那些

2023-06-07 11:49:48 +08:00

回复了 polobug 创建的主题 › Apple › 库克的内存和存储还是那么抠，可吐了

@dlwlrm 除非你说的是推理而不是训练, 正常训练数据集预处理逻辑吃内存随随便便上百 G, 老黄给 gh200 配单节点 96G HBM3+480GB lpddr5x 这个比例足够体现主流需求的显存内存消耗占比了

2023-06-07 11:40:23 +08:00

回复了 polobug 创建的主题 › Apple › 库克的内存和存储还是那么抠，可吐了

@dlwlrm 我说的就是炼丹啊, 内存吃的远比显存多

» swmjjy 创建的更多回复