V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 3 页 / 共 24 页
回复总数  462
1  2  3  4  5  6  7  8  9  10 ... 24  
CPU 跑大模型推理瓶颈就是在内存带宽,按 ddr4 双通道内存带宽为 30GB/s 的速度来算,7B 规格的 8bit 量化,也就 4 token/s 左右的速度,4bit 量化就速度 x2 ,14B 规格就速度除以 2 ,偏差不会太大。
232 天前
回复了 random1221 创建的主题 宽带症候群 2024 年内网穿透的最佳方案是什么?
先考虑一下把公司电脑的远程桌面端口暴露到公网,被弱口令爆破或者 0day 打穿之后,蔓延到公司内网中毒时,你需要负什么责任吧...

动手能力好就 tailscale 加自建 derby ,动手能力差就 WireGuard 傻瓜脚本 https://github.com/angristan/wireguard-install
我觉得我的 5900x + 128GB 内存 + 2080ti 22g 跑 Windows 10 LTSC 很好用,打开软件速度很快,不用像 Mac 那样图标弹弹弹弹弹弹弹弹才蹦出界面。
当然跑 Debian + KDE 更好用。

-- 发送自睾贵的 192GB M2 Ultra ( 24 核 cpu + 76 核 gpu 版) Mac Studio 带 AppleCare 国行非海南免税店版
@289396212 想追求更好的方案呗,做做减法。一些常用的东西,.Net 的第一方支持更好。比如表单校验规则写好了,Swagge 文档也就生成好了。而在 Nest.js 里既要用 class-validator ,又要用 @nestjs/swagger ,一共 2 套装饰器才能实现;

像 http client 这种常用的东西,got 、undici 、got-scraping 选择太多的同时它们迭代多年还小 bug 不断。

还有 AOT 可以压缩更极限:像 pkg 本质上也就是把用到的 js 文件选出来压缩到一起,运行的时候实际上还是要解压的,只是解压得少一些而已,而且跨平台编译需要用 qemu 虚拟机,很重。

还有性能分析诊断的工具、冷启动速度、资源占用等,都是 C# 可以做到更好。


现在我本地可以跑比较大的模型,可以当作是无限 token 消耗,所以也想趁机看看用 AI 把整个项目翻译成另一种语言的可行性,这样以后也能把一些别的语言流行库进行一个大翻译,搞不好以后就是世界大同。

当然,追求极致还得用 Rust ,现阶段只是在性能和开发效率之间取一个平衡,现在 AI 写 Rust 代码的准确率还是不高。等下一步 AI 进化了,一次性写对代码的几率大幅度提高了,就再迁移了,反正拆分得好可以一层一层迁移。
@Arguments AdonisJS 前面的大版本不支持 TypeScript ,而且是抄的 Laravel 的设计。然而 Laravel 抄的是 Ruby on Rails ,结果没抄到精髓,AdonisJS 这波操作属于把别人消化到一半的东西吃了过来……只能说 AdonisJS 适合 Laravel 用户去使用了。
用了好多年的 Nest.js 了,大概从 6.x 用到现在的 10.x ,也没什么大变更。
选 Nest.js 看中的是 TypeScript 优先,然后集成了 class-validator 可以开箱即用。
其它自己集成的什么 http client 、数据库、缓存、消息队列、不喜欢就自己糊一个。
至于它的依赖注入,除了控制器和模块这一层,service 层你都可以不用依赖注入,完全走静态函数,反正 js 这种脚本语言可以在运行时修改 class 的 method ,mock 起来非常简单。
最大规模试过在 30 个 4c8g 的 contabo vps 上用 k3s 部署爬虫,套个 rancher 面板,部署一年多,稳如狗,用 DaemonSet 跑网络 IO 相关的操作,全流式操作,内存占用两百多兆,每个节点每月 32T 流量吃到饱。分析计算用 Deployment ,完全的 IO 和计算分离。
至于 web api ,现在用 Nest.js + Supabase ,日常内存占用也就 90MB 左右,需要事务那就换 Prisma ,内存占用高一些,150MB 左右。
结合 pkg 可以把项目打包成单个二进制文件塞到容器里,一般就 70MB 左右,冷启动贼快,丢到 1c1g 的容器里都算是打很富裕的仗了。

至于现在,我在把 Nest.js 的程序结合 AI 迁移到.Net 上…… 现在迁移了一个应用,确实很香。
235 天前
回复了 weijancc 创建的主题 Vue.js 升级 Vue3, 开发体验非常糟糕
早知道,还是 angular
240 天前
回复了 fever 创建的主题 宽带症候群 有没有熟悉 openvpn 的同学给看看
最近刚好在折腾这个,直连外面 2 周没啥问题,用 https://github.com/dockovpn/dockovpn 这个搭建的,如果是 docker compose 运行结合 https://github.com/dockovpn/dockovpn/issues/221 这个就搞定了,客户端也是 tls 。
有一说一 openvpn 真的老旧又落后,也就是为了直接在华硕的路由器上使用才选的,平时我都用 wireguard 。
Deno:?
258 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
https://item.jd.com/100007630859.html 联想自家笔记本 ddr4 内存,我的 r7000p 5800h 就是塞了 2 条这个凑的 64g
258 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
@yumozero 客服懂个锤子,有时候厂商也是瞎写的,在 xps 自家页面写主持 32g 的时候我就上到了 64g 。你这款可以直接上 64g 。我就是这款,5800h+6600m 是吧,或者 5800h+3060
258 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
把你游戏本的具体型号发出来,有 2 个插槽不一定只支持到 32g 。
拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。
比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。

显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。

引用别人的回复
“生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒”

内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer

我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。


附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
和 Rocket.Chat 很像,本地跑起来看看就懂了 https://github.com/RocketChat/Rocket.Chat/blob/develop/docker-compose-local.yml
本地跑不起来的项目,搞不好触发一个逻辑要找好几个人。
本地能跑起来的项目,想加断点就加断点,想加 hook 就加 hook ,想复制流量就能复制,数据库甚至是虚拟机随时可以备份和还原环境,效率贼高,谁还想碰那些效率巨低的东西。
265 天前
回复了 Davic1 创建的主题 程序员 腾讯的蓝鲸运维平台,真的好用吗?
蓝鲸的代码就是一坨屎山,我第一次见一个系统同时用了 3 个消息队列和 2 个数据库,就是不同部门的产品强行缝合出来的怪物。
还有那个 cmdb ,我上一次看它有六千多个提交,跑起来还强耦合它其他系统,功能也没见有多丰富,很多提交都是"添加 xx 查询条件"和"xx 接口支持了 xx 字段",拿个 directus 建模拉个字段 2 天就能完成 cmdb 里 90%的功能。
265 天前
回复了 KisPower 创建的主题 生活 和父亲彻底闹僵了!
https://www.bilibili.com/video/BV18S421P7uM 看看这个。
觉得不爽就拉黑,不见,不要被道德绑架,每个人都应该为自己而活。
@xiaoshu 1c2g 能到这个 QPS ,挺接近 http 库裸跑 hello world 性能了,达到这个性能应该是 https 流量在上层卸载了(印象中腾讯云分享过服务器装 ssl 加速卡来优化),加上服务器的 cpu 指令集优化,网关层自身业务应该不重。
腾讯云那个 api 网关有用过,印象中扩展都是通过 serverless 的,这样看应该是把 cpu 计算都尽可能抛出去了,响应结果压缩这块应该也不是这一层做的吧?
这个网关现在部署在什么规模的集群上?最小的那个节点能抗多大的并发,占用多少资源?
1  2  3  4  5  6  7  8  9  10 ... 24  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1218 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 18:31 · PVG 02:31 · LAX 10:31 · JFK 13:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.