chanlk 最近的时间轴更新
chanlk

chanlk

V2EX 第 318281 号会员,加入于 2018-05-24 12:19:54 +08:00
今日活跃度排名 8488
根据 chanlk 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
chanlk 最近回复了
15 小时 30 分钟前
回复了 oldManNewThought 创建的主题 程序员 求大佬指点, ai 加知识库的内部原理
原理前面的大佬解释的很好了,下面是我从 deepseek 查到的,对普通无 AI 基础的开发更友好的解释:

用大模型结合用户文档构建问答知识库,核心原理可以用“图书馆+翻译官”的类比来理解,对普通开发者来说主要分三步:

文档预处理(类似图书编目)

把你的 PDF/Word 等文档拆成小段落(类似给每本书分章节)
用嵌入模型将文字转成向量坐标(相当于给每本书贴上精确的地理坐标)
存入向量数据库(相当于建立图书馆的索引系统)
问答过程(类似图书检索)

用户提问时,先将问题转成向量坐标
在向量数据库里找坐标最近的文档段落(类似 GPS 定位最近的图书)
只把相关段落喂给大模型(而不是整个图书馆)
答案生成(像翻译官工作)

大模型将专业文档"翻译"成人话
结合找到的段落内容生成最终回答
整个过程类似你给翻译官几页参考资料,让他帮忙解释某个问题
关于 token 消耗的关键事实:

预处理阶段(向量化)是单次成本
每次问答的 token 消耗=提问长度+检索到的文档长度+回答长度

相比直接微调大模型(需数万元成本),这种方案首次构建成本通常不超过千元,且支持动态更新文档。核心开发难点在于处理 PDF 解析和设计高效的检索策略,对熟悉 Web 开发的工程师来说,主要工作量在系统集成而非 AI 算法本身。
1 天前
回复了 kikoroc 创建的主题 电动汽车 大家认知的现在的智驾是什么水平?
@Quarter 问题是这一点儿也不智能哈哈
3 天前
回复了 lmshl 创建的主题 生活 🎉小棉袄出生, 生殖隔离已打破
恭喜!

你这标题很小红书!
7 天前
回复了 fancy2020 创建的主题 香港 初次去香港的一些见闻和感受
@alogbycat #32 香港是真好吃啊,我跟我女朋友在地铁里的一个小饭店随便吃点,人均 70 多,味道比深圳的那些茶楼好吃多了。
7 天前
回复了 KJH 创建的主题 问与答 现在的社会为什么深情且专一会被称为舔狗
爱情纯粹个啥,馋人家身子就不能直说
8 天前
回复了 chanlk 创建的主题 微信 PC 版的微信无法登陆要求更新
@uqf0663 可能是比较久没打开电脑吧
@tigerstudent 那这是营销过度的问题,要批评过度营销,而不是批评它本身。
@ko20 #23 这句好好矛盾,完全自动驾驶不就是最高形态的智能驾驶。就好像有人说我讨厌做亿万富翁,但是我想要成为千万富翁。
12 天前
回复了 caiji111 创建的主题 生活 相亲真的只满足物质条件,不看感情的吗
钓鱼可耻,就一个帖子,回复也只有这个帖子的内容。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1040 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 19:07 · PVG 03:07 · LAX 11:07 · JFK 14:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.