最近 DS 火了,领导说本地化部署一个,把单位的相关文档、材料、制度、规则等各类乱七八糟的材料吧,都放上去,然后让大模型学习,通过问答来应用。 我大概了解了下,这种应该训练大模型的方式,只是应用大模型吧。 我下载的 DS 部署的离线版本,搭建的知识库也只是对上传文档内容的分析,大模型无法通过我提供的数据分析给适合我们的答案吧。 语言组织有点混乱,见谅。
![]() |
1
lzoje 2 天前
RAG 知识库
|
![]() |
2
murmur 2 天前
正规的知识库要拆段的,拆的越细越好,问题 答案 问题 答案这样,如果让 AI 去理解效果不好
|
3
lthon 2 天前
搜索一下 RAG 了解下
|
![]() |
4
ihainan 2 天前
你可以拿一个现成的 RAG 框架,比如 Dify 、RAGFlow 搭建一套 RAG 系统,把你的数据传上去建立知识库,设置 LLM 、Embedding 和 Rerank 模型的地址,用提供的 RAG 工作流模板快速搭建,试试看效果如何,有更高的要求再考虑修改工作流或者自己开发。
|
5
mumbler 2 天前 ![]() |
6
uprit 2 天前 ![]() 大多数领导想要的:资料扔给大模型让他学,然后多了个内部专家给你们用。
一般人实际能实现的:检索资料库,检索结果追加到提示词里,一起扔给大模型。 前者实际操作需要微调训练,成本巨高,技术难度也大,最终效果不一定好。对的数据集要求很高。 后者实际是个退而求其次的思路,搞 RAG ,成本低,容易操作,但实际并没改变大模型原本的性能,每次都得引用,而且没“记忆”,同时搞这个事情对资料库的整理要求极高,实际性能也不咋地,大概率搞了之后效果稀烂。 结论:别对 AI 期望过高。 |
![]() |
8
halobugTurbo 1 天前
别期望太高了。前段时间有个类似需求,数据比较杂有文本,图片,PDF ,视频等。数据清洗后,永远达不到领导预期的,说的最多的问题:回答的内容为什么不准?为什么不全?这个问题回答应该包含某个内容!
|
![]() |
10
supuwoerc 1 天前
dify 差不多就满足了
|