请教知识库搭建

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

最近 DS 火了，领导说本地化部署一个，把单位的相关文档、材料、制度、规则等各类乱七八糟的材料吧，都放上去，然后让大模型学习，通过问答来应用。我大概了解了下，这种应该训练大模型的方式，只是应用大模型吧。我下载的 DS 部署的离线版本，搭建的知识库也只是对上传文档内容的分析，大模型无法通过我提供的数据分析给适合我们的答案吧。语言组织有点混乱，见谅。

知识库

大模型

10 条回复 • 2025-02-19 17:04:43 +08:00

lzoje

2 天前

RAG 知识库

murmur

2 天前

正规的知识库要拆段的，拆的越细越好，问题答案问题答案这样，如果让 AI 去理解效果不好

lthon

2 天前

搜索一下 RAG 了解下

ihainan

2 天前

你可以拿一个现成的 RAG 框架，比如 Dify 、RAGFlow 搭建一套 RAG 系统，把你的数据传上去建立知识库，设置 LLM 、Embedding 和 Rerank 模型的地址，用提供的 RAG 工作流模板快速搭建，试试看效果如何，有更高的要求再考虑修改工作流或者自己开发。

mumbler

2 天前

deepseek.flashai.com.cn
在这里直接下载一个包，解压，运行就可以在本地自动部署大模型+知识库，不需要任何配置

mark.flashai.com.cn
测测一下你的电脑能跑什么大模型

uprit

2 天前

大多数领导想要的：资料扔给大模型让他学，然后多了个内部专家给你们用。
一般人实际能实现的：检索资料库，检索结果追加到提示词里，一起扔给大模型。
前者实际操作需要微调训练，成本巨高，技术难度也大，最终效果不一定好。对的数据集要求很高。
后者实际是个退而求其次的思路，搞 RAG ，成本低，容易操作，但实际并没改变大模型原本的性能，每次都得引用，而且没“记忆”，同时搞这个事情对资料库的整理要求极高，实际性能也不咋地，大概率搞了之后效果稀烂。
结论：别对 AI 期望过高。

lyping

2 天前

@uprit 如果是一些标准文件，国家标准，里面有各种条款。。这种用什么方案比较好呢

halobugTurbo

1 天前

别期望太高了。前段时间有个类似需求，数据比较杂有文本，图片，PDF ，视频等。数据清洗后，永远达不到领导预期的，说的最多的问题：回答的内容为什么不准？为什么不全？这个问题回答应该包含某个内容！

uprit

1 天前

@lyping 如 2L 所说，拆成问答对，越细越好。这个工作量很庞大。
RAG 的效果依赖于检索，如果每次都能检索出少量且精准的内容，一起提供给模型参考，效果会好一些。

supuwoerc

1 天前

dify 差不多就满足了