V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
blackbookbj277
V2EX  ›  问与答

请教知识库搭建

  •  
  •   blackbookbj277 · 2 天前 · 986 次点击

    最近 DS 火了,领导说本地化部署一个,把单位的相关文档、材料、制度、规则等各类乱七八糟的材料吧,都放上去,然后让大模型学习,通过问答来应用。 我大概了解了下,这种应该训练大模型的方式,只是应用大模型吧。 我下载的 DS 部署的离线版本,搭建的知识库也只是对上传文档内容的分析,大模型无法通过我提供的数据分析给适合我们的答案吧。 语言组织有点混乱,见谅。

    10 条回复    2025-02-19 17:04:43 +08:00
    lzoje
        1
    lzoje  
       2 天前
    RAG 知识库
    murmur
        2
    murmur  
       2 天前
    正规的知识库要拆段的,拆的越细越好,问题 答案 问题 答案这样,如果让 AI 去理解效果不好
    lthon
        3
    lthon  
       2 天前
    搜索一下 RAG 了解下
    ihainan
        4
    ihainan  
       2 天前
    你可以拿一个现成的 RAG 框架,比如 Dify 、RAGFlow 搭建一套 RAG 系统,把你的数据传上去建立知识库,设置 LLM 、Embedding 和 Rerank 模型的地址,用提供的 RAG 工作流模板快速搭建,试试看效果如何,有更高的要求再考虑修改工作流或者自己开发。
    mumbler
        5
    mumbler  
       2 天前   ❤️ 1
    deepseek.flashai.com.cn
    在这里直接下载一个包,解压,运行就可以在本地自动部署大模型+知识库,不需要任何配置

    mark.flashai.com.cn
    测测一下你的电脑能跑什么大模型
    uprit
        6
    uprit  
       2 天前   ❤️ 1
    大多数领导想要的:资料扔给大模型让他学,然后多了个内部专家给你们用。
    一般人实际能实现的:检索资料库,检索结果追加到提示词里,一起扔给大模型。
    前者实际操作需要微调训练,成本巨高,技术难度也大,最终效果不一定好。对的数据集要求很高。
    后者实际是个退而求其次的思路,搞 RAG ,成本低,容易操作,但实际并没改变大模型原本的性能,每次都得引用,而且没“记忆”,同时搞这个事情对资料库的整理要求极高,实际性能也不咋地,大概率搞了之后效果稀烂。
    结论:别对 AI 期望过高。
    lyping
        7
    lyping  
       2 天前
    @uprit 如果是一些标准文件,国家标准,里面有各种条款。。这种用什么方案比较好呢
    halobugTurbo
        8
    halobugTurbo  
       1 天前
    别期望太高了。前段时间有个类似需求,数据比较杂有文本,图片,PDF ,视频等。数据清洗后,永远达不到领导预期的,说的最多的问题:回答的内容为什么不准?为什么不全?这个问题回答应该包含某个内容!
    uprit
        9
    uprit  
       1 天前
    @lyping 如 2L 所说,拆成问答对,越细越好。这个工作量很庞大。
    RAG 的效果依赖于检索,如果每次都能检索出少量且精准的内容,一起提供给模型参考,效果会好一些。
    supuwoerc
        10
    supuwoerc  
       1 天前
    dify 差不多就满足了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1045 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:04 · PVG 03:04 · LAX 11:04 · JFK 14:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.