V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
meeop
V2EX  ›  奇思妙想

一个想法,使用大模型作为数据库的极简服务模型

  •  
  •   meeop · 8 天前 · 2405 次点击

    使用大模型替代数据库,推荐算法,内容检索,等全部后端数据服务。

    只有前端+支持各种业务接口数据查询的 promot

    数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

    目前技术条件下都能实现,目前瓶颈是数据写入延迟高

    感觉这个方案可以使用极简的服务架构支持海量以及通用互联网应用,好像很有意思

    26 条回复    2025-02-18 11:43:13 +08:00
    jejwe
        1
    jejwe  
       8 天前
    用 Gemini 200 万上下文?
    看到这个我又想之想有人开发的项目,postgres 直接开发 web 程序,postgres 某个字段是 sqlite
    cheng6563
        2
    cheng6563  
       8 天前
    “增量训练数据更新大模型”,你猜训练一次要花多少钱
    meeop
        3
    meeop  
    OP
       8 天前
    和上下文无关,直接将增量用户数据作为训练内容,训练入大模型。

    比如说各大模型模型训练数据都包含 github ,那么在这个架构下的 ai-githug 可能这么运作:
    1 张三发布了一个代码库
    2 大模型每天增量训练,收纳张三的代码库
    3 用户搜索/查看/下载张三的代码库,提交 promot 类似(查询张三的代码库最新内容/检索关于张三的代码库),获取和查看代码库数据
    meeop
        4
    meeop  
    OP
       8 天前
    @cheng6563 这确实是个问题,但是看 deepseek 这趋势,成本和耗时降低到可以接受程度只是时间问题,而且可以打包多个应用训练啊,无所谓多少应用,成本都是一样的,大模型本来也要定期训练
    paopjian
        5
    paopjian  
       8 天前
    大模型增量训练? 要能增量训练大模型不就成 超忆症 万能搜索工具了
    sillydaddy
        6
    sillydaddy  
       8 天前
    “大模型替代数据库”,“目前技术条件下都能实现”
    没有这回事吧。大模型跟数据库是两回事:大模型是不精确的,不能用来作为数据库。很简单就可以证明。假设大语言模型的参数是 6B 的,那么它所能存储的信息容量,最大也就是 6B ,超过了 6B 的信息肯定是无法存储到里面的。况且大模型也不像数据库一样能精确记住每个字段。

    说到这儿,聊点有意思的。人脑的进化很能说明这个问题。人脑没有进化出像照相机那样的精确还原细节的能力,这应该是有理由的。能耗、存储量、性价比都决定了这一点。倒不是说神经网络做不到,我们偶尔能听到谁谁过目不忘,拥有闪存记忆的奇人异事,这说明神经网络其实是可以做到的,但是进化决定了不要它变成这样。
    meeop
        7
    meeop  
    OP
       8 天前
    @paopjian 现在的大模型就是万能搜索工具,各种知识库都是这么用的
    meeop
        8
    meeop  
    OP
       8 天前
    @sillydaddy 你说的没错,大模型有局限性
    但是在大模型背景下的 app 会有新的定义和要求,也没必要和现有 app 能力对齐

    比如你问大模型 xx 是什么,它回答虽然没有词典,专业教材定义精准,但是绝大多数场景也够用
    比如我发了当前这篇帖子,然后使用模型查询回来,就算有误差,只要意思和内容大体正确,也不影响信息分发和别人阅读效果
    marquina
        9
    marquina  
       8 天前
    你把数据作为大模型的训练预料,只会模型的输出风格越来越接近数据。
    而且你不可能生产一条数据就训练一次模型,总是要攒一批数据再训练。而这攒出来的数据放哪呢?还是得用数据库。有点脱裤子放屁的感觉了。
    marquina
        10
    marquina  
       8 天前
    @marquina #9 说得不够准确,我举个例子。
    现有的数据库,存放的都是结构化的数据,比如{"name": "xxx", "age": 25},而大模型的输出是人类对齐的自然语言,将这种结构化的数据作为大模型的训练语,就会极大干扰大模型的输出:比如日常聊天场景突然给你蹦出来半段 json 。

    当然你也可以说,将所有的数据都按照非结构化的自然语言处理,直接扔给大模型。如果是这样的话,就算不考虑大模型的幻觉问题,光自然语言和结构化数据之间的信息差就足够头疼了。
    zjsxwc
        11
    zjsxwc  
       8 天前
    只有几百万字的窗口,你怎么做数据库啊
    meeop
        13
    meeop  
    OP
       8 天前
    @marquina 按照模型的说法其实这些瓶颈完全能接受,比如咱现在的 v 站,一天的数据都不会有 1gb ,发帖后更新掩饰 1 分钟,页面加载时间 1000ms ,一天的模型成本小于$50,完全够用了

    不过实践层面我还没试,阿里云千问是支持增量训练的,其他模型比如 deepseek 好像还没有封装好的服务
    neteroster
        14
    neteroster  
       8 天前 via Android
    > 数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

    持续学习某种程度上是机器学习和 LLM 领域的“圣杯”,目前研究距离这个目标还远的很。除去成本因素还有一些更本质的问题,例如[灾难性遗忘]( https://arxiv.org/abs/2308.08747)。

    另外,目前的大模型没法直接从预训练文本泛化到各种任务,例如通用 QA 。例如你预训练代码库,不做其他处理的情况下模型根本没法回答/检索关于这个代码库的问题。这些都是要靠数据管线做的,甚至还需要很多“智能工人”。
    shadowyue
        15
    shadowyue  
       8 天前   ❤️ 1
    应该是你让大模型学习你业务的表结构,然后每次查询和更新,都让大模型按需求来生成 sql 语句。
    这样你就有一个万能数据库层了。
    8355
        16
    8355  
       8 天前
    按照你说的这样如果能实现,相当于解决了幻觉问题,对机器学习领域的影响力跟拿诺贝尔奖差不多吧。
    毕竟数据本身是不能有错误的
    givenge
        17
    givenge  
       8 天前
    前端->大模型->数据库,去掉数据库还是不太现实
    sampeng
        18
    sampeng  
       8 天前
    做不到同一个提示词返回结果是 100%一样,哪怕是 99.99999999999999999999999999999%都不行。。除非 100%。那倒是可能去掉数据库
    meeop
        19
    meeop  
    OP
       8 天前
    @sampeng 为啥不行啊,很多场景应该都可以吧

    比如信息分发类网站,帖子内容只要意思对,有一些错别字和增删不影响阅读吧
    搜索引擎类网站,只要查全率和查准率达标就行

    规避掉涉及法律责任,金融的场景就行了
    sampeng
        20
    sampeng  
       8 天前
    @meeop 你说的是替代亲,不要自己给自己叠甲,这没法聊了。我说的是不能接受的点,这是在产品里面几乎不可接受的,(研发:所以出 bug 了锅我背?)。所以就没人敢这样落地。全文搜索、数据库成本是一次性成本。真的,很多领导都是拍脑袋上 AI 。。。不是说没有,是成本和收益比其实非常非常差,刷 kpi 还行。做正常 to C 业务。原先的成熟技术成本已经非常低。

    当然,自己做玩具没问题。比如做个记账系统。反正不影响别人,也不涉及钱。
    sampeng
        21
    sampeng  
       8 天前
    @shadowyue 对,然后 ai 幻觉,删除一条记录忘加 where 了。。啊哈哈哈哈
    huiwancode
        22
    huiwancode  
       8 天前
    @meeop 现在的知识库都是 rag 这种模式吧
    qiuhang
        23
    qiuhang  
       8 天前
    那你不如老老实实存数据库,然后用大模型给数据库做个 shell 。你用 promot 和 shell 交互,shell 负责把你的自然语言转换为对应的 sql 语句。
    meeop
        24
    meeop  
    OP
       8 天前
    @huiwancode rag 不行,受限于 rag 检索准确率以及模型上下文,这个方案能提交给 ai 的数据非常有限,没法实现大数据集合的检索和查看
    i4color
        25
    i4color  
       7 天前
    思路很好,但目前技术达不到。
    按你这个思路,以后的大模型就是一个 “HER” 了
    Him
        26
    Him  
       3 天前
    本质上是一个自然语言数据库,这些数据以知识库的形式存在,使用 RAG 技术进行搜索查询,而不用重新训练模型
    对数据的增删改查本质上是对知识库中知识的修改
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   964 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 153ms · UTC 20:12 · PVG 04:12 · LAX 12:12 · JFK 15:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.