使用大模型替代数据库,推荐算法,内容检索,等全部后端数据服务。
只有前端+支持各种业务接口数据查询的 promot
数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现
目前技术条件下都能实现,目前瓶颈是数据写入延迟高
感觉这个方案可以使用极简的服务架构支持海量以及通用互联网应用,好像很有意思
![]() |
1
jejwe 8 天前
用 Gemini 200 万上下文?
看到这个我又想之想有人开发的项目,postgres 直接开发 web 程序,postgres 某个字段是 sqlite |
![]() |
2
cheng6563 8 天前
“增量训练数据更新大模型”,你猜训练一次要花多少钱
|
![]() |
3
meeop OP 和上下文无关,直接将增量用户数据作为训练内容,训练入大模型。
比如说各大模型模型训练数据都包含 github ,那么在这个架构下的 ai-githug 可能这么运作: 1 张三发布了一个代码库 2 大模型每天增量训练,收纳张三的代码库 3 用户搜索/查看/下载张三的代码库,提交 promot 类似(查询张三的代码库最新内容/检索关于张三的代码库),获取和查看代码库数据 |
![]() |
4
meeop OP @cheng6563 这确实是个问题,但是看 deepseek 这趋势,成本和耗时降低到可以接受程度只是时间问题,而且可以打包多个应用训练啊,无所谓多少应用,成本都是一样的,大模型本来也要定期训练
|
5
paopjian 8 天前
大模型增量训练? 要能增量训练大模型不就成 超忆症 万能搜索工具了
|
![]() |
6
sillydaddy 8 天前
“大模型替代数据库”,“目前技术条件下都能实现”
没有这回事吧。大模型跟数据库是两回事:大模型是不精确的,不能用来作为数据库。很简单就可以证明。假设大语言模型的参数是 6B 的,那么它所能存储的信息容量,最大也就是 6B ,超过了 6B 的信息肯定是无法存储到里面的。况且大模型也不像数据库一样能精确记住每个字段。 说到这儿,聊点有意思的。人脑的进化很能说明这个问题。人脑没有进化出像照相机那样的精确还原细节的能力,这应该是有理由的。能耗、存储量、性价比都决定了这一点。倒不是说神经网络做不到,我们偶尔能听到谁谁过目不忘,拥有闪存记忆的奇人异事,这说明神经网络其实是可以做到的,但是进化决定了不要它变成这样。 |
![]() |
8
meeop OP @sillydaddy 你说的没错,大模型有局限性
但是在大模型背景下的 app 会有新的定义和要求,也没必要和现有 app 能力对齐 比如你问大模型 xx 是什么,它回答虽然没有词典,专业教材定义精准,但是绝大多数场景也够用 比如我发了当前这篇帖子,然后使用模型查询回来,就算有误差,只要意思和内容大体正确,也不影响信息分发和别人阅读效果 |
![]() |
9
marquina 8 天前
你把数据作为大模型的训练预料,只会模型的输出风格越来越接近数据。
而且你不可能生产一条数据就训练一次模型,总是要攒一批数据再训练。而这攒出来的数据放哪呢?还是得用数据库。有点脱裤子放屁的感觉了。 |
![]() |
10
marquina 8 天前
@marquina #9 说得不够准确,我举个例子。
现有的数据库,存放的都是结构化的数据,比如{"name": "xxx", "age": 25},而大模型的输出是人类对齐的自然语言,将这种结构化的数据作为大模型的训练语,就会极大干扰大模型的输出:比如日常聊天场景突然给你蹦出来半段 json 。 当然你也可以说,将所有的数据都按照非结构化的自然语言处理,直接扔给大模型。如果是这样的话,就算不考虑大模型的幻觉问题,光自然语言和结构化数据之间的信息差就足够头疼了。 |
![]() |
11
zjsxwc 8 天前
只有几百万字的窗口,你怎么做数据库啊
|
![]() |
12
marquina 8 天前
|
![]() |
13
meeop OP @marquina 按照模型的说法其实这些瓶颈完全能接受,比如咱现在的 v 站,一天的数据都不会有 1gb ,发帖后更新掩饰 1 分钟,页面加载时间 1000ms ,一天的模型成本小于$50,完全够用了
不过实践层面我还没试,阿里云千问是支持增量训练的,其他模型比如 deepseek 好像还没有封装好的服务 |
![]() |
14
neteroster 8 天前 via Android
> 数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现
持续学习某种程度上是机器学习和 LLM 领域的“圣杯”,目前研究距离这个目标还远的很。除去成本因素还有一些更本质的问题,例如[灾难性遗忘]( https://arxiv.org/abs/2308.08747)。 另外,目前的大模型没法直接从预训练文本泛化到各种任务,例如通用 QA 。例如你预训练代码库,不做其他处理的情况下模型根本没法回答/检索关于这个代码库的问题。这些都是要靠数据管线做的,甚至还需要很多“智能工人”。 |
![]() |
15
shadowyue 8 天前 ![]() 应该是你让大模型学习你业务的表结构,然后每次查询和更新,都让大模型按需求来生成 sql 语句。
这样你就有一个万能数据库层了。 |
![]() |
16
8355 8 天前
按照你说的这样如果能实现,相当于解决了幻觉问题,对机器学习领域的影响力跟拿诺贝尔奖差不多吧。
毕竟数据本身是不能有错误的 |
![]() |
17
givenge 8 天前
前端->大模型->数据库,去掉数据库还是不太现实
|
18
sampeng 8 天前
做不到同一个提示词返回结果是 100%一样,哪怕是 99.99999999999999999999999999999%都不行。。除非 100%。那倒是可能去掉数据库
|
![]() |
19
meeop OP |
20
sampeng 8 天前
@meeop 你说的是替代亲,不要自己给自己叠甲,这没法聊了。我说的是不能接受的点,这是在产品里面几乎不可接受的,(研发:所以出 bug 了锅我背?)。所以就没人敢这样落地。全文搜索、数据库成本是一次性成本。真的,很多领导都是拍脑袋上 AI 。。。不是说没有,是成本和收益比其实非常非常差,刷 kpi 还行。做正常 to C 业务。原先的成熟技术成本已经非常低。
当然,自己做玩具没问题。比如做个记账系统。反正不影响别人,也不涉及钱。 |
![]() |
22
huiwancode 8 天前
@meeop 现在的知识库都是 rag 这种模式吧
|
![]() |
23
qiuhang 8 天前
那你不如老老实实存数据库,然后用大模型给数据库做个 shell 。你用 promot 和 shell 交互,shell 负责把你的自然语言转换为对应的 sql 语句。
|
![]() |
24
meeop OP @huiwancode rag 不行,受限于 rag 检索准确率以及模型上下文,这个方案能提交给 ai 的数据非常有限,没法实现大数据集合的检索和查看
|
25
i4color 7 天前
思路很好,但目前技术达不到。
按你这个思路,以后的大模型就是一个 “HER” 了 |
![]() |
26
Him 3 天前
本质上是一个自然语言数据库,这些数据以知识库的形式存在,使用 RAG 技术进行搜索查询,而不用重新训练模型
对数据的增删改查本质上是对知识库中知识的修改 |