全文检索+AI 的疑惑

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

最近在调研全文检索和 AI 如何进行结合，
目前只是用过市面上的 AI 模型，没有深入了解过，请教下各位懂行的大佬
目前的场景：
目前有一亿辆车，不同车牌，不同品牌，不同颜色，不同车型
现有实现逻辑：
通过代码进行采集车辆数据，然后录入 elasticsearch 引擎中，然后进行组合查询
如果引入 AI 的话，能否做到，通过对话的方式将需要过滤的车子信息获取到，
例如：
问 AI：给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息，并通过 excel 导出
然后 AI 将数据搜索后进行导出

疑惑：
1 、现在有没有这种 AI 模型？
2 、如果没有这种 AI 模型，那么有没有办法自己训练出来？
3 、自己训练的话有没有什么业内可行的方案？

全文检索

对话

31 条回复 • 2025-02-12 16:11:41 +08:00

cheng6563

9 天前

你可以让 LLM 优化搜索关键字

lekai63

9 天前 via iPhone

你把数据库字段给 ai 让 ai 生成 sql 通过 functioncall 取数返回

a526796017

9 天前

@cheng6563 这样训练的模型回答的会不会出现不准确的数据？
@lekai63 就是底层还是通过 SQL ？有没有将这些数据直接训练到模型的方式？

iyiluo

9 天前

已经有了，ERP 行业很多企业在做这一块，原理大概是通过大模型 function call 去调用 elasticsearch 接口，返回结构化数据

zonde306

9 天前 via Android

随便选个智商在线的 LLM 就行，不需要特定模型，除非需要用图片来搜索才需要多模态的
这种一般用 Agent 实现，向 LLM 提问，然后 LLM 调用工具，查询数据库，再让 Agent 执行查询生成表格文件

iyiluo

9 天前

我猜你是想让 AI 直接输出搜索结果，这是不可能实现的，现在的大模型只存储了一堆权重的数字，他的输出是根据概率，随便找找一篇大模型原理讲解看看就知道了

bixinhaner

9 天前

"给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息"，感觉这个需求是 AI+SQL 的场景？让 LLM 根据语言要求生成 sql ，再访问数据库查询出来准确信息

a526796017

9 天前

@iyiluo 懂了，就是大量的数据查询最终到底层还是得用数据库这类工具才能进行处理，看来目前还没有符合我需求的 AI 产品

KingHL

9 天前

纯 AI 不能做到对长尾记忆的准确性，无法精确搜索，我理解你这个合理的是让 ai 辅助做查询转换，最终查询数据还是在 es 中。或者可以试下 RAG 方案

ChoateYao

9 天前

这是知识库的功能，将你的数据向量化，提问的时候先搜索你的数据，在将你的数据喂给 Ai ，让 Ai 重新总结并输出。

CodeAllen

9 天前

AI 是黑盒系统，不稳定的系统，数据分析，尤其是需求明确的分析，是通过 AI 构建稳定的脚本或者后台服务进行准确的数据查询拿到确定的结果，而不是让 AI 在记忆中自己查询，AI 本身的幻觉问题就没法解决，类比人类就是认知偏差或者需求理解偏差，人都会记错或者理解错哪怕 AI 呢。
AI 、服务、数据，这三个本来就是独立的，各自迭代升级。

mightybruce

9 天前

你这个属于多模态大模型交互，不存在直接就能用的模型，一定是要和你的系统本身写好的 API 接口交互的，
你的想法错误，那么现在有没有类似的交互模型例子，是有的，比如 openai 出的 operator, 国内智谱的 glm-pc, 你训练就不要想了，你自己做不到的，基于国内 cogagent 的几个小模型做一些 GUI 界面交互是可行的，不过你先多研究研究吧。

312ybj

9 天前

通过指令模型，将你输入的“给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息” 推理出特定的槽位信息：省份颜色品牌，在得到信息去数据库检索，能做的就是收集指令数据，进行训练，然后进行 case 回归

mightybruce

9 天前

前面的多数人的回答基本都是答复所问，有能力开发的用 cogagent ，没能力的问问 glm-pc 合作。

annilq

9 天前

应该是可以的，而且现在大模型都有 Tool Call 功能，也有些 text-to-sql 模型
或者也可以看看 claude 出的 mcp 协议例子，可以直连 sql 的，但是查出的数据的准确性和提示词关系很大

hss01248

9 天前

你就说快不快吧....

hss01248

9 天前

@hss01248 回复错帖子了...

JoJoWuBeHumble

9 天前

@a526796017 因为你对数据要求百分百准确，function call 反而是靠谱的方式。

fano

9 天前

你需要调用大模型构建 Agent ，dify.ai 等工具就是满足这类需求的。
自然语言的问题提交给 AI ，AI 理解后返回调用 ES API 的参数，本地程序执行，获得执行结果。
可以参考 Google 的 Agent 白皮书。

https://ppc.land/content/files/2025/01/Newwhitepaper_Agents2.pdf