事情的起因是我需要一个正好 12 个汉字的句子用来做测试,我就让 gpt 给我生成一个,要求句子通顺且没有逗号等间隔符号。结果 gpt3.5 死活生成不好,要么长度不对,要么给我加上了逗号或者顿号什么的。
随来了兴趣,各种尝试,总是不行。没有试 4.0 ,不知道有没有改善。
纯讨论,有人知道为啥会这样么
1
soar0712 OP 不知道为啥我贴的图不显示
|
2
opengps 143 天前 1
这段需求让我想起了刘慈欣的小说《诗云》。诗歌级别的要求,可能还真不是现阶段 GPT 能推理到足够水平的
|
3
linhongjun 143 天前
免费账户不是有 gpt4 吗? 虽然每天有限额
|
4
fulajickhz 143 天前
@soar0712 图片已经显示
因为 AI 本质是词语接龙,不是计数器 你可以试试换一种说法 让他生成一个句子,然后提出你的要求,最后设计一种程序来检验生成的内容是否符合你的要求 输出句子和程序以及验证结果 |
5
InDom 143 天前
好像是因为大模型不是逐字识别的,而是 token ,一个 token 可能不是一个汉字,对与大模型来说,可能并不能确定你发的原文到底是啥吧?
|
6
InDom 143 天前
|
7
Morriaty 143 天前
应该是和 tokenizer 有关,有个不同模型的在线 tokenizer https://huggingface.co/spaces/Xenova/the-tokenizer-playground 你可以测试下
|
8
soar0712 OP |
9
aiqinxuancai 143 天前
就是 tokenizer 算法的问题,里面根本没有汉字的分词和单字,GPT 的汉字基本上都是通过字节压缩生成的 token 。你看到的是汉字,他看到的是一串数值,而一些数值是有多个汉字压缩进去的。
|
10
randychoi 142 天前 via Android
chatgpt 直接调用 Python 可以得出正确答案。
加关键字“请用 python 计算” |