有一个 16G 显存的显卡闲置,跑了几个模型,测试过一阵子了。
$ ollama list
NAME ID SIZE
llama3.1:latest 46e0c10c039e 4.9 GB
gemma2:latest ff02c3702f32 5.4 GB
deepseek-coder-v2:16b 63fb193b3a9b 8.9 GB
具体的任务是内容标题生成和翻译。
llama3.1 是 8b 参数,gemmma2 是 9b ,deepseek-coder-v2 是 16b 。
内容标题生成来讲,不是很能对比出差别。因为生成的标题即使有偏差也大差不差。但是对于翻译,需要一定的翻译质量。
对于翻译来讲 deepseek-coder-v2 > gemma2 > llama3.1 。
平时用到的翻译是 Bob 翻译+沉浸式翻译,用的还挺频繁的。
所以大家还有什么小一点的模型推荐跑一跑试一下?主要做一些小任务。
1
forgottencoast 13 天前
微软好像有好几个小模型。
|
2
tozp 13 天前
微软刚发布的 phi4-mini 3.8b 是目前效果最好的小模型,可以去看 hf 介绍,我在 Orin Nano 上部署了一个用,很不错。
|
4
BernieDu 13 天前
小模型肯定是新出的 qwq32 最好,不过 ollama 默认 q4 需要 20g 显存,你可以等等看有没有人量化 q2 的
|
![]() |
5
Kinnikuman OP $ ollama run phi4
pulling manifest pulling fd7b6731c33c... 54% ▕███████████████████████████████████ ▏ 4.9 GB/9.1 GB 104 MB/s 44s @tozp 我试试这个 phi4 |
6
listenfree 13 天前
Q2 量化,我测试了,很不好使
|
7
wwhc 13 天前
推荐 Qwen2.5-14B-Instruct-1M-Q5_K_L.gguf 或 Qwen2.5-7B-Instruct-1M-Q6_K_L.gguf ,不建议 Distill 版本,Distill 版本更于擅长于解决推理或数学问题。另外建议直接使用 llama.cpp
|
![]() |
8
Leon6868 13 天前
Qwen2.5 14B .不要用 QwQ ,QwQ 是刷分模型
|
9
tabc2tgacd 13 天前
@BernieDu q4 量化后的效果并不好,ollama 提供的就是这种,我昨天测试直接一直卡在思考中了
|
![]() |
10
uncleroot 13 天前
中英翻译和取标题,Qwen 系列应该是开源系列效果最好的。
|
11
fulajickhz 12 天前
@tozp
@BernieDu https://huggingface.co/spaces/Jellyfish042/UncheatableEval 根據這邊的榜單, 最好的是 Llama-3.2-3B 第二 Qwen2.5-3B 第三 RWKV-x070-World-2.9B-v3-20250211-ctx4096 |
![]() |
12
mortal 12 天前 via iPhone
我用 glm-4-9b
|