半个小时前， ollama 上线了目前单显卡里，最强的中小模型 gemma3

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

由 google 出品，ollama 介绍就一句话“The current strongest model that fits on a single GPU.”，足以证明其强悍程度。

我去 google ai 官方页面看了跑分，27b 的小体积，竟然把体积大自己 20 倍的 deepseek v3 满血模型给灭了？有点令人难以置信。

官方介绍在这里，我也不知道真假，让子弹多飞一会儿。

https://ai.google.dev/gemma

第 1 条附言 · 5 小时 16 分钟前

贴一张网友的测评图，目前世界第二名

ollama

gemma3

Google

34 条回复 • 2025-03-12 23:27:24 +08:00

dbpe

8 小时 47 分钟前

claude：
说道跑分。。我可就不困了

tool3d

8 小时 44 分钟前

@dbpe 不太一样，claude 是商业版。google 这个完全开源模型，包括底模都提供了，吹嘘水准已经到了商业标准。还是多模态，而且还能同时识别多张图片，似乎以前模型只能识别出一张图片。

dbpe

8 小时 42 分钟前

@tool3d claude ，跑分没赢过，体验没输过

先质疑一波，等量化模型出来大家跑一跑就知道了。

l4ever

7 小时 7 分钟前

这么说一张 A100 80G 就搞定了?

bjzhou1990

7 小时 4 分钟前

怎么没有和 qwq 32b 对比

wyntalgeer

6 小时 58 分钟前

@l4ever 写的是 H100

crackidz

5 小时 38 分钟前

跑分冠军挺多的，最终还是需要是骡子是马拉出来遛遛

listenfree

5 小时 32 分钟前

我玩了 qwq 32b 是真的爽，对中文的拿捏，估计 gemma3 无法达到，等子弹飞一飞

LaTero

5 小时 21 分钟前

lmarena 上确实把包括 deepseek v3 等一众远大于它的模型给灭了，我自己稍微测了一下感觉算是二线非思考模型水平了（或者说准一线？除了 grok 3 和 claude sonnet 3.7 之外的非思考模型的水平），不过不知道为什么明明是一个这么小的模型，google ai studio 的推理速度特别特别慢，所以我也没测太多。

tool3d

5 小时 14 分钟前

@LaTero 本地 ollama 没问题，网友 Apple M1 Max 32G ，运行飞快。我自己显卡运行也挺快的。

iorilu

5 小时 9 分钟前

4090 能跑吗

xausky

4 小时 44 分钟前

gpt 4o 都已经这么落魄了么

djkcyl

4 小时 43 分钟前

其实，真正的极致小模型，还得看 rwkv ，0.5b 都能很猛

supersf

4 小时 43 分钟前

多少个 tokens/s ?
@tool3d

hutng

4 小时 28 分钟前

开源模型生机勃勃了，好事，deepseek 开的好头。
QWQ 32B q8 两张显卡 40G 正好够，已经感觉和 deepseek 满血差距很小了，非常好用。
期待 gemma3 。

openmynet

4 小时 23 分钟前

这榜单还行，是个写作榜单，也就是评测 llm 在进行写作创作时人哪个人情味更多些。lmarena 评测更多是答案的亲和性。

tool3d

4 小时 19 分钟前

@supersf 是有点慢（和同类型的模型对比）。我这里差不多 15 tokens/s ，架构似乎是新的，我看 ollama 上也有人说速度慢，估计需要时间优化。

不过很奇怪的是，官方也很慢。

hutng

4 小时 12 分钟前

@hutng 刚用 ollama 测试了一下，12b 模型，效果一般。老是报错，Error: POST predict: Post "http://127.0.0.1:35039/completion": EOF ，不知道怎么回事，可能是我的环境问题。

hutng

4 小时 9 分钟前

@hutng #18 ollama 官网也得是：12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ，128K 不爆显存吗？

icyalala

4 小时 4 分钟前

这个可以输入图片，我试了下还挺好，至少各种表情包图片能解释出来

openmynet

3 小时 59 分钟前

ollama 上的给的参数有问题，温度应该是 1.0, 不是 0.1

listenfree

3 小时 52 分钟前

>>> 请你自己成语拉龙 10 次
好的，没问题！我来连续成语拉龙 10 次：

1. **一帆风顺**
2. **水到渠成**
3. **蒸蒸日上**
4. **鹏程万里**
5. **龙腾虎跃**
6. **锦上添花**
7. **如鱼得水**
8. **马到成功**
9. **心想事成**
10. **福星高照**

希望这些成语能给你带来好运！

0.1 的温度

listenfree

3 小时 50 分钟前

>>> 请你自己成语拉龙 10 次
好的，没问题！我来挑战一下成语拉龙十次：

1. **一帆风就** (yīfán fēngjiù) - 比喻一开始就非常顺利。
2. **龙腾虎跃** (lóngténghúyuè) - 形容跑跳时动作矫健，也形容人充满活力，气旺而有精神。
3. **龙马精神** (lóngmǎ-JīngShén) - 形容老气十足的精力旺盛、精神振奋。
4. **呼风唤兽** (hūfēng huànshòu) - 原指道士或巫师招风唤雨，后比喻凭借某种神秘的力量变化事物。
5. **生龙活虎** ( shēnglónghuótiger) - 比喻像龙和虎一样有生机、有活力。
6. **游龙戲珠** (yóu lóng xì zhū) - 喻君王巡视，也形容玩耍得很自得。
7. **画龙点睛** (huà lóng diǎnjīng) - 比喻在关键地方简明地点明要旨，使内容传神生辉。
8. **望云断雾看风辨雨** (wàngyún duànwù kàng fēng biàn yǔ) – 古人根据云、雾、风、雨变化判断天氣。比喻通过敏锐的观察判断事物的发展趋势。
9. **龙争虎斗** (lóng zhàng hū dǒu) - 比喻势力或竞争对手之间激烈的争夺。
10. **惊天动地** (jīngtiāndòngdì)- 形容声势非常大，足以使天大地颤动。也形容事件影响震惊寰宇。

完成了！希望你喜欢我拉的这些“成语龙”!

1.0 temperature

hutng

3 小时 41 分钟前

@openmynet #21 确实，google 的 aistudio 上就是 1 。
aistudio 上试了一下 27B 的模型，光数学上来看，准确性一般，比 qwq 差远了（当然了，直接这样比较推理模型和非推理模型不是很公平）

follow

3 小时 27 分钟前

@hutng 大佬，推理模型，和非推理模型，各推荐一个能本地部署的？

google2023

3 小时 23 分钟前

@hutng QWQ 32B q8 需要的配置不算很低啊

FightPig

3 小时 22 分钟前

这个等人试了再看

hutng

3 小时 10 分钟前

@follow 非大佬，纯小白。推理模型 qwq 32b 的 q4 就可以，实际占用显存 20G 多点，4090 、3090 都可以，便宜点 2080ti 也行。目前感觉比 r1 蒸馏的 32b 强很多。唯一的问题就是思考的过程有点长，回答的精细度、准确性非常好。

yorath

3 小时 10 分钟前

gemma3 12b

>>> 请你自己成语接龍 10 次
好的，没问题！我来挑战一下成语接龙，10 次：

1. **一帆风顺**
2. **顺水推舟**
3. **舟车劳顿**
4. **顿悟成仙**
5. **仙姿佚貌**
6. **貌合神离**
7. **离恨仇深**
8. **深恶痛绝**
9. **绝无仅有**
10. **有恃无恐**

怎么样？这是一个有趣的挑战！ 😊