V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
tool3d
V2EX  ›  程序员

半个小时前, ollama 上线了目前单显卡里,最强的中小模型 gemma3

  •  1
     
  •   tool3d · 8 小时 54 分钟前 · 1856 次点击

    由 google 出品,ollama 介绍就一句话“The current strongest model that fits on a single GPU.”,足以证明其强悍程度。

    我去 google ai 官方页面看了跑分,27b 的小体积,竟然把体积大自己 20 倍的 deepseek v3 满血模型给灭了?有点令人难以置信。

    官方介绍在这里,我也不知道真假,让子弹多飞一会儿。

    https://ai.google.dev/gemma

    第 1 条附言  ·  5 小时 16 分钟前
    贴一张网友的测评图,目前世界第二名

    34 条回复    2025-03-12 23:27:24 +08:00
    dbpe
        1
    dbpe  
       8 小时 47 分钟前
    claude:
    说道跑分。。我可就不困了
    tool3d
        2
    tool3d  
    OP
       8 小时 44 分钟前
    @dbpe 不太一样,claude 是商业版。google 这个完全开源模型,包括底模都提供了,吹嘘水准已经到了商业标准。还是多模态,而且还能同时识别多张图片,似乎以前模型只能识别出一张图片。
    dbpe
        3
    dbpe  
       8 小时 42 分钟前   ❤️ 1
    @tool3d claude ,跑分没赢过,体验没输过


    先质疑一波,等量化模型出来大家跑一跑就知道了。
    l4ever
        4
    l4ever  
       7 小时 7 分钟前
    这么说一张 A100 80G 就搞定了?
    bjzhou1990
        5
    bjzhou1990  
       7 小时 4 分钟前
    怎么没有和 qwq 32b 对比
    wyntalgeer
        6
    wyntalgeer  
       6 小时 58 分钟前
    @l4ever 写的是 H100
    crackidz
        7
    crackidz  
       5 小时 38 分钟前
    跑分冠军挺多的,最终还是需要是骡子是马拉出来遛遛
    listenfree
        8
    listenfree  
       5 小时 32 分钟前
    我玩了 qwq 32b 是真的爽,对中文的拿捏,估计 gemma3 无法达到,等子弹飞一飞
    LaTero
        9
    LaTero  
       5 小时 21 分钟前
    lmarena 上确实把包括 deepseek v3 等一众远大于它的模型给灭了,我自己稍微测了一下感觉算是二线非思考模型水平了(或者说准一线?除了 grok 3 和 claude sonnet 3.7 之外的非思考模型的水平),不过不知道为什么明明是一个这么小的模型,google ai studio 的推理速度特别特别慢,所以我也没测太多。
    tool3d
        10
    tool3d  
    OP
       5 小时 14 分钟前
    @LaTero 本地 ollama 没问题,网友 Apple M1 Max 32G ,运行飞快。我自己显卡运行也挺快的。
    iorilu
        11
    iorilu  
       5 小时 9 分钟前
    4090 能跑吗
    xausky
        12
    xausky  
       4 小时 44 分钟前
    gpt 4o 都已经这么落魄了么
    djkcyl
        13
    djkcyl  
       4 小时 43 分钟前
    其实,真正的极致小模型,还得看 rwkv ,0.5b 都能很猛
    supersf
        14
    supersf  
       4 小时 43 分钟前
    多少个 tokens/s ?
    @tool3d
    hutng
        15
    hutng  
       4 小时 28 分钟前
    开源模型生机勃勃了,好事,deepseek 开的好头。
    QWQ 32B q8 两张显卡 40G 正好够,已经感觉和 deepseek 满血差距很小了,非常好用。
    期待 gemma3 。
    openmynet
        16
    openmynet  
       4 小时 23 分钟前
    这榜单还行,是个写作榜单,也就是评测 llm 在进行写作创作时人哪个人情味更多些。lmarena 评测更多是答案的亲和性。
    tool3d
        17
    tool3d  
    OP
       4 小时 19 分钟前
    @supersf 是有点慢(和同类型的模型对比)。我这里差不多 15 tokens/s ,架构似乎是新的,我看 ollama 上也有人说速度慢,估计需要时间优化。

    不过很奇怪的是,官方也很慢。
    hutng
        18
    hutng  
       4 小时 12 分钟前
    @hutng 刚用 ollama 测试了一下,12b 模型,效果一般。老是报错,Error: POST predict: Post "http://127.0.0.1:35039/completion": EOF ,不知道怎么回事,可能是我的环境问题。
    hutng
        19
    hutng  
       4 小时 9 分钟前
    @hutng #18 ollama 官网也得是:12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ,128K 不爆显存吗?
    icyalala
        20
    icyalala  
       4 小时 4 分钟前
    这个可以输入图片,我试了下还挺好,至少各种表情包图片能解释出来
    openmynet
        21
    openmynet  
       3 小时 59 分钟前
    ollama 上的给的参数有问题,温度应该是 1.0, 不是 0.1
    listenfree
        22
    listenfree  
       3 小时 52 分钟前
    >>> 请你自己成语拉龙 10 次
    好的,没问题!我来连续成语拉龙 10 次:

    1. **一帆风顺**
    2. **水到渠成**
    3. **蒸蒸日上**
    4. **鹏程万里**
    5. **龙腾虎跃**
    6. **锦上添花**
    7. **如鱼得水**
    8. **马到成功**
    9. **心想事成**
    10. **福星高照**

    希望这些成语能给你带来好运!

    0.1 的温度
    listenfree
        23
    listenfree  
       3 小时 50 分钟前
    >>> 请你自己成语拉龙 10 次
    好的,没问题!我来挑战一下成语拉龙十次:

    1. **一帆风就** (yīfán fēngjiù) - 比喻一开始就非常顺利。
    2. **龙腾虎跃** (lóngténghúyuè) - 形容跑跳时动作矫健,也形容人充满活力,气旺而有精神。
    3. **龙马精神** (lóngmǎ-JīngShén) - 形容老气十足的精力旺盛、精神振奋。
    4. **呼风唤兽** (hūfēng huànshòu) - 原指道士或巫师招风唤雨,后比喻凭借某种神秘的力量变化事物。
    5. **生龙活虎** ( shēnglónghuótiger) - 比喻像龙和虎一样有生机、有活力。
    6. **游龙戲珠** (yóu lóng xì zhū) - 喻君王巡视,也形容玩耍得很自得。
    7. **画龙点睛** (huà lóng diǎnjīng) - 比喻在关键地方简明地点明要旨,使内容传神生辉。
    8. **望云断雾看风辨雨** (wàngyún duànwù kàng fēng biàn yǔ) – 古人根据云、雾、风、雨变化判断天氣。比喻通过敏锐的观察判断事物的发展趋势。
    9. **龙争虎斗** (lóng zhàng hū dǒu) - 比喻势力或竞争对手之间激烈的争夺。
    10. **惊天动地** (jīngtiāndòngdì)- 形容声势非常大,足以使天大地颤动。也形容事件影响震惊寰宇。

    完成了!希望你喜欢我拉的这些“成语龙”!

    1.0 temperature
    hutng
        24
    hutng  
       3 小时 41 分钟前
    @openmynet #21 确实,google 的 aistudio 上就是 1 。
    aistudio 上试了一下 27B 的模型,光数学上来看,准确性一般,比 qwq 差远了(当然了,直接这样比较推理模型和非推理模型不是很公平)
    follow
        25
    follow  
       3 小时 27 分钟前
    @hutng 大佬, 推理模型,和非推理模型,各推荐一个能本地部署的?
    google2023
        26
    google2023  
       3 小时 23 分钟前
    @hutng QWQ 32B q8 需要的配置不算很低啊
    FightPig
        27
    FightPig  
       3 小时 22 分钟前
    这个等人试了再看
    hutng
        28
    hutng  
       3 小时 10 分钟前
    @follow 非大佬,纯小白。推理模型 qwq 32b 的 q4 就可以,实际占用显存 20G 多点,4090 、3090 都可以,便宜点 2080ti 也行。目前感觉比 r1 蒸馏的 32b 强很多。唯一的问题就是思考的过程有点长,回答的精细度、准确性非常好。
    yorath
        29
    yorath  
       3 小时 10 分钟前
    gemma3 12b

    >>> 请你自己成语接龍 10 次
    好的,没问题!我来挑战一下成语接龙,10 次:

    1. **一帆风顺**
    2. **顺水推舟**
    3. **舟车劳顿**
    4. **顿悟成仙**
    5. **仙姿佚貌**
    6. **貌合神离**
    7. **离恨仇深**
    8. **深恶痛绝**
    9. **绝无仅有**
    10. **有恃无恐**

    怎么样? 这是一个有趣的挑战! 😊
    niubilewodev
        30
    niubilewodev  
       3 小时 10 分钟前
    @listenfree AI 对这种异常输入,表现很一般。
    毕竟你说的是“成语拉龙”。你换成“成语接龙”试试。
    hutng
        31
    hutng  
       3 小时 3 分钟前
    @google2023 我是 3090+tesla t10 ,显卡成本 7.5k ,q8 15token 左右。2 个 2080ti22g 更便宜,5k
    privil
        32
    privil  
       3 小时 2 分钟前
    @niubilewodev #30 ds r1 开深度思考是可以的,他打错是有点欺负国外 AI 了
    privil
        33
    privil  
       3 小时 0 分钟前
    补充下 模型大小对质量的影响肯定还是存在的。671B 基本还是优势很大的,明天部署下原版 gemma3 27B 看看效果
    listenfree
        34
    listenfree  
       2 小时 55 分钟前
    @niubilewodev 谢谢提醒,老了,经常打错字
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1184 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:22 · PVG 02:22 · LAX 11:22 · JFK 14:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.