V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Kinnikuman
V2EX  ›  Local LLM

本地部署的小模型(小于 16G 显存)适合轻任务,哪一个模型比较好用?

  •  
  •   Kinnikuman · 13 天前 · 2195 次点击

    有一个 16G 显存的显卡闲置,跑了几个模型,测试过一阵子了。

     $ ollama list
    NAME                     ID              SIZE    
    llama3.1:latest          46e0c10c039e    4.9 GB
    gemma2:latest            ff02c3702f32    5.4 GB
    deepseek-coder-v2:16b    63fb193b3a9b    8.9 GB
    

    具体的任务是内容标题生成和翻译。

    llama3.1 是 8b 参数,gemmma2 是 9b ,deepseek-coder-v2 是 16b 。

    内容标题生成来讲,不是很能对比出差别。因为生成的标题即使有偏差也大差不差。但是对于翻译,需要一定的翻译质量。

    对于翻译来讲 deepseek-coder-v2 > gemma2 > llama3.1 。

    平时用到的翻译是 Bob 翻译+沉浸式翻译,用的还挺频繁的。

    所以大家还有什么小一点的模型推荐跑一跑试一下?主要做一些小任务。

    13 条回复    2025-03-08 22:31:46 +08:00
    forgottencoast
        1
    forgottencoast  
       13 天前
    微软好像有好几个小模型。
    tozp
        2
    tozp  
       13 天前
    微软刚发布的 phi4-mini 3.8b 是目前效果最好的小模型,可以去看 hf 介绍,我在 Orin Nano 上部署了一个用,很不错。
    lchynn
        3
    lchynn  
       13 天前
    @tozp phi4-mini 这个审核太过分了, 让它模拟川普口吻写一个发言稿, 立刻拒绝了, 特么美国粉红模型啊
    BernieDu
        4
    BernieDu  
       13 天前
    小模型肯定是新出的 qwq32 最好,不过 ollama 默认 q4 需要 20g 显存,你可以等等看有没有人量化 q2 的
    Kinnikuman
        5
    Kinnikuman  
    OP
       13 天前
    $ ollama run phi4
    pulling manifest
    pulling fd7b6731c33c... 54% ▕███████████████████████████████████ ▏ 4.9 GB/9.1 GB 104 MB/s 44s



    @tozp 我试试这个 phi4
    listenfree
        6
    listenfree  
       13 天前
    Q2 量化,我测试了,很不好使
    wwhc
        7
    wwhc  
       13 天前
    推荐 Qwen2.5-14B-Instruct-1M-Q5_K_L.gguf 或 Qwen2.5-7B-Instruct-1M-Q6_K_L.gguf ,不建议 Distill 版本,Distill 版本更于擅长于解决推理或数学问题。另外建议直接使用 llama.cpp
    Leon6868
        8
    Leon6868  
       13 天前
    Qwen2.5 14B .不要用 QwQ ,QwQ 是刷分模型
    tabc2tgacd
        9
    tabc2tgacd  
       13 天前
    @BernieDu q4 量化后的效果并不好,ollama 提供的就是这种,我昨天测试直接一直卡在思考中了
    uncleroot
        10
    uncleroot  
       13 天前
    中英翻译和取标题,Qwen 系列应该是开源系列效果最好的。
    fulajickhz
        11
    fulajickhz  
       12 天前
    @tozp
    @BernieDu

    https://huggingface.co/spaces/Jellyfish042/UncheatableEval

    根據這邊的榜單, 最好的是 Llama-3.2-3B 第二 Qwen2.5-3B 第三 RWKV-x070-World-2.9B-v3-20250211-ctx4096
    mortal
        12
    mortal  
       12 天前 via iPhone
    我用 glm-4-9b
    tool2dx
        13
    tool2dx  
       12 天前 via Android
    @tozp 测试了一下,好强。能秒一堆低参数模型,差不多赶上 deepseek 14b 了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5593 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 06:19 · PVG 14:19 · LAX 23:19 · JFK 02:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.