V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
drymonfidelia
V2EX  ›  程序员

为什么 LLM 模型不能按语言拆分,英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型,这样不是可以大幅减少参数量?

  •  3
     
  •   drymonfidelia · 11 天前 · 4274 次点击
    47 条回复    2025-02-07 02:02:30 +08:00
    dji38838c
        1
    dji38838c  
       11 天前
    太低估别人了。
    觉得连这么简单的东西都没有尝试过
    没有什么用的
    drymonfidelia
        2
    drymonfidelia  
    OP
       11 天前
    @dji38838c 我知道别人尝试过了,我的问题是为什么没有什么用?
    dalaoshu25
        3
    dalaoshu25  
       11 天前   ❤️ 2
    除了英文,其他语言没什么信息量吧。特别是汉语语料,全是垃圾。
    chingyat
        4
    chingyat  
       11 天前
    其他语言的语料加起来也不到英语的零头吧
    9LCRwvU14033RHJo
        5
    9LCRwvU14033RHJo  
       11 天前
    这样做连基本的翻译功能都没有了。
    fcten
        6
    fcten  
       11 天前
    楼主可知道语言模型最初的目的是为了翻译……
    其次,这样做并不能大幅减少参数量,道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。
    再其次,清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。
    drymonfidelia
        7
    drymonfidelia  
    OP
       11 天前
    @user8341 LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了
    neteroster
        8
    neteroster  
       11 天前
    因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

    #7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了

    当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。
    windyboy
        9
    windyboy  
       11 天前
    基本都是英语材料训练的
    语言翻译只是一个副产品
    9LCRwvU14033RHJo
        10
    9LCRwvU14033RHJo  
       11 天前   ❤️ 1
    @windyboy

    你这是自己的猜测,还是实际参与了,还是有确切的数据?

    据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
    fun201108
        11
    fun201108  
       11 天前
    从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
    windyboy
        12
    windyboy  
       11 天前   ❤️ 2
    @user8341 deepseek 不是用别人的模型来训练的吗?
    TimePPT
        13
    TimePPT  
       11 天前
    有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
    daweii
        14
    daweii  
       10 天前 via iPhone
    一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。

    一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。

    话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
    cnt2ex
        15
    cnt2ex  
       10 天前
    因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。
    弄成小模型小数据集效果反而不会那么好。
    yoghurtguy
        16
    yoghurtguy  
       10 天前 via iPhone
    翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
    xziar
        17
    xziar  
       10 天前
    参数量和训练语料是两码事,还是说你是指 chinchilla 的 scaling rule ?
    目前来看模型智慧水平还是随训练数据量递增的,想要参数量少,直接蒸馏到小模型不就好了。
    wdlth
        18
    wdlth  
       10 天前
    如果只用单个语言的资料去建立大模型,那怎么算完整呢?比如历史记录大多数都是当地语言的,但对历史的研究可以由用不同的语言的人进行发表。
    并且很多的翻译本身就是音译,那算是外语呢还是本土语言?
    mumbler
        19
    mumbler  
       10 天前
    目前最可行的方法就是蒸馏,用大模型生成数据去训练小模型,o3 mini 就是 o3 或者 o4 生成数据训练的,只需要 20B 就能达到 2000B 的 80%水平,这样成本大大降低
    dayeye2006199
        20
    dayeye2006199  
       10 天前
    效果极差。

    现在主流都是多语言,模型可以自己学会语言的对齐方法。这种学习方法可以让训练语料极少的小语种都获得不错的效果。
    你这完全是反着来。
    lovestudykid
        21
    lovestudykid  
       10 天前   ❤️ 3
    @windyboy #12 建议你到纳斯达克发布这个重大发现,拯救 NVDA 的股价
    fatigue
        22
    fatigue  
       10 天前   ❤️ 1
    搞清楚先后顺序,就是发现参数量上去了,模型才有效,即使是单个语言。模型的能力和参数不是线性关系的,大概的门槛是百万级,低于这个数量模型性能会卡在这里,当提升超过后,模型性能会突然大幅提升,人工智能领域叫顿悟/领悟,英文单词叫 Grokking ,很多人研究,但没人知道原因,只有一些统计推测
    KenThompson1729
        23
    KenThompson1729  
       10 天前
    @windyboy 从你这一句话就可以判断你完全不懂 LLM
    KenThompson1729
        24
    KenThompson1729  
       10 天前
    reasoning 能力是和语言无关的
    mhycy
        25
    mhycy  
       10 天前   ❤️ 1
    LLM 的参数不是用于存储语言,而是用于存储“概念”一个概念自身的维度会比某个语言对应单词的维度更多,语言基本就只是输出时候的某种“偏置”罢了
    lrigi
        26
    lrigi  
       10 天前 via iPhone
    其实也可以,但你要是问一个中英混合句怎么办🤔而且单个语言模型参数可能下来了,多个语言,模型参数*N 不是又上去了😆而且模型基本遵循残暑越大能力越强,为了效果单语言模型可能也需要扩充到 6710000B 大小,为啥不顺便加入多语言,能够提升模型的综合能力。简单来讲参数下去了,效果也下去了。想效果好就要加数据,最好是多类型数据的混合
    Dispatcher
        27
    Dispatcher  
       10 天前
    今天看到的项目,isbn 可视化:

    https://phiresky.github.io/blog/2025/visualizing-all-books-in-isbn-space/

    看到你就知道了,中文信息只占全世界 1.x%不是瞎掰。刨去骂人的脏话、官话、套话、恭维的话,实际有用的可能只有 0.00x%了。训练个屁哦?
    angryfish
        28
    angryfish  
       10 天前
    个人觉得,大模型根本就没有语言这个概念。他只知道 token 或字符?
    yukino
        29
    yukino  
       10 天前 via Android   ❤️ 4
    @Dispatcher 这是何等的傲慢🤡
    CodeAllen
        30
    CodeAllen  
       10 天前
    语言是思维的媒介,不应该让 llm 区分语言,而且有个很大问题是高质量的训练数据大部分都是英文,按 op 的话说,那英文 llm 能力会强到可怕,但是小语种会弱很多,甚至英文 llm 在学习了语言知识之后完全可以替代小语种 llm 。
    AslanFong
        31
    AslanFong  
       10 天前
    都是字符吧,最底层还是统计那套原理,给英文和中文有什么区别
    Leon6868
        32
    Leon6868  
       10 天前
    1. 大语言模型的根本原理是从语言表象拟合人类深层思维逻辑,并以此预测语言表象。
    2. 相同架构下决定模型拟合能力的根本因素是参数数量。

    由此可见,参数数量是模型能力的根本,不论你拿任何数据训练任何模型,模型越小能力越差,模型越大能力越强;而为了提升模型能力,需要让模型学习尽可能多的人类语料,从而拟合深层思维,所以语料越多越丰富越好。
    amosasas
        33
    amosasas  
       10 天前
    @angryfish 中文和英文的 token 是不一样的,我猜可能是因为中英文在高维空间中是某一种对称,在大量英文资料和少量中文资料上训练后,生成的模型相当于一种在两个对称空间中的映射,例如轴对称的双曲线那种感觉,所以我们用中文对话,模型就用在英文空间中的映射对称到中文空间中了。
    Leon6868
        34
    Leon6868  
       10 天前
    @Leon6868 #32 OP 可以问问 Deepseek R1 ,它比我回答得更详细。
    blueboyggh
        35
    blueboyggh  
       10 天前 via Android
    @Dispatcher 别人说的中文我不知道,您说的中文确实都是垃圾
    gorira
        36
    gorira  
       10 天前
    像是党校的计算机专业新生会问的问题
    ShadowPower
        37
    ShadowPower  
       10 天前
    @Dispatcher 绝大多数中文网文没有 ISBN ,英语世界想要盈利就只能走传统出版流程。
    baka
        38
    baka  
       10 天前   ❤️ 2
    过了个年,这里成了 LLM 民科论坛?
    LanhuaMa
        39
    LanhuaMa  
       10 天前
    @user8341 #10 如果真是这样的话说明中文语料真的有够垃圾。Deepseek 用中文推理的表现完全不如英文,有的时候叫它做最基本的小学四则运算都能搞错
    flyqie
        40
    flyqie  
       10 天前 via Android
    @LanhuaMa #39

    目前各类模型对于数学这块都不行吧?
    flyqie
        41
    flyqie  
       10 天前 via Android
    @flyqie #40

    或者说都不太行,这跟语料本身有关系吗?
    ShadowPower
        42
    ShadowPower  
       10 天前 via Android
    @LanhuaMa 现在 o3 mini 显示思考过程了,美国人发现用英文提问有时候会出现中文思考。他们自己的解释是数学相关的资料大多数是中文的。
    agagega
        43
    agagega  
       10 天前 via iPhone
    大语言模型的牛逼之处就在于它能展现出跨语言的学习能力啊,限定语言属于本末倒置了。之前有人搞过纯日语模型,没什么下文了
    Daxian0072
        44
    Daxian0072  
       10 天前
    问了一下 deepseek:

    嗯,用户问为什么不能把 LLM 按语言拆分,比如英文问题用英文模型,日文用日文模型,这样参数量会减少。这个问题看起来合理,但可能有些深层原因需要考虑。首先,我需要回忆一下 LLM 的工作原理和多语言训练的优势。

    首先,LLM 通常是基于 Transformer 架构,这种模型在处理不同语言时能够共享一些底层特征,比如语法结构、词汇关系等。多语言训练可以让模型学习到跨语言的通用表示,这可能提升每种语言的性能,尤其是低资源语言,因为它们可以借助高资源语言的数据。比如,西班牙语和意大利语有相似性,模型可能通过共享参数更好地学习它们。

    然后,用户提到拆分语言以减少参数量的想法。表面上看,分开训练每个语言模型,每个模型参数更少,总参数量可能减少。但实际情况可能复杂。比如,如果每个单语模型都达到类似的效果,它们的参数总量可能加起来反而超过多语言模型,因为多语言模型可以共享参数。例如,一个多语言模型有 100B 参数,而 10 个单语模型每个 10B ,总共 100B ,但可能每个单语模型需要更大的参数才能达到多语言模型的性能,导致总参数量更多。

    另外,预训练和微调的成本也是一个因素。分开训练多个模型需要更多的计算资源和时间,尤其是在处理多种语言时,维护多个模型可能不划算。还有,多语言模型在跨语言任务上表现更好,比如翻译或跨语言检索,这是单语模型无法做到的。

    用户可能没有考虑到迁移学习和数据利用的问题。低资源语言在单语模型中可能表现不佳,而多语言模型通过高资源语言的迁移可以提升效果。另外,模型推理时的灵活性,比如处理混合语言输入,这也是多语言模型的优势。

    不过,用户的问题确实有合理之处,比如特定语言优化可能更高效。例如,某些语言可能有独特的结构,单独训练可以更精准。但在实际应用中,平衡参数共享和语言特异性可能需要更复杂的架构,比如在共享参数基础上添加语言特定模块,这可能比完全拆分更有效。

    总结起来,虽然拆分语言可能看似减少参数,但由于共享表示的优势、总参数量的潜在增加、训练维护成本、跨语言能力以及低资源语言的提升等因素,多语言模型通常更高效。不过,针对特定场景可能需要混合方法,比如使用语言适配器,在共享大部分参数的同时,为不同语言添加少量参数,这样在减少冗余的同时保持多语言优势。

    将大型语言模型( LLM )按语言拆分为独立的单语模型看似能减少参数量,但实际上可能得不偿失。以下从技术原理、训练效率和实际应用角度分点解释原因:

    1. 跨语言知识共享的天然优势
    语言间的共性:不同语言之间存在语法、语义和逻辑的共性。例如,英文和法语的句法结构相似性,或中文成语与日文汉字词的关联性。多语言联合训练允许模型通过共享参数学习这些跨语言模式,而非从头学习每种语言的独立特征。

    低资源语言的增强:小语种(如泰语、斯瓦希里语)的语料有限,单独训练效果差。多语言模型通过迁移学习( Transfer Learning )将高资源语言(如英语)的抽象知识迁移到低资源语言,显著提升后者性能。

    2. 参数量未必减少,甚至可能增加
    参数效率悖论:假设一个多语言模型参数量为 100B ,若拆分为 10 个单语模型,每个模型需 10B 参数。但实际中,单语模型要达到同等性能可能需要更大的规模(例如 20B ),导致总参数量反而翻倍( 10×20B=200B )。

    共享表示的压缩效应:多语言模型中,词嵌入层( Embedding )和注意力机制( Attention )的权重是跨语言共享的。例如,中文“猫”和英文“cat”在向量空间中会被映射到相近区域,减少了冗余参数。

    3. 训练与维护成本的权衡
    训练资源消耗:训练 N 个独立单语模型的总算力成本远高于训练一个多语言模型(约为 N 倍)。例如,Meta 的 Llama 3 多语言版本仅需一次训练流程,而拆分成单语模型需重复投入资源。

    动态更新的复杂性:语言随时间演变(如新词汇、网络用语),维护多个独立模型的更新成本远高于统一更新多语言模型。

    4. 实际应用场景的限制
    混合语言输入的普遍性:真实场景中常出现语码混用( Code-Switching ),例如中英混杂的“今天我要 presentation”。单语模型无法处理此类输入,而多语言模型天然适配。

    跨语言任务的必要性:翻译、跨语言检索等任务依赖多语言联合表示。若拆分为单语模型,需额外构建复杂的中间系统(如对齐模块),反而增加系统复杂度。

    5. 技术折中方案:模块化设计
    若仍需降低参数量,可采用以下策略而非完全拆分:

    语言适配器( Adapters ):在共享的主干网络上,为每种语言添加小型适配器层(如仅占 1%参数),动态调整语言特性( Houlsby et al., 2019 )。

    稀疏化训练( MoE ):采用混合专家系统( Mixture of Experts ),让不同语言激活不同子网络,如 Google 的 GLaM 模型在 1.2T 总参数中仅激活 97B 参数/任务。

    总结
    拆分单语模型虽直观,但会牺牲跨语言能力、增加总成本,且未必减少参数。多语言联合训练通过参数共享实现了“1+1<2”的规模效益,而模块化设计(适配器、MoE )进一步平衡效率与性能。未来趋势是更高效的多语言统一架构,而非退回单语孤岛。
    LanhuaMa
        45
    LanhuaMa  
       9 天前
    @ShadowPower #42 这下双向奔赴了
    drymonfidelia
        46
    drymonfidelia  
    OP
       5 天前
    @Livid #44 回答技术问题时复制粘贴 AI 生成的内容
    Livid
        47
    Livid  
    MOD
       5 天前
    @drymonfidelia 44 楼的账号已经被彻底 ban 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2770 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:01 · PVG 23:01 · LAX 07:01 · JFK 10:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.