1
Suger828 4 天前
没有开源源代码 ,只有论文,你去复现吧
|
2
dajj 3 天前
好像是模型免费下载, 国产就是善于创造概念,这么算 gimmy 也是开源的
|
3
zenghx 3 天前 via iPhone
|
4
zlowly 3 天前
|
6
Felixchen1062 3 天前
感觉 LLM 模型之类的开源,不等同于工程项目的开源
好比我写了一篇文章,允许随意使用,但我也不需要提供字/词典吧,LLM/CV 模型训练更像是一个 cooking 的过程,食谱,食材都端上来了,毕竟它不像是一个工程项目。 至于楼上那位国产创造概念的观点,我不太清楚 llama 开源是不是也是这种形式,可以考证一下 |
7
CynicalRose 3 天前 2
llama3 的代码仓库: https://github.com/meta-llama/llama3 ,虽然我到现在都没跑起来
deepseek 的仓库没有代码的: https://github.com/deepseek-ai/DeepSeek-R1 ,v3 还没试: https://github.com/deepseek-ai/DeepSeek-V3 |
8
iorilu 3 天前
大部分模型所谓开源就是指训练好的模型权重开源, 反正你直接可以用
但不会告诉你怎么训练出来的, 更不会给你训练材料 |
9
CynicalRose 3 天前
@CynicalRose LLM 的开源多数只提供 inference 的代码,想训练只能自己尝试复现了。
|
11
yanggb 3 天前 1
@dajj LLM 领域目前是这样的,DeepSeek 以 MIT 协议开源了模型权重,附赠实现论文,已经让 AI 研究者激动,甚至有人已经复现了: https://github.com/hkust-nlp/simpleRL-reason/tree/main
|
12
c0nstantien 3 天前
@dajj 赢!
|
13
nickchenyx 3 天前 9
@dajj 我也是第一次听说 OpenAI 原来是 Close 的
|
14
visitantzj 3 天前 1
汗……还要人家把业务数据、代码都给你才行?要不要再免费搭上能跑得动的 vps
|
15
crackidz 3 天前 5
DeepSeek 是训练过程全写到论文里了,你可以根据论文直接复现。https://github.com/huggingface/open-r1
|
16
crackidz 3 天前 1
要不怎么说 DeepSeek 是大善人呢
|
17
crackidz 3 天前 4
@CynicalRose deepseek r1 的代码就是 v3 的仓库,是同一套代码只是权重不一样。这个 README 里有啊
|
18
csys 3 天前 via Android 4
上次 deepseek v3 出来的时候站里就已经闹过不少笑话了
现在怎么还这样啥都不懂就信口开河,不长记性吗😅 动动手问问 llm 也行啊 |
19
AlohaV2 3 天前 10
|
20
SGL 3 天前 1
这就说明搞算法的和搞开发的”隔行如隔山“了 。
|
21
LnTrx 3 天前
可以参考一下其他组织的复现尝试 https://github.com/huggingface/open-r1
|
22
chesha1 3 天前
@dajj #10 大模型的训练代码是非常工程的,可能都还包含了一些公司内部基建的代码,这些是肯定不会开源的,训练一次要几千张卡,开源又怎么样,难不成还真能跑起来不成
不过一般 LLM 开源,会同步放出模型结构、怎么推理、怎么微调的代码,如果非要较真这个,deepseek r1 确实少做了一点,不过目前开源的部分已经很够用了 |
24
ShadowPower 2 天前
训练代码其实都不会开源,很多公司“开源”出来的和他们实际使用的代码并不同。
因为训练一个超大模型要考虑的事情非常多,例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码,如果完整开源出来,你甚至可以用来搭建一个阿里云、腾讯云…… |
25
Yuanlaoer 2 天前 4
确实不太理解这种开“源”
楼上列举的各种,那个算源么?你们自己去看看开源软件中的源是什么意思啊。 如果展示其中的一部分代码就算是开源了,那我给你放个 https 的链接,算开源网页吗? 楼上举 OpenAI 的例子更滑稽,啥时候人家自己说过自己是开源的啊? |
26
keakon 2 天前 1
|
27
superalsrk 2 天前
deepseek 这次是开源的权重, 以及那个五十多页的技术报告, 实际上搞算法的有大量的代码是 dirty work , 就是各种数据处理技巧, 因为这次的技术报告非常详细,短短几天已经有好几家复现成功 R1 了, 比如 huggingface 的官方复刻版本。https://huggingface.co/open-r1
|
28
kenvix 2 天前 via iPhone
推理代码和权重开源了,推理代码直接合并到了 VLLM 主线,权重在 HF
|
29
kenvix 2 天前 via iPhone
另外具体的模型细节通过论文形式提供
|
30
Yuanlaoer 2 天前 1
@keakon 那么我的问题很简单,“开源”的定义是什么呢?
据我所知,开源二字是源于开源软件,open source software https://en.wikipedia.org/wiki/Open_source 这里的定义很清晰。 “开放了权重”即为“开源”,这是那个组织定义的,我不知道,以及到底哪个协议里有提到过这一条呢? 我从未听说过 OpenAI 是开源的,您可以提供一下相应的信息来源。你甚至可以问 chatgpt ,你是不是开源的。我相信 100 次的结果都是一样的。 |
31
crackidz 2 天前 via iPhone
推理代码开源就不是开源了吗?🤣
权重只是配置,配置怎么来的不是另外一个故事吗 |
33
nightwitch 2 天前
训练部分的代码目前没见过哪家开源过的。训练部分代码大量耦合自家公司的各种基建代码,没法开。
|
34
courtier 2 天前
对这个有纠结的话感觉可以看看国外其他的开源模型对比下
|
35
WorseIsBetter 2 天前
大模型的「开源」确实不是传统意义上的「开源」。
FSF 最近在推进这方面的建设: https://www.fsf.org/news/fsf-is-working-on-freedom-in-machine-learning-applications 不过看样子会比较困难。尤其是训练数据,巨头们就算愿意,也不敢或者说无权「开源」。因为里面不可避免地存在着大量本来就涉嫌侵权的东西。 |
36
yoghurtguy 2 天前 via iPhone
模型重要的是架构设计,而不是功能差不多的训练和推理的具体代码。
leetcode 看代码,没人注意你是怎么怎么 cin 和 cout 的, 告诉你架构设计就能复现核心代码,告诉你是动态规划,你就能写个差不多了。 我再给你模型参数就证明了我的算法不是吹的,这时你就是 oj 平台,你给个输入他给输出,发现他的算法还真是 O(1)的时间复杂度。 |
37
LanhuaMa 1 天前 4
@SenLief #32 GPT3 以前都是开源的,但是 OpenAI 没说自己非要开源。OpenAI 是一家商业公司,不是 NGO 。Open 也不是非要 Open Source, 可以是 Open Collaboration, Open Minded ,不是很理解为什么楼上那么多人举 Open AI 的例子。我寻思恁中华人民共和国既不中华也不人民甚至 12 之后已经不是共和国,也没人敢逼逼啊?
|
40
iv8d 1 天前 via Android
人家说的开源模型,你要求的有点多啊
|
41
keakon 1 天前 5
@Yuanlaoer 既然简单,你为何不自己查证呢?这些知识哪怕是 AI 界的初学者也是常识啊。
GPT-3 之前的版本开源,你现在能访问到的都是闭源版本的,所以当然告诉你它是闭源的。在 GPT-2 的 wiki ( https://en.wikipedia.org/wiki/GPT-2 )中可以看到这样一句:It was superseded by the GPT-3 and GPT-4 models, which are no longer open source. 意思是 GPT-2 之后的版本「不再」是开源的。 https://www.llama.com/ 第一句话就是:The open-source AI models you can fine-tune, distill and deploy anywhere. 你找找看它们是否公布了训练代码和训练集? 「 open-source AI model 」是外国公司在 5 年前就抢先定义了的,业界也早已认可了,不是 DeepSeek 临时炒作的概念。 https://en.wikipedia.org/wiki/Open-source_artificial_intelligence 里也提到了「 The Open Source Initiative and others stated that Llama is not open-source despite Meta describing it as open-source, due to Llama's software license prohibiting it from being used for some purposes.」 Open Source Initiative 是最权威的开源协议组织了吧?它质疑 Llama 不开源也只针对了它不能用于某些用途,而不是没有开放训练代码和训练集。 |
43
mauis 1 天前
没彻底开源,项目试图重复这个 参考 https://github.com/huggingface/open-r1?tab=readme-ov-file
|
44
Yuanlaoer 1 天前 2
@keakon 谢谢,我搜索的时候没有看到你提的。你引用的这个页面: `https://en.wikipedia.org/wiki/Open-source_artificial_intelligence`。这个确实是最权威的,但我看到里面的 1.0 版本也是 2024-11-14 这个时间才制作的。我确实没有这个 AI 界的常识。
所以此处提到的开源、这个“开源”的在这里的全称是开源模型(open source model),也就是能够看到参数权重。 学到了,谢谢。 但对于这个开源模型或是开源 AI 与 开源软件 直接的巨大差异,我依然保留自己的一部分观点:现在的开源软件很重要的一点是:除了可以自由使用,修改等等以外,也提供源代码,即:我的制作过程从第一步开始展示给所有人,你可以从原材料都看得清清楚楚。而现在开源模型对于封装和使用来看,更像是我提供一个 .exe 或者 .app 文件,我也让你免费用,随便改,但是这个 .exe 文件是怎么制作出来的,抱歉,我没有义务告诉你。我认为这个差异是巨大的。无论是开源的源还是 open source 的 source ,语义上都是有差异的,因为根本没开放“源”。 举一个不那么准确的例子,一个是从原料到制作工艺的标准都写的十分详细。可以得到:只要你用我说的原料和工艺,你就能生产出跟我一样的可口可乐。另一个是,我给你提供一模一样的可乐糖浆,我也告诉你配料表,我也允许你拿去研究,但是可乐糖浆是怎么制作的,抱歉,保密。 |
45
crackidz 1 天前 3
@Yuanlaoer 那么你的定义下确实世界上并不存在真正的开源模型了。但是在 OSI 的定义下,deepseek 就是开源模型。
另外纠正一下,你看到的是收录时间,并不是发布时间。实际上的发布时间要更早一点。 |
47
Leon6868 1 天前
@nickchenyx #13 村通网
|
48
Yuanlaoer 1 天前
@crackidz 怎么叫我定义呢?我这里全都是引用的。
如果叫 open model / 开放模型,是没有任何歧义的;甚至依照 free software 叫 free model 我觉得都完全合乎沿用规范。因为他开放的仅仅就是模型权重。 我上一贴也讲过“source/源”了。source/源,无论你查中文和英文的字典,基本都是同一个意思。大家都认同叫开源那就开源吧,没打算纠正别人。我已经搞清楚了。 谢谢你的纠正。 |
50
Yuanlaoer 1 天前 1
多说两句:
“free software/自由软件”在鄙人看来,是当时一个伟大的倡议。而 "open source software/开源软件"是在这个基础上的又一极大进步。 这两个概念不是什么新鲜东西了,具体的定义很好查到。 在回头看大模型中的开“源”概念,我很难得出其中的语义没有冲突的结论。我也相信未来在更大范围会形成更清晰的共识的。 |
51
aldehyde 23 小时 1 分钟前 2
个人认为这个楼里矛盾的点在于:
大部分程序员都知道“开源”指的是什么,开放源代码供给用户使用,用户可以自行修改和建构 而所谓的模型开源大部分是架构思路的分享,也就是楼上提到的论文,你可以尝试复现。这就像化学/生物的论文,给你实验过程你可以尝试复现,但是我并不会手把手教你怎么做,实验中的选材和环境可能有所保留。 但是这里存在的一大问题是,很多的国内相关领域的宣传(特别是割韭菜的)都有意把这两个“开源”的概念混淆,导致大部分的人并不能明确理解这个意思,有一些即便只是提到模型开源的概念也在无意中推动了混淆的进度,没有人站出来澄清过。 |
52
randychoi 20 小时 0 分钟前 via Android
如何凭借免费软件策略让 DeepSeek 一举跻身 AI 明星行列 https://t.me/wsj_rss/20799
|
53
mertas 19 小时 30 分钟前
节日快乐,谢谢各位的科普,算是长了见识👍💐
|
54
Esec 18 小时 30 分钟前 via Android 1
训练过程本来就和人类自己学习一样会喂很多虽然可以公开浏览,但是下载下来传播就会侵权的内容,就像买票看的电影,看可以,看完用自己的语言发点影评和吐槽都无所谓,但,你要是去录下来,又放到网上还说是在开源……他只能放出学习的方法,思维导图这些不容易侵权的东西,要学什么你要自己准备
|
55
tyzandhr 18 小时 8 分钟前 via Android
@SGL 不如说是学术圈和工程圈。此贴下面有好多王垠。我的评价是,城里人点灯,别给乡下人看见,不然他就会买个灯泡用绳子挂在房梁上,骂:你为什么不亮!
|
56
param 18 小时 3 分钟前 via Android
所以开源模型并不属于开源软件就对了。
|
57
param 17 小时 48 分钟前 via Android 1
即便是开放源代码的软件,也只是开放了代码。
而代码本身是怎么来的、用什么编辑器、按什么快捷键、装了什么插件这些都没有开放。 对于图片资源,这张图片是怎么画的,photoshop 的图层结构是怎么样的,也没有开放的。 源代码是编译二进制程序的来源,同时也是编辑器操作、图片制作的产物。往前追溯的话,应该把编辑制作的过程也录屏下来,把开发环境也 copy 一份分享出来,这样才能保证我跟着录屏一步步进行操作,能够完整复刻,也可以在过程中加入自己的个人想法进行二次创作。 即便是程序代码,当中也有不少代码文件是自动化生成的,例如 package-lock.json 。而这种类似 package-lock.json 的文件可能也是生成的,至于怎么生成的,开源作者也不会告诉你。 所以我可以理解为,开源模型就是把制作过程的产物放出来,而制作过程没有放出来。相当于我用脚本来生成一些代码,我把生成的代码开放出来了,只是没把生成器开放出来而已。因为生成出来的产生是工程化的,便于开源。而生成器是个临时的脚本,甚至可能是在 bash 里敲几条命令跑出来的,作者自己都不一定还保留着。 前端开放压缩混淆后的 js 、css 算不算开源呢?大部分人认为不算,因为这属工程的产物,混淆 js 的背后有个更原始的工程可以开放的。 |
58
FightPig 16 小时 50 分钟前 1
有的人不懂还要装懂,一个劲嘴犟的闹笑话
|
59
me1onsoda 16 小时 2 分钟前
open source 不就是把得出成果的过程公开出来吗?
|
60
misakalee 12 小时 59 分钟前
@Yuanlaoer 你发的 wiki 往下翻到应用那里,我不知道你对所谓开源硬件等如何评价。至少我觉得看待事物太原教旨有点抽象,开源确实是发源自计算机领域,但是各行各业都有自己的产品可以公开共享给大家方便后续修改分发,例如修改食谱,修改字体,修改硬件设计。
|
62
Int100 4 小时 48 分钟前
开源指的是: 论文技术细节开源(可复现), 模型权重开源(可验证).
开源不是做新手教程. 训练用的数据集不一定公开(大多数情况下不公开), 训练、微调等等用的代码也不一定公开(因为这个往往和用的硬件关系很大). |