大模型的开源是开源吗?跟传统意义上的开源有什么区别?

欢迎大家关注「几米宋」的微信公众号,公众号聚焦于 AI、云原生、开源软件、技术观察以及日常感悟等内容,更多精彩内容请访问个人网站 jimmysong.io。

📄 文章摘要

AI 时代“开源”定义正在变化,开放权重与论文是否等同于开源?本文深入分析传统软件开源与 AI 模型开源的差异与演进。

真正的开源,是可重现、可验证、可共创,而不仅仅是“可下载”。

在人工智能时代,“开源”这个词的含义正被重新定义。许多大模型(如 Llama、Mistral、Qwen 等)都声称自己是“开源”的,但它们并没有完全公开训练数据或训练脚本。这种现象引发了一个问题:

开放权重与论文,是否就意味着开源?

本文将从历史、技术和哲学三个层面解读 AI 时代的“开源”演进逻辑。

传统开源:完整可重现的自由软件精神

首先回顾传统软件工程时代的开源(Open Source)标准,其定义来自 Open Source Initiative (OSI)。OSI 的核心要求包括:

• 必须公开源代码

• 允许自由使用、修改和再分发

• 不歧视任何人或领域

• 可用于商业目的

简言之,只要能在 GitHub 上下载代码、自由修改、重现结果,就是真正意义上的开源软件。

传统开源的核心价值是“可重现性”与“自由修改”。

AI 模型的复杂结构:权重、数据与训练代码

AI 模型与传统软件不同,一个完整的模型包含多个层面的资产。下表总结了各类资产的含义及其开放情况。

类型

含义

是否常公开

模型权重(Weights)

神经网络参数文件(几十 GB~上 TB)

✅ 常公开

模型结构(Architecture)

网络结构与超参数

✅ 常公开

训练代码(Training Code)

训练脚本、优化器配置、分布式策略

❌ 很少公开

训练数据(Dataset)

语料来源、清洗规则、过滤策略

❌ 几乎不公开

推理代码(Inference Code)

部署与 API 实现

✅ 常公开

论文(Paper)

模型原理、评测结果

✅ 常公开

展开全文

因此,“开源模型”这一说法往往只是开放部分要素,而非完整的训练过程。

AI 时代的新范式:“开放权重模型”(Open Weight Model)

随着 AI 技术的发展,主流的“开源模型”其实更准确地称为“开放权重模型”(Open Weight Model)。它们通常开放以下内容:

• 模型权重(weights)

• 模型结构(architecture)

• 推理代码(inference)

• 论文(paper)

但未开放训练数据与训练过程。

下面是代表性项目的授权方式对比表:

模型

类型

授权方式

Meta Llama 2/3

开放权重

商业需申请

Mistral 7B

开放权重

Apache 2.0

阿里 Qwen 3

开放权重

Apache 2.0

Falcon RefinedWeb

完全开源(含数据)

Apache 2.0

RedPajama

完全开源(含数据)

Apache 2.0

这些模型虽不能复现训练过程,但已具备二次创新与验证论文结果的基础。

为什么开放权重也被称为“开源”

AI 社区形成了实用主义共识:只要模型权重可下载、可运行、可商用,就具备开源精神。

这种做法的价值体现在以下几个方面:

• 研究复现:他人能验证论文结果

• 生态繁荣:社区能衍生微调版本

• 技术普惠:中小企业能用上强模型

• 透明审计:外界能分析模型行为

虽然这种做法不符合 OSI 严格定义,但在 AI 领域形成了事实上的“行业共识”。

开放权重 ≠ 完全开源

严格来说,开放权重模型仍然与真正的开源软件有本质区别。下表对比了两者的核心差异:

维度

传统开源软件

开放权重模型返回搜狐,查看更多

代码是否完整可重现

✅ 是

❌ 否

训练数据公开

✅ 是

❌ 否

能否完全再训练

✅ 是

❌ 否

可商用性

✅ 通常允许

⚠️ 部分受限

主要开放内容

源代码

模型权重

代表形式

GitHub 仓库

Hugging Face 模型