微信扫码
添加专属顾问
我要投稿
大模型开源许可正重塑AI生态,解析其独特对象与复杂关系,助你把握未来趋势。 核心内容: 1. 大模型开源的五大核心对象:模型架构、代码、权重、数据及训练方法 2. 各组件间的生物学类比与功能解析 3. 最新开源许可趋势对AI发展的影响
一、大模型开源的对象和相互关系
大模型开源跟传统的软件开源不一样,后者基本上只针对软件代码,但大模型就要复杂很多。直观的看,我们可以将大模型比作一个经过特殊训练、拥有海量“知识”的人工大脑,这个大脑还要由各个部分组成,包括:
1、模型架构
代表着大脑的生理结构和神经网络连接方式,就像人类大脑有特定的区域(视觉皮层、语言中枢、前额叶等)以及神经元之间复杂的连接模式(白质纤维束)决定了大脑处理信息的基本能力和潜力一样。模型架构(如Transformer、CNN、RNN、MoE等)定义了模型如何处理输入数据(如文本、图像),信息如何在不同的“层”或“模块”之间流动和组合,以及模型的计算能力和容量上限(参数量、层数、注意力头数等)。它决定了这个“人工大脑”的“硬件”基础和基本“思维”模式。
2、模型代码
代码是实现模型架构的具体指令集。它就像大脑中与生俱来的、控制基础生理功能(如呼吸、心跳反射)和基本信息传递规则(神经电化学信号传导)的机制。代码精确地规定了前向传播和训练算法(包括基础运算)。前者是输入数据如何根据当前权重一步一步计算出输出结果(就像感官刺激如何沿着神经通路传递并引发初步反应),后者是如何根据预测结果和正确答案的差异(损失)来更新权重(学习规则,如反向传播和梯度下降优化器)。这就像是大脑中负责根据经验调整神经连接强度的基本“学习本能”。
所以代码是构建这个“人工大脑”并赋予其“生命”(运行能力)的蓝图和操作手册,定义了它最底层的“行为法则”和“学习本能”。
3、模型权重
就是大脑中通过学习形成的知识、经验、技能和记忆,这是大模型最核心的部分。权重是模型架构中连接(如同神经元之间的突触)的强度值。这些数值是在海量数据上训练出来的,它们编码了模型从数据中学到的所有模式、关联、事实、概念和推理能力。
就像人类通过阅读、观察、实践来学习一样,模型通过处理训练数据,代码中的训练算法不断调整权重,使模型对输入做出越来越准确的预测或生成。这个过程就是在“灌输知识”和“塑造思维”。
最终状态:训练完成后保存下来的权重文件,就是这个“人工大脑”当前所拥有的全部“学识”和“智慧”的结晶。它包含了模型理解语言、生成文本、识别图像、进行逻辑推理等能力的具体参数化表示。模型的能力强弱,主要就体现在这些权重值上。
4、训练数据
数据是模型学习的“养料”和“教材”,相当于大脑一生所经历的所有感官输入、阅读的书籍、听到的对话、观察到的现象——即所有的“经验”和“学习素材”。模型的“知识”(权重)完全来源于它被喂入的训练数据。数据的质量(准确性、多样性、代表性)、数量(规模)和内容(领域)直接决定了模型最终学到的“知识”的广度、深度和倾向性。就像一个人读什么书、接触什么环境会塑造他的认知和世界观一样。
5、训练与微调
训练是利用代码(学习规则)和训练数据(教材/经验),不断调整权重(神经连接强度/知识结构)的过程,相当于大脑的学习过程(阅读、上课、实践、犯错、纠正)。
微调则是在已有知识基础上的专项技能培训或知识领域深化,在一个已经训练好的基础大模型(拥有广泛知识)上,使用特定领域或任务的小规模数据集进行额外的训练。这就像让一个受过良好通识教育的人,再去学习医学、法律或编程等专业技能。微调主要调整模型的权重,使其在特定任务上表现更出色,而不需要从头开始学习所有基础知识。
至此,我们能够清晰的了解到一个大模型是如何构建出来的,要深入研究和讨论大模型开源,如果不了解以上基本的技术原理,那么连最基本的开源对象都没搞清楚。
二、传统开源协议在
AI语境下的适配困境
如前文所述,传统的开源软件(OSS)主要关注源代码的可用性、修改和再分发,然而大型语言模型(LLM)在本质上有所不同,它们由一系列超越人类可读代码的复杂组件构成。这些组件包括模型的架构、训练参数(通常称为“权重”)、庞大的训练数据、推理和训练代码、全面的文档以及评估协议。
认识到这种复杂性,开源倡议组织(OSI)积极致力于建立“开源AI定义”,该定义规定,一个AI系统若要真正实现开源,其源代码、模型参数以及关于训练数据的详细信息必须可供自由使用、研究、修改和共享 。这种扩展的定义标志着“开放”对于AI而言的含义发生了关键性演变。传统上,开源主要指代码的开放性,但对于AI模型而言,仅开放代码不足以实现真正的“开放”,因为模型的行为和能力很大程度上取决于其训练数据和模型权重。因此,将“开放”的范围扩大到这些非代码组件,是适应AI技术特点的必然发展。
传统的开源许可协议在设计时并未充分考虑AI模型的独特属性,这导致它们在LLM的许可实践中存在诸多不足:
1.知识产权(IP)范围: 传统许可协议主要管理软件代码的著作权。然而,AI模型涉及更复杂的知识产权体系,包括著作权、数据库权利和商业秘密,且不同司法管辖区的法律解释各异。关于AI生成内容的著作权归属以及训练模型权重本身的法律地位,仍然存在显著的法律模糊性 。在缺乏明确知识产权法律的情况下,合同条款正越来越多地用于分配这些新型元素的使用权 。这种从单纯代码到包含数据、模型权重和生成内容的知识产权复杂性,使得传统许可协议难以提供全面的法律保障。
2.伦理和社会风险:LLM带来了前所未有的伦理问题,例如生成虚假信息、延续偏见、侵犯隐私以及创建有害内容。为通用软件设计的传统宽松许可协议,缺乏通过合同机制来解决这些特定风险的能力。这促使了“行为使用条款”或“禁止使用”条款的出现,这些条款明确限制AI的某些高风险应用。这种从关注代码功能到关注模型社会影响的转变,是AI许可协议演变的核心驱动力。
3.超越代码的数据和模型组件:标准开源许可协议未能充分涵盖庞大训练数据集的许可问题,这些数据集通常包含受著作权保护或敏感的私人信息,导致再分发方面的法律复杂性。同样,作为独立可许可组件的“模型权重”的法律地位和许可,仍在不断演变 。传统许可协议无法有效规范这些非代码组件的权利和义务。
4.不可预测输出的责任:AI模型输出的生成性和不可预测性带来了复杂的责任问题。诸如MIT许可协议中常见的“按原样”免责声明,可能不足以保护开发者或用户免受因错误、偏见或有害AI生成内容而引起的索赔。传统软件的责任模型难以适应AI输出的黑箱特性和潜在的广泛影响。
许可协议名称 | 宽松程度 | 传染性效应 | 明确专利授权 | 专利终止条款 | 模型权重覆盖 | 训练数据覆盖 | AI生成输出覆盖 | 伦理使用限制 | 商业使用 | 对LLM的关键局限性 |
MIT许可协议 | 高 | 无 | 否/模糊 | 无 | 有限/不明确 | 有限/不明确 | 无/有限 | 无 | 通常允许 | 缺乏伦理条款,数据/权重模糊性,以软件为中心 |
Apache许可协议2.0 | 中 | 宽松(仅代码) | 是 | 是 | 有限/不明确 | 有限/不明确 | 无/有限 | 无 | 通常允许 | 缺乏伦理条款,以软件为中心,数据/权重覆盖有限 |
GNU GPL(及变体) | 低 | 强(代码及衍生品) | 是(仅代码) | 是(仅代码) | 有限/不明确(常有争议) | 有限/不明确(常有争议) | 不明确(潜在传染风险) | 无 | 受传染性限制(如果衍生作品为专有) | 潜在的传染性困境,对模型权重和输出的适用性模糊,对商业使用有威慑作用 |
三、从代码到语境:许可协议焦点的转变
大模型的技术原来和应用场景都要求开源许可协议的焦点发生深刻转变,它不再仅仅是管理软件本身,而是管理整个AI系统及其在现实世界中的影响。这种转变解释了为什么会出现新的AI特定许可协议类型(如RAILs和OpenMDW),以及为什么LLM许可协议中会包含大量定制条款。问题不再仅仅是用户可以对代码做什么而是AI系统可以做什么,以及其使用可能带来哪些法律和伦理后果。
1、负责任AI许可协议(RAILs)
负责任AI许可协议(RAILs)代表了一种新型许可框架,专门旨在确保AI模型、其数据集和相关工具的使用符合伦理原则,并积极防止有害应用。其核心目标是在促进开放性和确保问责制之间取得微妙平衡,通过施加特定使用限制来实现 。
RAILs所包含“行为使用条款”通常禁止:
(1)军事应用、战争、核工业或应用、间谍活动。
(2)执法或监控应用。
(3)生成虚假或有害内容,包括虚假信息、深度伪造、诽谤内容、欺诈或垃圾邮件。
(4)剥削或伤害儿童,包括索取、创建、获取或传播儿童剥削内容或未能报告儿童性虐待材料。
(5)基于种族或性别等受保护特征的歧视。
(6)开发关键基础设施(如电网、交通)的自动化决策,或未经授权的实时生物特征监控。
(7)未经授权或无执照地从事任何专业活动(例如金融、法律、医疗/健康相关专业)。
(8)导致生态破坏的活动,例如优化化石燃料勘探或濒危物种捕猎技术。
为了确保上述限制条款的实施,RAILs的一个共同特征是终止条款,即违反指定使用限制通常会导致自动丧失对许可模型的所有权利。
特别值得关注的是,RAILs因其固有的使用限制(即“行为使用条款”或“禁止使用”条款),明确违反了OSI开源定义(OSD)中“不得歧视任何个人或团体”和“不得歧视任何领域”的核心原则,因此不被OSI认定为“开源”。这导致它们与GPL 2.0或Apache 2.0等传统FOSS许可协议在“开放性”的根本定义上不兼容
负责任AI许可协议(RAILs)的存在和普及标志着AI许可领域的一个关键趋势,RAILs明确将伦理原则和危害预防直接整合到许可条款中,这表明许可协议正在从单纯管理知识产权发展成为AI领域治理和风险缓解的基本工具。这些许可协议中详尽的“禁止使用”清单不仅仅是一套伦理指南,而是具有法律约束力的限制。这些限制直接反映了日益增长的社会担忧,并通常与新兴的监管框架(例如欧盟AI法案 )保持一致,这表明AI开发者正主动尝试通过合同方式解决这些关键问题。这一趋势预示着未来AI许可协议将越来越多地嵌入伦理护栏,可能模糊“开源”与“有限制的源代码可用”之间的传统界限。
2、开放模型定义与权重(OpenMDW)许可协议
OpenMDW许可协议是由Linux基金会最近开发的一项倡议,旨在解决现有开源许可协议在复杂AI系统方面的不足。其目标是让OpenMDW成为开放AI模型的基础标准,类似于Apache 2.0或MIT对传统软件的作用,算得上是真正面对AI开源的整体尝试,与RAILs固有地施加使用限制形成对比。其宽松性质、结合防御性专利条款以及明确声明输出不受限制,旨在促进广泛创新,同时为AI独特的知识产权挑战提供法律清晰度。关于输出不受限制的明确声明是对AI生成内容所有权模糊性的直接、积极回应。该许可协议反映了“真正”开源AI的潜在未来标准,并将其与带有各种限制的“源代码可用”模型明确区分开来。
1.“模型材料”的定义: OpenMDW的一个关键创新是其对“模型材料”的全面定义。该术语广泛涵盖机器学习模型(包括其架构和参数)、相关数据集、文档、预处理、训练和推理代码、评估资产以及其他支持工具 。这种包容性定义旨在与OSI不断发展的开源AI定义保持一致 。
2.宽松性质:该许可协议授予广泛的、免版税的、无限制的“处理模型材料的权限”。这种广泛的授权涵盖所有适用的知识产权,包括著作权、专利、数据库和商业秘密权利 。这种广泛授权的目标是消除处理AI资产所需法律权限的模糊性 。
3.主要义务:OpenMDW下的主要合规义务极少:被许可方必须在任何分发中保留许可文本副本和所有原始著作权和归属声明 。至关重要的是,它不施加任何传染性或共享要求,为创建和分发衍生作品提供了最大的灵活性 。
4.防御性专利诉讼终止条款:一个显著特征是其专利诉讼终止条款。该条款规定,如果被许可方对模型材料发起专利诉讼(首次针对其提起的诉讼的防御性回应除外),则授予被许可方的权利将被撤销。这种机制借鉴了传统开源软件的最佳实践,旨在通过阻止激进的专利主张来维护协作生态系统。
5.输出不受限制:OpenMDW明确指出,使用模型材料生成的输出不受任何许可限制或义务 。这是一个关键区别,直接解决了围绕AI生成内容所有权和许可的持续法律辩论和模糊性。
6.免责声明:该许可协议包含一项全面的免责声明,即在“适用法律允许的最大范围内”不提供任何担保和承担任何责任,将尽职调查和权利清除的责任明确地放在被许可方身上 。
3、知名大模型厂商的定制许可路径
除了一些开源组织的努力,部分知名大模型公司也在试图通过定制符合自身需求的开源许可政策,从而解决现有开源协议在应用场景中的不足。
(1)Llama 2社区许可协议
Meta的Llama 2采用定制的“社区许可协议”,旨在平衡模型的开放访问与负责任的使用及防止滥用。
许可授权:它授予非排他性、全球性、不可转让且免版税的有限许可,以使用、复制、分发、创建衍生作品并修改“Llama材料”(广义定义为包括机器学习模型代码、训练模型权重和各种支持代码)。同时提出了一个关键的商业限制与使用规模挂钩,即如果在Llama 2版本发布日期,被许可方或其关联公司提供的产品或服务的月活跃用户(MAU)在前一个日历月超过7亿,则被许可方必须向Meta申请单独的许可。Meta保留授予此许可的唯一裁量权,在此类授权明确授予之前,被许可方无权行使本协议下的任何权利。这一门槛有效地限制了大型企业的“免费”商业使用 。
(2)TII Falcon LLM许可协议
TII Falcon LLM许可协议1.0版本声称部分基于Apache许可协议2.0,但包含了多项重要修改,早期版本的Falcon LLM许可协议明确对商业用户征收版税(例如,超过100万美元收入的10%)
对于Falcon 180B,许可协议现在被描述为“免版税”并基于Apache 2.0,允许集成到应用程序甚至付费服务中。尽管总体上免版税,但对于“托管用户”存在一个重要的例外。希望提供共享实例或托管服务(例如,通过API进行推理或微调)的托管服务提供商不在标准许可协议涵盖范围内,必须与TII寻求单独的许可协议,这可能涉及版税支付 。这表明其战略举措在于通过直接利用模型的基础设施服务来获取收益。
当然,这些厂商定制的协议在很大程度上对使用开源资源的开发者提出了诸多商业限制,导致 OSI和FSF一直批评其不符合FSF和OSI的开源定义,延伸出了新的“开放洗白”的问题。
四、总结
大型语言模型(LLM)的开源许可协议格局正经历一场深刻的变革,其复杂性远超传统的软件开源模式。这种演变的核心在于“开源”概念的重新定义,它不再仅仅局限于代码的开放性,而是扩展到涵盖模型架构、训练数据、模型权重以及AI生成内容等更广泛的“模型材料” 。这一转变是AI技术独特属性所驱动的必然结果,因为AI模型的功能和潜在影响不仅取决于其代码,更取决于其训练数据和学习参数。
为应对这些挑战,新型AI特定许可框架应运而生,同时,知名LLM开发者也纷纷推出定制许可协议,以平衡开放性与商业利益及风险控制,使得当前LLM的开源许可协议格局呈现出高度动态和碎片化的特征。传统许可协议的局限性、AI技术带来的新伦理和社会风险,以及开发者在开放性与商业控制之间寻求平衡的需求,共同推动了AI特定许可协议和定制条款的出现。未来,AI许可协议将继续向更专业化、更具约束力的方向发展,以应对不断演进的法律、伦理和商业挑战,并可能进一步推动监管框架的完善,以期为AI的负责任创新提供更清晰的指引。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-08
探索 RAG-Anything:开启多模态 RAG 的新纪元,让文档“活”起来!
2025-07-08
国内 Agent 赛道最大融资诞生!阿里云为何重注这家“真能干活”的 AI 公司?
2025-07-08
Agent 记忆拆解 | Gemini CLI
2025-07-07
字节跳动开源Trae-Agent:让AI成为你的"全栈开发合伙人"
2025-07-07
16.2k星星!一个「想让所有人都用上」的开源AI多智能体系统框架。
2025-07-07
开源DeepSeek R1增强版:推理效率快200%,创新AoE架构
2025-07-06
Java团队Cursor最佳实践:3分钟构建「零泄漏」AI开发环境
2025-07-05
用友毕思建:客户成功AI落地模型HERO正式发布
2025-06-17
2025-06-17
2025-04-13
2025-04-29
2025-04-12
2025-04-10
2025-04-29
2025-04-15
2025-04-29
2025-05-29
2025-07-08
2025-07-04
2025-07-03
2025-06-28
2025-06-25
2025-06-25
2025-06-21
2025-06-16