AI模型训练别“踩雷”,这些合理使用情形要知道
〖2025/7/24 8:19:17时〗 白兔商标专网提供
【字体:
大
中
小
】【
发表评论
】
信息来源:中国知识产权报 信息整理编辑:悠乐
编者按:人工智能数据训练在何种情况下构成合理使用?这是当下全球法学界都在关注的焦点问题。本文结合国内外立法及典型案例,从人工智能数据训练中作品使用目的的认定、对作品潜在市场影响的判定两个方面对这一问题进行探索分析。
近年来,随着人工智能(AI)技术的快速发展,利用海量数据训练模型已成为行业常态。然而,在这一过程中,不可避免地会使用到受著作权法保护的作品作为训练素材。由于模型训练涉及对文本、音频、视频、图片等作品的收集、清洗、标注和调整等处理行为,其是否构成对著作权人复制权、改编权等专有权利的侵犯,引发了广泛争议。此类纠纷的频发,使得人工智能数据训练的版权合规性问题成为全球法学界关注的焦点。针对这一问题,我国学术界的主流观点倾向于通过适用合理使用规则加以解决。值得注意的是,我国司法机关在相关判决中如杭州市中级人民法院审结的“奥特曼”著作权纠纷案(下称“奥特曼”案)已明确认定人工智能数据训练行为构成合理使用,这为司法实践提供了重要指引。
适用合理使用制度有条件
我国著作权法第二十四条采取“概括+列举”的立法模式对合理使用制度作出规定,强调合理使用应当“不影响作品的正常使用”且“不得不合理地损害著作权人的合法权益”。尽管2020年著作权法修改时扩展了合理使用的具体情形,但人工智能数据训练行为显然未被明确列入,也难以直接适用兜底条款。
最高人民法院2011年印发的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第八条为合理使用的认定提供了具体标准。根据该条规定,在促进技术创新和商业发展确有必要的特殊情形下,可以综合考量以下因素:使用行为的性质和目的,被使用作品的性质,被使用部分的数量和质量,使用对作品潜在市场或价值的影响。如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,则可以认定为合理使用。
就人工智能数据训练而言,其通常需要全文使用作品,且被使用作品类型多样,故被使用作品的性质以及被使用部分的数量和质量因素并非争议核心。鉴于此,应重点围绕人工智能数据训练过程中“作品使用行为的性质和目的”以及“使用对作品潜在市场或价值的影响”两个关键要素展开分析,并通过梳理国内外司法实践中的裁判标准与认定规则,为人工智能数据训练行为的合理使用认定提供可操作的司法判断框架。
重点考量作品使用目的
在判断人工智能数据训练行为是否构成合理使用时,作品使用的目的是法院考量的关键因素之一。以“奥特曼”案为例,2024年12月法院在二审判决中明确指出:生成式人工智能的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免地包含受著作权法保护的作品。法院从行为目的的本质属性出发,明确指出生成式人工智能使用受著作权保护作品的根本目的在于“分析性使用”,即通过算法解析作品中的思想元素、表达模式和结构特征等抽象要素,以提升模型的创作能力,便于后续转换性创作新作品,而非再现作品的独创性表达。同时,在案证据未能证明该使用行为影响原作品的正常利用或损害著作权人的合法权益,因此可被认定为合理使用。美国加利福尼亚州北区联邦法院于2025年6月对安德里亚·巴茨(Andrea Bartz)等诉安瑟罗普公司(Anthropic PBC)案(下称“Anthropic”案)作出里程碑式的判决,明确将人工智能数据训练行为定性为“极高转化性使用”(exceedingly transformative)。法院认为,人工智能数据训练过程对作品的使用并非旨在再现原作品的表达,而是将文本内容转化为模型参数,用于模型学习语言结构和语义关联。基于此,法院认定被告利用受版权保护的作品训练大语言模型的行为符合转换性使用的目的,构成合理使用。
结合上述判决可知,两国均从技术机理出发,强调人工智能数据训练过程中作品使用目的的转换性特征,即目的性要件的审查核心在于是否构成转换性使用。“转换性使用”(transformative use)作为合理使用制度的重要判断标准,强调对原作品的使用是否赋予其新的表达、意义或功能,从而改变其原有目的或性质。就人工智能数据训练而言,这一判断标准具有特殊的适用价值,模型训练过程并非对原作品表达形式的简单复制,而是通过算法将作品内容转化为机器可学习的特征数据,并最终生成具有独创性的新内容。“奥特曼”案中,我国法院对此作出了开创性阐释,提出人工智能训练过程实现了从“作品表达”到“机器可识别数据”再到“新表达形式”的实质性转换。这种转换不仅体现在技术层面,更在法律层面改变了原作品的使用目的,由此与合理使用制度中的“不影响正常使用”和“不得不合理损害合法权益”双重标准有机衔接,形成了逻辑自洽的裁判规则。
精细评估对潜在市场的影响
在判断人工智能数据训练行为是否构成合理使用时,“对作品潜在市场或价值的影响”作为关键要素,需要结合具体案件事实进行实质性考察。我国“奥特曼”案中,法院着重分析了生成结果的非定向性特征,指出平台输出内容由用户自主生成,且受训练参数配置等因素影响,其生成结果无法体现“定向”性。可见,法院在论证被告提供的AI服务不构成侵权行为时,所使用的关键逻辑为,因为生成内容“不具有必然性”,也“不稳定地再现权利作品的核心特征”,所以不能认为其构成了“定向”使用,也就难以证明“市场替代性”或“混淆误认”。在上述论证基础上,法院强调在无法证明人工智能数据训练行为对作品正常使用及著作权人合法权益造成不合理损害时,应当认定构成合理使用。
美国的司法实践中也高度重视“对作品潜在市场或价值的影响”这一要素的判断。以2025年2月审结的“Westlaw”案为例,法院在审理罗斯公司(Ross)与汤森路透(Thomson Reuters)的纠纷时,着重考察了双方的市场竞争关系。虽然法官最初认为被告的使用行为可能具有转换性特征,能够创造不同于原作品的全新研究平台,但经事实查明后发现,罗斯公司实质上是通过利用汤森路透的法律批注信息作为训练数据,以开发具有直接竞争关系的法律检索工具。在“Anthropic”案中,法院则作出了截然不同的认定,认为大语言模型的训练虽然可能导致作品数量增加并产生市场竞争,但这种竞争属于技术创新带来的良性竞争范畴,而非版权法所规制的对创意本身的取代。法院明确指出,版权法的立法目的在于促进原创作品发展,而非为作者提供免受市场竞争的保护。
通过对上述判例的对比分析可知,在评估人工智能数据训练对作品潜在市场的影响时,必须结合具体案情进行精细化分析,重点考察市场同一性,即是否在同一市场提供竞争性产品并直接针对原作品的核心商业价值。同时,必须严格区分技术创新所引发的良性市场竞争与不当挤占原作品市场空间的替代性竞争。前者属于著作权法应当容忍的合理竞争范畴,后者则构成对著作权人合法权益的不当侵害。(中国政法大学 马诗雅)