一川知识点丨如何判断你的AIGC侵权了没

作者 / 张偲杰何露

审定 / D.Q.

编辑 / 叶明珠

前言

侵权风险“输入”与“输出”分开谈

自从CHATGPT问世以来，生成式AI就被广泛的讨论。所以这次我们就单刀直入，简单点讲，生成式AI（以下简称为AI）就是通过海量资源的投喂（输入）完成深度学习，并根据关键词得到成果（输出）。

不纠结定义之后，我们发现AI输入与输出两端，是否会构成侵权，是完全不同的逻辑。毕竟，缝合怪也可以面目全非，输入侵权与输出侵权之间属于既不充分也不必要条件。

输入端，在乎于使用数据与素材训练的这个过程中，是否可能侵犯到他人的知识产权。而输出端，在乎于最终的输出的内容是否与他人在先作品构成相同或是实质性的相似。

因此，在讨论生成式AI是否会侵权、侵权之后又由谁来承担责任的话题时我们得确定我们在聊哪一端。

输入端，

AI“学习”读书人的事能算侵权吗？

当我们在问，AI海量学习资源时有没有获得授权，如果没有获得授权构不构成著作权侵权的时候，有没有考虑过这样一个问题？人类本身，也是通过大量的学习，进而完成创作的，并且名曰模仿是学习的第一步。

那么，为什么我们不会去问人类本身在大量学习资源时，有没有获得授权，没有获得授权构不构成著作权侵权？

答案在于著作权的“合理使用”制度。

《著作权法》第二十四条明确规定了，为个人学习、研究或者欣赏，可以不经著作权人许可，不向其支付报酬的使用他人已经发表的作品。所以，人类学习（人类的输入端）不构成著作权侵权。

然而，遗憾的是，AI不是人。

AI输入甚至需要投入数亿数十亿美金的成本，如此声势浩大又怎会是单纯学习欣赏，而是其大模型训练必备的产业步骤。

既然是产业步骤的一环，最终的落脚点在商业化，商业化就不能适用合理使用制度，自然就有了构成侵权的可能性与必要性。

“学习”，多少猫腻，假汝之名。

AI输入VS著作权

AI开发一般可以归纳为：确定目的、准备数据、训练模型、评估模型、部署模型。数据准备主要是指收集和预处理数据的过程[1] 。实践中，大量的数据准备来源于爬虫技术，而爬虫技术的滥用在对侵犯著作权、非法获取个人信息、非法侵入计算机信息系统、非法获取计算机数据等行为都可能构成刑事风险，爬虫技术的滥用不是AI生成物的新鲜事，具体的风险小伙伴们可以转战《一川知识点丨“爬虫”的13条合规边界》。

如上图，AI开发的过程需要对原始数据（视AI的功能和目的而定，可能包括文字作品、美术作品、摄影作品、视听作品等，也可能包含不构成作品的客观事实、法规条文及其他数据等）进行复制、数据清洗、格式转换等等操作，以形成一个用来训练AI模型的数据集。

对照著作权法，《著作权法》第十条规定的复制权，即以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。也就是说，在为AI备餐时，是有可能会复制他人作品的。

2023年8月15日施行的《生成式人工智能服务管理暂行办法》第七条明确规定，生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动（即输入端）涉及知识产权的，不得侵害他人依法享有的知识产权。

所以得出结论，AI输入端，若在准备数据环节复制了他人作品，就会存在侵犯著作权的风险。

生成式AI技术的发展

与知识产权的平衡

知识产权是利益平衡之法，上文从现有法条以及技术的推衍中得出存在侵权之风险。但AI已经成为科技强国同台竞技的重点领域，新时代的大门已经打开，各国究竟如何取舍？

2023年6月，日本宣布不会对AI输入端使用的数据实施版权保护，训练AI可以使用任何数据，这使得日本成为AI开发者的天堂。

同样在2023年6月，欧洲议会表决通过相关草案，要求披露AI在训练模型过程中，用了哪些受版权保护的数据。慢吞吞的欧洲少见地快速出台关于AI的监管框架甚至引起了OpenAI开发者的不满。

在英国与美国，也有大量艺术家、图像视频公司与AI公司产生了关于输入端训练素材使用的诉讼。

各国的做法截然不同，本质上关乎的只是利益的取舍。从我国现有法律来看，AI输入端对于素材和数据的使用是存在侵犯著作权的风险，但这关乎于技术本身，也关乎于大力鼓励AI发展的大背景之下是否会存在风向的变化。

输出端，侵权与否的判断标准

没有想象中的简单

相较之于输入端的纷繁复杂，输出端的判断看似简单不少。简单粗暴一点的做法就是甭管AI如何输出的，输出的东西是否于他人在先的作品构成相同或是实质性相似？

如果答案为是，则侵权；答案为否，则不侵权。

可这套标准却仍然会面临以下问题：

问题1:“接触”+“实质性相似”中的“接触”还要不要？

著作权侵权也得遵循侵权的主观故意，而创作是可能存在相同表达之巧合的。在人类创作的领域，尤其对于未公开发表的作品如果没有接触的可能，是较难认定为著作权侵权的。而AI带来了新的问题，输入端滥用的技术甚至可能获取到他人未发表的作品，AI什么都接触的到，所以在侵权认定上只能大大放宽对于接触的要求，甚至要求AI开发方举证相似作品不在训练数据集中来抗辩“未接触”，才能得以对著作权人进行保护。

问题2:侵权责任方是谁？

AI生成的内容侵权著作权人权利时，究竟是开发者的原罪还是使用人的不当？这个问题似乎也得区分具体的情形。

如果，使用者“将金庸小说中的人物名字和关系作为关键词一一输入给AI，要求其生成一篇这些人物穿越到校园后的青春小说（请自行联想此间的少年）”，此时如果构成侵权，责任方应当为AI的使用者。

又如果，使用者只是将输入了“写一本武侠世界穿越到现代校园的的青春小说”，AI自动调用了金庸世界的人物及关系形成了一本小说，此时如果构成侵权，责任方为AI的开发者就会显得更合理。

但进一步，使用者输入了“请利用金庸小说为基础，写一本穿越到现代校园的的青春小说”，责任方是谁？是开发方未经授权喂了金庸小说全集？还是AI从搜索引擎域进行了调用？AI使用者是否存在恶意引导？大量的问题在实践中需要各自举证去抗辩没有侵权的故意，其中还将伴随着各种举证责任的分配。

做个总结，即便在输出端，侵权与否的核心在于是否构成实质性相似不存有异议，但在具体个案中责任的承担，与举证义务的分配，举证的策略都将对案件产生深远影响。

结语

争议解决的有趣性

争议解决的有趣性有时就来自于不可测战场的争夺，即便对于存在多年的传统问题仍然可以结合个案产生立场迥异的各方解读，而对于新生事物连方向性本身都可以争论，有充分的空间供大家共想象、共研究、共探讨。

灰常有意思。

注释：▼

[1]详见https://www.huaweicloud.com/zhishi/dls4.html，《什么是AI开发》。