原告针对Open AI一共发起了六项指控,前三项涉及版权侵权,第四项涉及不正当竞争,第五和第六项涉及两类基本民事责任——注意义务和不当得利。
第一、版权直接侵权。原告没有授权Open AI对其图书进行复制、制作演绎作品,也没有授权Open AI公开展示、分发上述复制品或演绎作品。
此外,原告强调,因为Open AI大语言模型需要从原告图书中提取和保存表达性信息才能够运行,所以在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。
第二、版权替代侵权。原告强调,在缺乏授权的情况下,大模型每次输出的内容都构成侵权演绎作品。因为有权利和能力控制大语言模型的内容输出,并从中获得了经济利益,所以Open AI构成版权替代侵权。
在美国判例法体系下,“替代侵权”和“帮助侵权”“教唆侵权”共同构成了版权间接侵权的完整体系。间接侵权与直接侵权相对,意指侵权人虽然没有直接从事版权专有权利规制的行为(即版权直接侵权),但却为版权直接侵权提供了一定的助成条件。
第三、违反DMCA中版权管理信息的规定。从产品设计机制来看,ChatGPT输出的内容不会保留作品的“版权管理信息”(CMI),所以被告故意移除原告作品版权管理信息的行为,违反《数字千年版权法》(DMCA)的规定。此外,在未获授权的情况下,被告分发了不含有版权管理信息的侵权演绎作品,也违反了DMCA。
“版权管理信息”是一种能够识别有关作品权利人、权利归属和使用条件的相关信息。不管是在美国是我国,删除或改变版权管理信息,或向公众提供被删除或改变版权管理信息的作品,都构成违法。
第四、不正当竞争。Open AI未经授权使用原告受版权保护的作品进行模型训练,这一行为违反了《加利福尼亚州商业和职业条例》,因为其具有不正当性、不道德性、强迫性并损害了消费者利益。
被告有意设计了ChatGPT,可以在不标明内容出处的情况下,输出原告作品的片段和摘要。ChatGPT通过隐瞒作者、复制被侵权作品内容和观点的方式,研发商业产品获取不公平的利益和名声。
第五、过失侵权即违反注意义务。Open AI需要承担《加州民法典》规定的注意义务——所有人对于他人应当采取一种合理的行为方式。这一义务建立在行业惯例、商业实践、被告掌握的信息以及基于信息所拥有的控制能力基础之上。
被告一旦为了训练GPT模型而收集原告享有版权的作品,那么便需要负有一定的注意义务:当预见到未经授权将作品进行模型训练会对原告造成损害时,便不应再侵权利用这些作品。
第六、不当得利。原告为创作涉案图书付出了实质性的时间和精力。因为自身作品被未经授权的用来训练GPT模型,原告被剥夺了从作品中原本可以获利的权利。通过使用原告作品训练GPT模型获得商业利益,占据这些利益对于被告而言是不公平的。除非加以禁止或限制,被告的行为将会给原告造成难以弥补的损害。
写在最后:本案待探讨的三个问题。
作为ChatGPT版权侵权的首例代表性诉讼,加州北区法院做出正式判决仍将经历一个漫长的过程。但在此之前,针对原告起诉状中的具体内容,仍然有一些问题值得关注和思考。
关注一:发现模型侵权不容易。
大语言模型的训练本质上是一种机器内部的、非外显性作品利用行为,版权人存在发现自身作品被侵权的现实难题。一般来说,只能通过比对模型生成内容和自身作品存在实质性相似,倒推出模型训练阶段存在未经授权的作品利用行为。本案中,原告之所以能够指控自身图书被Open AI旗下的大语言模型侵权训练,便是从发现ChatGPT输出了自身作品的摘要,倒推而来。
但这一主张是否成立仍有待探讨。若ChatGPT输出的作品摘要,仅是建立自身在收集网络上原告图书公开介绍资料的基础上,而非直接对原告图书进行复制和训练,那么该侵权指控的正当性便会受到动摇。原告也承认ChatGPT输出的自身图书摘要存在少部分事实错误,一定程度也表明大模型可能并未完整的学习涉案图书。
关注二:侵犯何种权利待论证。
目前来看,虽然“作品数据的储存行为”形式上可以落入版权法“复制权”的规制范畴,但核心的“作品数据的训练行为”,是否侵权以及侵犯何种版权法上的权利尚未有一致结论。本案,原告强调大语言模型的正常运行和内容输出,建立在对作品语料的训练基础之上,所以大模型训练便构成版权侵权,大模型本身也构成侵权演绎作品。
这一主张亦仍有待探讨。除了少数类似于本案“以prompts方式要求概括、总结、翻译特定版权作品”这类特殊内容生成需求之外,绝大多数情况下大模型接收开放式内容生成指令(不限定特定作品、特定作家风格),基本不会输出特定作品甚至说特定作品的片段,也就不构成版权法上的侵权。
关注三:上下游责任需明确。
在大模型版权领域,模型研发者对于大模型本身享有相关权利,所以承担模型训练涉及的版权责任;而对于大模型输出的内容,从目前行业实践来看,通行做法是通过合同方式,明确权利和责任均属于使用者。在2023年7月10日,网信办发布的《生成式人工智能服务管理暂行办法》也明确认可,“提供者应当与使用者签订服务协议,明确双方权利义务。”
值得关注,从原告诉讼请求看,亦遵循了模型训练和内容输出两个阶段,权利责任二分的思路。原告对于版权直接侵权的主张,聚焦于Open AI模型训练阶段:一是,未经原告授权在模型训练过程中制作了图书的复制品;二是在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。原告对于ChatGPT输出内容侵权的指控,仅是主张Open AI构成版权间接侵权(替代侵权)。这也意味着对于大模型输出的内容,是由使用者承担版权直接侵权责任,因为其享有对应的权利。