社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT版权第一案:OpenAI面临六项指控,因输出图书摘要被“抓包”

腾讯科技 • 1 年前 • 224 次点击  
《AI未来指北》栏目由腾讯新闻推出,邀约全球业内专家、创业者、投资人,探讨AI领域的技术发展、商业模式、应用场景、及治理挑战。

文/ Kaysen

编辑/ 晓静

2023年6月28日,第一起具有代表性的ChatGPT版权侵权之诉,终于出现在了公众视野。两名作家在美国加州北区法院,对Open AI公司发起了版权集体诉讼,指控后者未经授权利用自身享有版权的图书训练ChatGPT,谋取商业利益。

原告Paul Tremblay和Mona Awad居住于马萨诸塞州,分别享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版权;被告Open AI创建和运营了生成式人工智能产品ChatGPT,目前主要由GPT-3.5和GPT-4两个底层大语言模型驱动。

起诉状指出,虽然原告没有授权Open AI使用自身享有版权的图书进行模型训练,但ChatGPT却能够根据prompts指令输出图书的摘要,而这只有在被告将涉案图书纳入语料库加以训练才可能发生。


01

因为输出图书摘要而被“抓包”

原告表示,Open AI训练数据集中收录的大量内容属于版权保护的作品,这其中便包括原告享有版权的图书。但Open AI既没有经过原告的同意,也没有标明内容来源、支付必要的费用。而原告出版的图书具有明确的版权管理信息,包括出版号、版权号、版权人姓名以及使用条款等。

原告从既有的事实和信息可以推断,ChatGPT之所以可以准确生成特定图书的摘要,唯一可解释的原因便是Open AI获取、复制了涉案图书,并用于旗下大语言模型(GPT3.5 或GPT4)的训练。

原告测试发现,当通过prompts的方式要求ChatGPT总结两部涉案图书时,ChatGPT可以生成较为准确的摘要(虽然也存在少量的错误内容)。这表明ChatGPT保存了被训练数据集中特定作品的内容,并能够输出对应的文本。与此同时,ChatGPT通过对大语言模型内容生成原理的设计,输出内容并不会包含原有的版权管理信息。

02

“ChatGPT,你是如何运行的!”

本案有意思之处在于,原告证明Open AI侵权的过程中,对于ChatGPT基本原理的介绍,是建立在同ChatGPT对话,让其“进行自我介绍”的基础之上。具体内容总结如下。

Open AI至今已经公开了一系列的大语言模型,包括GPT-1(2018·6)、GPT-2(2019·2)、GPT-3(2020·5)、GPT-3.5(2022·3)以及最新的GPT-4(2023·3)。通常来讲,人工智能软件旨在借助统计学方法,通过算法模拟人类的逻辑和推理。大语言模型则是一类专门的人工智能软件,用来解析和输出自然语言。

一方面,Open AI以每个月20美元的价格将ChatGPT通过网络页面的方式提供给用户。使用者可以选择两个版本的ChatGPT,GPT-3.5模型或者更新后的GPT-4模型。另一方面,ChatGPT也以API的方式提供给软件开发者。API接口允许开发者撰写程序用于和ChatGPT进行数据交换,在此情况下则是按照使用量来计费。

不管是以页面还是API方式提供服务,ChatGPT都会积极响应用户的prompts请求。如果用户向ChatGPT提问,它会给出答案;如果用户向ChatGPT下指令,ChatGPT会执行;如果用户要求ChatGPT总结一本图书的摘要,ChatGPT依然会照做。

03

图书是大模型训练的核心语料

原告着重论证的观点是,不同于传统软件是由工程师撰写代码而成,大语言模型则是通过“训练”的方式研发——收集不同来源的海量内容语料并“投喂”给模型,这些语料被称为训练数据集(training dataset)。

大语言模型会不断调整自身的输出,尽可能的接近被训练作品中的文字组合顺序。值得关注的是,虽然很多内容都被用来训练大语言模型,但图书一直是训练数据集中核心的语料素材,因为其提供了高质量长篇写作的最佳范例。

在2018年6月发表的企业论文《通过生成式预训练提升语言理解力》中,Open AI披露GPT-1的训练依赖于“BookCorpus”的数据集。“BookCorpus”包含7000本涉及探险、奇幻、浪漫等不同领域的图书。Open AI指出,之所以图书作为训练语料尤为重要,是因为其包含了长篇幅的连续文本,这可以让生成式模型学习如何处理长文本信息的能力。

包括Open AI、谷歌、亚马逊等在内的众多人工智能研发企业,都利用“BookCorpus”进行模型训练。2015年,一个人工智能研究团队创建了该数据集,其包含的图书来源于Smashwords.com网站,但“BookCorpus”在收录这些图书时未获得版权人授权。

04

揭秘GPT背后的图书语料库

通过公开检索Open AI主动披露信息(企业论文)的方式,原告希望论证GPT系列模型的训练建立在,未经授权侵权利用海量图书内容的基础之上。在2020年7月发表的企业论文《语言模型是小样本学习者》中,Open AI披露GPT-3训练数据集中15%的内容,来源于两个名为“Books1”“Books2”的电子图书语料库。

虽然Open AI没有说明“Books1”和“Books2”内容的具体情况,但可以通过相关线索推断:第一,两个语料库均来自于网络;第二,两个语料库的规模均明显大于“BookCorpus”。根据Open AI的披露,“Books1”的规模是BookCorpus的9倍(约6.3万本书),Books2是42倍(约29.4万本书)。现实中,只有极少数的数据库能够提供如此规模的图书语料。
一方面,“Books1”大概率来源于“古登堡项目”或“古登堡语料库标准化项目”。“古登堡项目”(Project Gutenberg)是一个汇集“超过版权保护期限”的在线电子书库。2020年9月,古登堡项目宣布已经收录超过6万本书。因为不受版权保护,古登堡项目一直被广泛用作人工智能模型训练。2018年,一个人工智能研究团队在“古登堡项目”的基础上,创建了超过5万本图书的“古登堡语料库标准化项目”(Standardized Project Gutenberg Corpus)。
另一方面,“Books2”极大可能来源于网络上的“影子图书馆”。“Books2”数据集大约含有2.94万本书,只有饱受诟病的“影子图书馆”(shadow library),能够提供如此规模的图书语料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子图书馆”一词由美国社会科学研究理事会,在2011年发表的《新兴经济体中的媒体盗版问题》文章中创造,指代侵权收录大量书籍并向公众免费开放的网站。
2023年3月,Open AI发布GPT-4企业论文,但表示“出于行业竞争形势和产品应用安全角度考量,不再对训练数据集的结构和内容进行相关披露。”

05

Open AI面临的六项侵权指控

原告针对Open AI一共发起了六项指控,前三项涉及版权侵权,第四项涉及不正当竞争,第五和第六项涉及两类基本民事责任——注意义务和不当得利。

第一、版权直接侵权。原告没有授权Open AI对其图书进行复制、制作演绎作品,也没有授权Open AI公开展示、分发上述复制品或演绎作品。

此外,原告强调,因为Open AI大语言模型需要从原告图书中提取和保存表达性信息才能够运行,所以在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。

第二、版权替代侵权。原告强调,在缺乏授权的情况下,大模型每次输出的内容都构成侵权演绎作品。因为有权利和能力控制大语言模型的内容输出,并从中获得了经济利益,所以Open AI构成版权替代侵权。

在美国判例法体系下,“替代侵权”和“帮助侵权”“教唆侵权”共同构成了版权间接侵权的完整体系。间接侵权与直接侵权相对,意指侵权人虽然没有直接从事版权专有权利规制的行为(即版权直接侵权),但却为版权直接侵权提供了一定的助成条件。

第三、违反DMCA中版权管理信息的规定。从产品设计机制来看,ChatGPT输出的内容不会保留作品的“版权管理信息”(CMI),所以被告故意移除原告作品版权管理信息的行为,违反《数字千年版权法》(DMCA)的规定。此外,在未获授权的情况下,被告分发了不含有版权管理信息的侵权演绎作品,也违反了DMCA。

“版权管理信息”是一种能够识别有关作品权利人、权利归属和使用条件的相关信息。不管是在美国是我国,删除或改变版权管理信息,或向公众提供被删除或改变版权管理信息的作品,都构成违法。

第四、不正当竞争。Open AI未经授权使用原告受版权保护的作品进行模型训练,这一行为违反了《加利福尼亚州商业和职业条例》,因为其具有不正当性、不道德性、强迫性并损害了消费者利益。

被告有意设计了ChatGPT,可以在不标明内容出处的情况下,输出原告作品的片段和摘要。ChatGPT通过隐瞒作者、复制被侵权作品内容和观点的方式,研发商业产品获取不公平的利益和名声。

第五、过失侵权即违反注意义务。Open AI需要承担《加州民法典》规定的注意义务——所有人对于他人应当采取一种合理的行为方式。这一义务建立在行业惯例、商业实践、被告掌握的信息以及基于信息所拥有的控制能力基础之上。

被告一旦为了训练GPT模型而收集原告享有版权的作品,那么便需要负有一定的注意义务:当预见到未经授权将作品进行模型训练会对原告造成损害时,便不应再侵权利用这些作品。

第六、不当得利。原告为创作涉案图书付出了实质性的时间和精力。因为自身作品被未经授权的用来训练GPT模型,原告被剥夺了从作品中原本可以获利的权利。通过使用原告作品训练GPT模型获得商业利益,占据这些利益对于被告而言是不公平的。除非加以禁止或限制,被告的行为将会给原告造成难以弥补的损害。

写在最后:本案待探讨的三个问题。

作为ChatGPT版权侵权的首例代表性诉讼,加州北区法院做出正式判决仍将经历一个漫长的过程。但在此之前,针对原告起诉状中的具体内容,仍然有一些问题值得关注和思考。

关注一:发现模型侵权不容易。

大语言模型的训练本质上是一种机器内部的、非外显性作品利用行为,版权人存在发现自身作品被侵权的现实难题。一般来说,只能通过比对模型生成内容和自身作品存在实质性相似,倒推出模型训练阶段存在未经授权的作品利用行为。本案中,原告之所以能够指控自身图书被Open AI旗下的大语言模型侵权训练,便是从发现ChatGPT输出了自身作品的摘要,倒推而来。

但这一主张是否成立仍有待探讨。若ChatGPT输出的作品摘要,仅是建立自身在收集网络上原告图书公开介绍资料的基础上,而非直接对原告图书进行复制和训练,那么该侵权指控的正当性便会受到动摇。原告也承认ChatGPT输出的自身图书摘要存在少部分事实错误,一定程度也表明大模型可能并未完整的学习涉案图书。

关注二:侵犯何种权利待论证。

目前来看,虽然“作品数据的储存行为”形式上可以落入版权法“复制权”的规制范畴,但核心的“作品数据的训练行为”,是否侵权以及侵犯何种版权法上的权利尚未有一致结论。本案,原告强调大语言模型的正常运行和内容输出,建立在对作品语料的训练基础之上,所以大模型训练便构成版权侵权,大模型本身也构成侵权演绎作品。

这一主张亦仍有待探讨。除了少数类似于本案“以prompts方式要求概括、总结、翻译特定版权作品”这类特殊内容生成需求之外,绝大多数情况下大模型接收开放式内容生成指令(不限定特定作品、特定作家风格),基本不会输出特定作品甚至说特定作品的片段,也就不构成版权法上的侵权。

关注三:上下游责任需明确。

在大模型版权领域,模型研发者对于大模型本身享有相关权利,所以承担模型训练涉及的版权责任;而对于大模型输出的内容,从目前行业实践来看,通行做法是通过合同方式,明确权利和责任均属于使用者。在2023年7月10日,网信办发布的《生成式人工智能服务管理暂行办法》也明确认可,“提供者应当与使用者签订服务协议,明确双方权利义务。”

值得关注,从原告诉讼请求看,亦遵循了模型训练和内容输出两个阶段,权利责任二分的思路。原告对于版权直接侵权的主张,聚焦于Open AI模型训练阶段:一是,未经原告授权在模型训练过程中制作了图书的复制品;二是在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。原告对于ChatGPT输出内容侵权的指控,仅是主张Open AI构成版权间接侵权(替代侵权)。这也意味着对于大模型输出的内容,是由使用者承担版权直接侵权责任,因为其享有对应的权利。






腾讯科技完整编译

高盛关于人工智能潜力及影响的报告

👇🏻点击图片阅读👇🏻

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/160072
 
224 次点击