2024年12月12日,英国信息专员办公室(ICO)发布了一份关于生成式AI中数据保护的咨询系列报告。今年1月,英国信息专员办公室(ICO)启动了关于生成式AI中数据保护的咨询系列,该系列资讯旨在解决有关《英国通用数据保护条例》(UK GDPR)和《2018年数据保护法》(DPA)的具体方面如何适用于生成式AI的开发和使用方面存在的监管不确定性。ICO收到了来自利益相关方的200多份高质量回复(192份来自组织的回复和22份来自公众的回复)。为此,ICO阐述了对这些领域的初步分析,以及希望就哪些立场进行咨询。此次发布的成果报告,其中详细介绍了ICO在生成式AI方面的政策立场,并阐明了行业仍需进一步开展的工作。
ICO研究了五个领域,包括:训练生成式AI模型的网页抓取合法基础,生成式AI生命周期中的目的限制,训练数据和模型输出的准确性,在生成式AI模型中融入个人权利,在生成式AI供应链中分配控制者责任。并据此在两个关键方面完善了我们的立场:一是用于训练生成式AI模型的网页抓取数据的合法基础,二是将个人权利融入生成式AI模型的设计中。ICO发现行业内严重缺乏透明度,尤其是在训练数据方面,而ICO的咨询回复显示,这种情况正在对公众对AI的信任产生负面影响。ICO提出,生成式AI的开发者们,是时候告诉人们你们是如何使用他们的信息了。这可能涉及提供易于获取且具体的信息,使人和出版商能够了解收集了哪些个人信息。若缺乏足够的透明度,人们将难以行使其信息权利,开发者也难以将合法利益作为其合法基础。ICO重申,生成式AI为英国带来了巨大潜力,而这一潜力的实现必须以负责任的方式进行,并适当考虑数据保护法。ICO已明确,生成式AI的开发者从一开始就必须将设计中的数据保护融入产品之中,这是没有任何借口的。合法依据与网页抓取
ICO认为,在训练生成式AI模型时使用网页抓取的数据,其合法依据主要依赖于“正当利益”(Legitimate Interests)。然而,开发者需要证明网页抓取是必要的,且能够通过正当利益的三重测试(目的测试、必要性测试、平衡测试)。
ICO强调,如果存在其他可行的数据收集方法(如直接从出版商处获取许可的数据),开发者应优先考虑这些方法,而非依赖网页抓取。
目的限制原则
ICO明确指出,在生成式AI的生命周期中,必须明确和具体地定义处理个人数据的目的。这包括训练模型的目的以及后续部署和应用的目的。
开发者需要对数据处理的兼容性进行评估,确保后续处理活动与原始收集数据的目的保持一致。
数据准确性与模型输出
ICO要求生成式AI开发者确保训练数据的准确性,并认识到模型输出可能受到训练数据质量的影响。
开发者需要评估并沟通模型输出中可能出现的错误和意外结果的风险,同时提供关于模型统计准确性的清晰信息。
个体权利的工程化
ICO强调,在生成式AI模型中必须有效实现个体的信息权利,包括访问、更正、删除等。
开发者需要设计系统时融入数据保护原则,并考虑在数据处理活动中集成必要的保障措施。
控制权的分配
ICO认为,在生成式AI的供应链中,控制权的分配应基于实际的控制和影响力,而非仅仅基于合同关系。
在“封闭访问”模型中,开发者和部署者之间可能存在共同控制权,因为他们可能对处理活动有共同的目标和影响力。