一、当我们在评估AI内容检测工具的能力时，我们需要考虑哪些因素？

（一）技术方面

1. 准确性：AI检测工具需要准确区分AI生成内容与人类创作内容，确保低误报和漏报率。除非工具能提供AI生成的概率，而不是简单的二元答案，“误报率1%”在很多应用场景下，如垃圾检测或教育中，可能仍然不够好。

2. 抗规避能力：检测工具应该能够抵御故意规避检测的尝试，如文本改写或图片裁剪等常见手段，不容易受到此类攻击影响。

3. 抗伪造能力：虽然伪造可能不是主流攻击，但在某些情况下，检测工具需能够处理试图伪造人类创作内容或将一个AI模型的创作冒充为另一个模型创作的挑战。

4. 保持内容质量：一些检测工具可能依赖于在内容中引入可检测的特征，这可能影响生成内容的质量。

5. 检测部分AI生成内容：在AI模型与人类协作时内容可能既非完全AI生成也非完全人类创作，工具需能够识别内容中AI生成与人类创作的比例。

（二）政策方面

1. 是否具有通用性：工具能否识别所有AI生成内容，还是仅限于特定AI模型。

2. 是否需开发者合作：非通用工具需开发者合作，包括开发者成本、知识产权考虑、检测工具在开发者退出市场后的可用性保障，以及国际协作的必要性。

3. 是否与开源模型兼容：开源发布会削弱某些检测工具效果（由于任何人都可以下载该开源模型并在其个人机器上运行，原始模型开发人员不再对模型生成的内容有任何控制权），且需要开发者参与的工具可能与开源发布不兼容。

4. 对隐私的影响：构建或使用工具是否对AI模型用户或第三方隐私有重要影响。

5. 工具是否易于信任：不依赖第三方且能让非技术用户简单操作后即可检测。

二、常见的四种检测方法

目前市面上有四种主要的检测AI生成内容的方法：

1. 水印：即在内容中嵌入可识别的图案/文字/其他格式，以追踪其来源。

2. 生成后检测（Post-hoc Detectors）：依靠机器学习模型来识别AI生成内容中与人类创作内容的不同。

3. 基于检索的检测（Retrieval-based detection）：将所有AI生成的内容存储在一个可查询数据库中以确认内容的出处。

4. 内容溯源（Content Provenance）：在内容的元数据中嵌入和维护来源信息。

三、水印

水印是指在媒体作品中嵌入一个识别图案（pattern）以追踪其来源的过程。历史上水印技术已被广泛应用于实体照片或文件，而数字媒体的出现推动了数字水印技术的发展，应用于图像、音频、视频以及数字文本。

实际上，数字水印并不是一种单一技术，而是一个涵盖了多种不同方法的统称，用于在数字媒体中嵌入图案。复杂的水印技术能够嵌入人眼难以察觉的细微模式（类似于独特的写作或艺术风格），因此通常只能由计算机检测（存在一定的错误可能性）。目前公认最优秀的水印技术是“统计水印”和基于机器学习的水印，不过未来的研究可能会发现其他有前景的方法。

（一）水印的类型

1. 显式水印（Visible Watermarks）

最简单的数字水印是给图像添加可见标签、给音频片段添加独特声音或给文本添加引文。

2. 隐式水印（Invisible Watermarks）

3. 统计水印（Statistical Watermarks）

统计水印，也是隐式水印的一种，其不是在文本或音频/视频内容中嵌入明确的标记，而是嵌入统计上特殊的单词/像素/声音排列。

原理

简单来说，统计水印的核心思想是在内容生成过程中引入一点随机性，以留下一个可以被后续检测到的“指纹”。

生成过程：在AI生成内容时嵌入一个隐藏的统计模式，由于生成式模型在响应用户提示（prompt）时通常有一定的自由度，模型开发者可以定义一个特定的统计模式，使某些特征或模式在AI生成的内容中更频繁地出现，从而相当于在内容中留下一个隐藏的标记（即水印）。

检测过程：首先计算这些特定模式在没有人为干预的情况下自然出现的概率，越不可能随机出现的特征，越能说明它们是由某种特殊程序刻意生成的，从而确认内容的来源。

优势

（1）不易被删除或伪造（如马里兰大学开发的一种"tree-ring watermarks"，即使图片裁剪、模糊、旋转都不影响水印）；

（2）不会明显降低内容生成的质量。

局限性

统计水印的应用受到AI模型输出中随机性空间的限制

（1）由于音频/视频内容生成的呈现方式更多样，其有足够的随机空间嵌入统计水印，相对来说更易实现。

（2）对于文本，有些类型的文本比较容易添加水印，比如儿童故事的写法有很多种，因此有足够的随机空间；而有些类型的文本不容易添加水印，比如代码或数学题答案，因为正确的结果可能只有一种，随机性空间不足，相对来说更难嵌入统计水印。

（二）AI水印的五个挑战

1. 带来新的用户隐私问题

虽然目前AI 公司无需在其水印中包含任何可识别的用户信息，但出于追责的考虑，水印可能不仅追溯到模型，还可以追溯到用户，这可能会侵犯用户的隐私，尤其是如果用户对此并不知情的时候。

如果这种带有用户信息水印的AI生成物，需要交由第三方检测，那么第三方机构也会承担很大的用户数据保护责任。比如检测完是直接删除文件还是保留下来用来优化检测工具，如果保留如何获得授权？

2. 缺少通用的AI水印检测方案

一个模型开发人员实现的水印只能验证某个内容是否由该模型生成（如Google 的 SynthID 只能检测由 Google 的图像 AI 模型嵌入的水印）。而在该情况下，如果要检查某个内容是否含有任何 AI 模型的水印，则需要尝试每种 AI 模型的检测协议。

3. 嵌入水印依赖AI模型开发者的配合

确保水印不易被移除或伪造需要模型开发者将水印生成方案的关键细节或组件保密。

需要确保即使模型开发者停止提供某个特定的 AI 模型服务，其AI 模型的水印检测服务仍然存在，因为由该模型生成的内容将继续在互联网上传播。

由于数字内容可以跨国界传播，各国监管者可能还需要获得外国模型开发者的合作，以确保他们的模型输出也被水印标记。

4. 开源AI模型本地化部署之后易被篡改

开源的 AI 模型默认在其内容中嵌入了水印，用户在下载模型到个人机器后，只需删除几行代码就可以轻松禁用水印生成。此外，开源开发者没有明确的机制来确保关键的水印方案细节对用户保密，同时又能让水印检测器访问。

5. 保密的悖论

如果出于保密原因，水印检测需要由模型开发者或第三方进行，那用户无法独立验证水印的存在，必须依赖并信任那些提供检测服务的组织，此时哪些组织可以承担起这个信任责任是一个需要思考的问题。但如果水印检测的细节公开发布，虽然个人能够直接验证水印的存在，却又会增加水印被去除或伪造的风险。

（三）谁来负责AI水印检测工作？

1. 用户

如果将检测责任交给用户自己，效果会很差，因为需要到各个AI模型的网站分别检测，费时费力，效果差。

2. 统一的检测平台

（1）两项责任

维护水印模型注册表：建立一个水印模型注册表将有助于用户一次查询所有“已知”的 AI 检测服务。

保密性：影响水印协议治理的一个主要问题是，水印检测方案是否可以公开，还是必须保密以防止水印被移除或伪造。直观上讲，公开披露水印模式可能会使人们通过逆向工程检测器或通过试错来人工移除或伪造这些模式变得容易。当不公开需要保密时，就需要模型开发者与该平台分享其水印方案的敏感细节，甚至可能包括生成式AI模型的技术细节（这取决于水印方案），此时模型开发者一定会在安全保证的情况下，才会分享。

（2）收费对象的选择

此外，也需要考虑如何持续运营该平台，需要考虑是否需要收费以及向谁收费？

向用户收费：

每次检测收费可以有效限制“暴力攻击”。这种攻击是指不断修改和编辑带水印内容，以试图欺骗检测器让其漏检水印。通过对每次检测进行收费，用户的持续尝试会受到经济上的限制，从而减少攻击的可能性。

同时，如果模型开发者可以收到部分检测费用，这可以激励模型开发者注册到这个组织。

向开发者收费：

如果认为免费或低成本使用这些服务是用户的权利，模型开发者可能需要支付会费以保持组织的运营。这样做有助于确保模型开发者不会将已停止模型的水印检测服务的责任转移给第三方，但却不给予足够的资金支持。

（四）尚待解决的政策问题

1. 支持水印标准的开发：

政策制定者应支持水印技术的进一步研究，以克服现有局限，并建立评估水印方案质量和稳健性的基准。同时需要行业、学术界和社会团体在技术水印标准上达成一致，并倡导国际协调。水印方案的成功应用依赖于进一步的技术进展。

2. 确定需要水印的场景：

需要快速识别哪些AI模型或应用场景需要实施水印。有些应用可能不适合水印，例如不直接生成内容的商业应用或研究使用的学术模型。

3. 明确开源发布的责任：

水印在开源模型中的实施具有挑战性，因为其很容易被恶意使用人规避。应该明确开源模型的水印责任，或将监管重点放在公开发布或商业用途的开源模型上（尽管恶意行为者可能会忽略这些责任），或是要求开源模型将其水印内置到模型训练时的权重中，而不是在用户发来用户指令后的生成期间嵌入，以防用户轻松禁用或篡改。

4. 塑造水印检测服务的发展：

需要创建和监督一个可信实体来维护水印方案注册或运营水印检测服务，同时加强国际协调以确保其有效。

5. 建立水印检测连续性计划：

即使AI模型开发者停止提供某个模型或模型开发公司破产，仍需确保能够检测之前生成的内容。

6. 明确隐私保护：

政策应规定水印检测服务如何处理提交的数据，防止存储或出售这些数据，并明确水印中是否应包含用户信息。

四、水印之外的三种检测方法

（一）生成后检测（Post-hoc Detectors）

通过机器学习，试图识别AI生成内容与人类创作内容之间的系统性差异。

优势

（1）无需提前干预：AI模型生成内容时无需进行任何干预，而是在内容生成后进行检测验证。

（2）通用性：部分文本检测工具（如 OpenAI 的 AI Classifier、GPTZero）可跨模型检测。

（3）隐私友好：不涉及用户数据存储或隐私侵犯问题（如水印可能包含用户信息的风险）。

劣势

对于文本检测：

（1）准确性不足：OpenAI 已关闭其检测工具AI classifier，因其误报率过高（如将《美国宪法》误判为 AI 生成），而不够准确的AI检测工具可能不公平地指责学生作弊或将非英语母语者的写作标记为AI生成的垃圾信息，造成实质性的歧视或伤害。

（2）易被篡改：通过简单改写（paraphrasing）即可绕过检测，例如 DetectGPT等工具对修改后文本的识别能力显著下降。

对于图像、音频、视频检测：

在图像和视频领域，针对 “深度伪造”的AI人像，检测工具准确率可达 95%-96%，但对其他类型的AI生成内容（如图像创作）效果有限。但即便是5%的失败率，对千万级的内容平台来说错误率仍然太高。

有人可能会认为，即使后期检测器现在不太好，只是时间问题，技术会进步到足够可靠和实用。但情况可能恰恰相反，随着AI模型能力的不断增强，AI可以生成更加真实的写作和视听媒体，AI生成的内容更容易骗过检测器。

（二）基于检索的检测（Retrieval-based detection）

基于检索的检测通过以下方式识别 AI 生成内容：

（1）内容存储：模型开发者需将生成的 AI 内容（文本、图像、音频 / 视频）存储于专用数据库中。

（2）语义匹配：当用户提交内容查询时，系统通过语义分析（而非精确匹配）比对数据库，判断内容是否与已有 AI 生成内容存在关联。

优势

（1）准确性较高：在文本检测中，基于检索的方法比后验检测更可靠（如网页提到 “比后验检测更准确”）。

（2）直接溯源：可追溯内容的原始生成模型及时间，适用于法律或版权纠纷场景。

（3）语义匹配潜力：通过语义分析，可识别深度改写或非精确复制的 AI 生成内容。

劣势

（1）隐私风险：

数据存储：需长期存储用户生成内容，可能违反最小化数据收集和存储要求。

用户知情权：用户可能无法选择退出存储，或对数据用途缺乏透明度。

（2）成本高：

存储海量 AI 生成内容（尤其是高分辨率图像 / 视频）需高昂的存储成本。

国际合作时，跨国数据存储还需遵守不同国家法规。

（3）通用性不足：

依赖模型开发者：需模型方主动参与存储与维护，对开源模型或小型开发者不友好。

跨模型检测困难：无法跨模型通用，需独立数据库覆盖所有 AI 模型，管理成本极高。

（三）内容溯源（Content Provenance）

内容溯源通过在元数据中记录内容的来源、修改历史及关键信息，实现对内容的全生命周期追踪，此技术之前被用于打击在线虚假信息。

（1）标准化：由微软、Adobe 等技术和媒体公司组成的内容溯源与真实性联盟（C2PA），其定义了统一的元数据结构，涵盖内容生成时间、地点、作者、修改记录等，并可整合水印信息。

（2）加密保护：采用加密技术确保元数据不可篡改，任何对文件的修改均会被标记。

（2）跨平台兼容性：支持多平台（如社交媒体、编辑软件）读取元数据，用户可直接验证内容的原始来源与修改路径。

（3）匿名性：允许匿名内容存在，但仍保留技术手段追溯其生成路径（如通过设备指纹或模型标识）。

优势

在对抗虚假信息（如深度伪造视频）时，可快速定位原始内容，区分 “篡改版本” 与 “真实版本”。

劣势

（1）易被规避：恶意用户可通过复制内容（如截图、转录音视频）、去除元数据或重新生成文件绕过溯源机制。在垃圾邮件、考试作弊等场景中，用户可能完全忽略或破坏元数据，导致溯源系统无法发挥作用。

（2）依赖行业共识：若缺乏广泛采用（如非主流平台不支持该标准），则生成内容将缺乏有效的溯源信息，技术效用受限。

附：四种检测方式对比

编译整理：陆天渊

来源：Detecting AI fingerprints: A guide to watermarking and beyond

https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/#watermarking-in-theory

AIGC检测的方法，水印的局限和出路