[2] 根据《术语表》定义,RAG指从基座模型外部检索数据并加入上下文的方式来增强提示。RAG 可以有效地调整和修改模型的内部知识,而无需重新训练整个模型。详见报告第97页。
[3] 该图系报告所使用的示意图的翻译版本,展示了对抗性机器学习中针对PredAI系统的攻击分类概览。三个互不相交的圆代表了攻击者目标(Attacker’s objective),每个圆的核心代表了攻击者目的(Attacker’s goal)。圆环外围的扇形则代表了发动一次攻击所需的攻击者能力。攻击类别表示为与发动每次攻击所需能力相连接的标识(Callouts);基于同种能力达成同种目标的多个攻击类别显示在同一个标识中。需要不同攻击者能力达成同种目标的互相关联的攻击类别以圆点虚线表示。参见报告第6页。
[4] 根据《术语表》定义,对抗性实例指“受到篡改的、会导致机器学习模型在部署阶段做出不当分类(Misclassification)的测试样本。”详见报告第92页。
[5] 根据《术语表》定义,“能源效率攻击”是指“利用(机器学习)性能对硬件和模型优化的依赖性以抵消硬件优化效果、增加计算延迟、提高硬件温度并且大幅增加能耗的攻击行为”。详见报告第93页。
[6] 根据《术语表》定义,“后门规律”指“一种在数据样本中插入的触发模式,以诱导中毒模型产生错误分类”。详见报告第92页。
[9] Hongyan Chang等人的研究表明,为了抵消训练数据中的偏置(Bias)影响,对不同规模和分布的组给予同样的重视,可能与模型稳健性相冲突。参见Hong Chang, Ta Duy Nguyen, Sasi Kumar Murakonda, Ehsan Kazemi, and R. Shokri. On adversarial bias and the robustness of fair machine learning. https://arxiv.org/abs/2006.08669, 2020.
[16] 根据《术语表》定义,“功能性攻击”是指针对某一领域的一组数据而不是每个数据点进行优化的对抗性攻击。详见报告第94页。
[23] 根据《术语表》定义,“影子模型”是指一类模仿目标模型行为的模型,有关这些模型的训练数据集以及关于其构成信息的事实(ground truth)都是已知的。一般而言,攻击模型(attack model)以影子模型经过标签的输入和输出进行训练。详见报告第97页。
[30] 根据《术语表》定义,旁路攻击允许攻击者通过观察程序的非功能特征(如执行时间或内存),或通过测量或利用系统或其硬件的间接巧合效应(如功耗变化、电磁辐射),在程序执行时推断出私密信息。详见报告第97页。
[36] 该图系报告所使用的示意图的翻译版本,展示了GenAI对抗性机器学习攻击者目标(Aattacker’sobiective)分为四类:可用性破坏、完整性侵袭、私密性减损。此外,对于GenAI,由滥用(abuse)带来的危害也不容忽视。攻击者发起某类攻击所必需的能力在圆环外围表示;攻击类别以针对每一类能力进行的标识(callouts)表示。需要同种能力对于同种攻击目标发起的多类攻击以单个标识表示。参见报告第36页。
[37] 根据《术语表》定义,指模型在训练的最初阶段中,从大量无标签数据中习得总体模式、特征及关系。预训练通常通过无监督或自监督方式进行,作为精调阶段的前置步骤。详见报告第96页。
[38] 根据《术语表》定义,指使得预训练模型适应于特定任务或者特定领域的过程,紧随预训练阶段实施,需要将模型在领域专门的数据上进行进一步训练,通常以有监督学习方式进行。详见报告第94页。
[39] Nicholas Carlini. Poisoning the unlabeled dataset of Semi-Supervised learning. In 30th USENIX Security Symposium (USENIX Security 21), pages 1577–1592. USENIX Association, August 2021.
[64] 根据《术语表》定义,木马指“在软件或硬件系统代码中插入的恶意代码/逻辑,通常是系统所有者或开发者不知情或未征得其同意的情况下插入的。这种恶意代码/逻辑难以察觉,看似无害,但一旦攻击者发出信号,就会改变系统的预期功能并诱发攻击者所希望的恶意行为。触发器必须在正常运行环境下罕见,这样才不会影响人工智能的正常功能,也不会引起人类用户的怀疑。”详见报告第98页。
