研究结果表明,“阿谀奉承”行为在 RLHF 模型中普遍存在,且很可能部分受到人类偏好对“阿谀奉承”回应的影响。
具体来说,AI 模型表现出这种行为的一个主要原因是,当 AI 的回复符合用户的观点或信仰时,用户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好用户的行为。
阿谀奉承,最先进的 AI 助手都会
目前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产生人们高度评价的输出。使用 RLHF 对语言模型进行微调可以改善它们的输出质量,而这些质量由人类评估员评价。
然而,有研究认为基于人类偏好判断的训练方案可能以不可取的方式利用人类判断,如鼓励 AI 系统生成吸引人类评估员但实际上有缺陷或错误的输出。
目前尚不清楚上述情况是否会发生在更多样化和现实情境中的模型中,以及是否确实是由人类偏好中的缺陷所驱动的。
为此,该研究首先调查了最先进的 AI 助手在各种现实情境中是否提供阿谀奉承的回应。在自由文本生成任务中,研究人员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助手中识别了阿谀奉承的一致模式。