机器学习技术不断发展,在许多领域都有广泛的应用并展现出超出人类本身的能力。但机器学习方法利用不
当或决策存在偏差,反而会损害人们的利益,特别是在一些敏感安全需求高的领域,如金融、医疗等,人们越来越
重视机器学习的可信研究。目前,机器学习技术普遍存在一些缺点,如对代表性不足的群体存在偏见、缺乏用户隐
私保护、缺乏模型可解释性、容易受到威胁攻击等。这些缺点降低了人们对机器学习方法的信任。尽管研究者已针
对这些不足进行了深入探索,但缺乏一个整体的框架与方法系统地提供机器学习的可信分析。因此本文针对机器学
习的公平性、可解释性、鲁棒性与隐私 4 个要素归纳总结了现阶段主流的定义、指标、方法与评估,然后讨论了各
要素之间的关系,并结合机器学习全生命周期构建了一个可信机器学习框架。最后,给出了一些目前可信机器学习
领域亟待解决的问题与面临的挑战。
机器学习是人工智能领域的一个重要分支,是
对通过学习经验数据提高计算机系统或算法性能以
适应各种环境和任务的研究[1]。该方法作为当今发
展速度最快的技术之一,受到了学界和业界的广泛
关注与认可,在各行各业都得到了广泛的应用[2],
在图像识别、自然语言处理、数据挖掘与预测等关
键任务上都展现出了超越人类的能力[3]。随着机器
学习在大众生活中的不断渗入与广泛应用,人们越
发依赖其做出的关键决策。但如果机器学习方法利
用不当或给出决策存在偏差,反而会损害人们的利益。因此机器学习的可信赖性越发受到人们的重
视,以公平性、可解释性、鲁棒性和隐私为要素的
机器学习可信特征越发成为热门研究领域[4-5]。
机器学习的全生命周期可以分为预处理 (preprocessing) 、中间处理 (in-processing) 和后处理
(post-processing) 3 个阶段[6]。预处理阶段主要是对
训练数据进行管理,如数据收集、数据预处理等;
中间处理阶段主要是对模型或算法进行选择、调整
和优化;后处理阶段主要是对测试模型和数据的处
理,如模型泛化性验证、模型输出结果校准等。
在不同的阶段,机器学习可信特征对应的问题
和方法也不尽相同。例如,公平性中消除偏差机制
在预处理阶段表现为消除原始训练数据中敏感特征
信息;在中间处理阶段表现为在机器学习模型中添
加约束或正则项;在后处理阶段表现为校准机器学
习算法输出结果[7-9]。可解释性大致可以分为事前
(ante-hoc) 可解释性和事后 (post-hoc) 可解释性[10]。
事后可解释性在预处理阶段表现为对模型输入的解
释,如数据提取逻辑解释等;在中间处理阶段表现
为对模型本身的解释,如模型结构和参数信息解释
等;在后处理阶段表现为对模型输出的解释,如模
型诊断、特征评估等。隐私中隐私泄漏问题在预处
理阶段表现为收集大量训练数据导致的直接隐私泄
露;在中间处理阶段表现为模型泛化能力欠缺导致
的间接隐私泄漏[11]。
目前,对机器学习可信特征 4 种要素的研究存
在很多能够改进完善的空间,且缺乏一种统一的用
于评估机器学习模型可信度的标准和系统[4, 12]。本文
旨在归纳整理目前可信机器学习的研究现状,明确
可信特征各要素的定义、分类与应用,构建一种统
一的可信机器学习阶段评估模型,为后续可信机器
学习相关研究提供研究思路和方向。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料