反事实解释旨在确定输入实例中所需的最小且有意义的变化,以产生与给定模型不同的预测。
反事实解释可以帮助用户理解模型的当前预测,检测模型不公正,并为收到不希望预测的用户提供可操作的建议。因此,反事实解释在教育、金融、市场营销和医疗保健等领域有着多样的应用。
反事实解释问题被构建为一个受约束的优化问题,其目标是在满足某些约束的情况下最小化输入和反事实解释之间的成本。现有研究主要集中在两个领域:纳入实际约束和引入各种解决方法。然而,反事实解释距离实际部署还很远。在本论文中,我们从信任、可操作性和安全性的角度改进了这个问题,使反事实解释更易于部署。
反事实解释的一个目标是从模型中寻求行动建议。然而,常用的模型,如集成模型和神经网络,是黑盒子,信任度较低。解释模型可以提高模型的信任度。然而,全局解释过于笼统,无法适用于所有实例,而逐一检查所有局部解释也是一种负担。因此,我们提出了一种群体级汇总方法,该方法找到 k 个群组,每个群组通过特征重要性矩阵中不同的前-l 个重要特征进行汇总。这种方法提供了一个紧凑的总结,使模型更易于理解和检查。
在现实生活应用中,使用标量成本函数比较异构特征中的变化是困难的。此外,现有方法不支持用户的交互式探索。为了解决这些问题,我们提出了一种天际线方法,将每个不可比较特征的变化视为一个最小化目标,并找到一组非支配的反事实解释。用户可以从这个非支配集中交互式地细化他们的要求。我们的实验表明,我们的方法与最先进的方法相比提供了更优越的结果。
对于希望部署反事实解释服务的模型所有者来说,模型的安全性和隐私性是关键的考虑因素。然而,这些问题在文献中尚未受到太多关注。为了弥补这一差距,我们提出了一种高效且有效的攻击方法,可以通过反事实解释(CFs)提取预训练模型。具体来说,我们的方法将 CFs 视为寻找反事实解释的反事实解释(CCFs)的常见查询,然后使用 CFs 和 CCFs 对的配对训练替代模型。实验表明,我们的方法可以获得具有更高一致性的替代模型。
总之,我们的研究有助于弥合理论理解与反事实解释实际应用之间的研究差距,并为各个领域的研究人员和从业者提供宝贵的见解。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
点击“阅读原文”,了解使用专知
,查看获取100000+AI主题知识资料