【专治AI偏见,MIT新技术让数据处理更公平】
#机器学习# 模型在进行预测时,可能会出现偏差,尤其是在数据集中某些群体的代表性不足的情况下。
举个例子,一个用于预测#慢性病# 患者最佳治疗方案的模型,可能是在一个主要包含男性患者的数据集上训练的,当这个模型被应用到医院时,它可能会对女性患者做出不准确的预测。
为了改善预测结果,工程师通常会通过移除一些数据点来平衡训练#数据集# ,直到所有子群体的代表性相对均衡。虽然这种数据集平衡方法有潜力,但它通常需要删除大量的数据,这可能会影响模型的整体表现。
近期,MIT 的研究人员开发了一种新技术,能够识别并移除那些对模型在少数群体中表现不佳贡献最大的训练样本。与其他方法相比,这项技术只需删除较少的数据点就能保持模型的整体准确性,并且在少数群体中的表现得到显著改善。
此外,这项技术还能够识别训练数据中潜在的偏差来源,尤其是在没有标签的数据集上。毕竟,在很多应用场景中,无标签数据比有标签数据更为常见。
戳链接查看详情:专治AI偏见,MIT新技术让数据处理更公平
#机器学习# 模型在进行预测时,可能会出现偏差,尤其是在数据集中某些群体的代表性不足的情况下。
举个例子,一个用于预测#慢性病# 患者最佳治疗方案的模型,可能是在一个主要包含男性患者的数据集上训练的,当这个模型被应用到医院时,它可能会对女性患者做出不准确的预测。
为了改善预测结果,工程师通常会通过移除一些数据点来平衡训练#数据集# ,直到所有子群体的代表性相对均衡。虽然这种数据集平衡方法有潜力,但它通常需要删除大量的数据,这可能会影响模型的整体表现。
近期,MIT 的研究人员开发了一种新技术,能够识别并移除那些对模型在少数群体中表现不佳贡献最大的训练样本。与其他方法相比,这项技术只需删除较少的数据点就能保持模型的整体准确性,并且在少数群体中的表现得到显著改善。
此外,这项技术还能够识别训练数据中潜在的偏差来源,尤其是在没有标签的数据集上。毕竟,在很多应用场景中,无标签数据比有标签数据更为常见。
戳链接查看详情:专治AI偏见,MIT新技术让数据处理更公平