【斯坦福大学博士论文】个性化机器学习的理论进展

机器学习模型通常在静态环境中开发，其目标明确且数据集经过精心筛选。然而，实际部署时，这些系统与用户的交互会同时影响模型学习与用户行为。此类动态场景引发三大核心挑战：

个性化与非个性化训练的权衡：数据聚合提升统计效率，但牺牲用户个性化；

用户行为影响的量化方法：当算法决策以混淆标准评估的方式改变未来数据分布时，如何衡量系统效应；

约束条件下的算法设计：突破传感器限制、样本稀缺性及隐私问题等系统约束，实现规模化有效个性化。

本论文构建了理论模型以形式化聚合-个性化权衡关系，阐明有限数据下个性化提升性能的条件与机制；提出时序感知的观测因果推断框架，分离算法干预与混杂因子的效应；开发兼顾系统约束与隐私保护的可扩展算法。这些成果为理解用户偏好对模型训练与部署的双向影响奠定基础，揭示了学习算法如何与用户偏好相互塑造的动态规律。

在机器学习研究中，模型的构建、训练与评估通常遵循静态封闭范式——预设的损失函数、精心筛选的数据集以及严格的测试集验证机制，推动了自然语言处理、计算机视觉等领域的重大突破。然而，这种受控实验忽略了算法与人类用户交互时产生的动态效应。

实际应用中，机器学习系统的目标往往超越研究中常用的用户无关性能指标。以推荐系统为例，为满足用户群体的多样化偏好，系统必须提供个性化输出，由此引发数据聚合与个性化的本质矛盾：

聚合数据可提升整体数据可用性，增强模型泛化性能，但会牺牲个性化；

个性化输出能提高用户满意度，却会减少单用户有效样本量，限制模型学习能力。

尽管已有诸多方法试图平衡这一矛盾，但何时以及如何权衡二者仍缺乏理论指导。

机器学习模型对用户行为和消费模式的反馈效应同样未被充分认知。监管机构日益关注算法决策的社会影响量化（如推荐系统如何加剧信息茧房或诱导过度使用）。该问题本质上是因果推断问题，但传统观测因果推断方法在数字平台场景中往往失效——用户历史交互数据会混淆算法决策与后续行为的因果关系。由于算法基于用户历史数据调整输出，我们难以区分用户行为变化究竟源于算法干预，还是既有偏好。随机对照试验（RCT）虽可解决此问题，但其依赖平台合作且成本高昂，还存在伦理风险[Kramer et al., 2014]。

针对这些挑战，本论文构建了双向影响理论模型：

聚合-个性化权衡模型：揭示机器学习系统中平衡两类目标的时机与机制；

时序感知因果框架：破解用户-算法反馈环的混杂效应，为监管者提供无需RCT的社会影响量化工具；

约束条件算法创新：克服传感器限制、样本稀缺、隐私保护等实际障碍，确保个性化在复杂环境中有效落地。

这些理论分析与算法创新共同构成了用户偏好与机器学习系统双向塑造的研究框架，为动态交互场景下的模型部署提供新范式。

专知便捷查看，访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/a2e9f7a21a98531b2b5f841ff2a33af1

点击“阅读原文”，查看下载本文