深度学习的蓬勃发展给统计学习理论提出了巨⼤挑战。具体来说,深度神经⽹络通常具有极⼤的容量,根据统计学习理论,这些⽹络应该会在训练数据上过拟合,在未曾⻅过的测试数据上表现出糟糕的泛化性能。然⽽⼤量证据表明事实并⾮如此。经典的统计学习理论⽆法解释深度学习的泛化可以归因于这些理论未能考虑数据分布或学习算法。⾃从[Xu and Raginsky,2017]的开创性⼯作以来,信息论在分析机器学习算法的泛化性能⽅⾯展现出巨⼤的潜⼒,因为基于信息论的泛化界能够同时考虑数据分布和学习算法。在本次报告中,茆永轶教授将选择性地介绍⼀些我们组在这⼀领域的⼯作。他将介绍其为⽤随机梯度下降(SGD)训练出来的模型提供了新颖的基于信息论的泛化界以及它对[Neu et al,2021]中的泛化界的显著改善。另外他还将介绍其在[Steink and Zakynthinou,2020]的超样本设置下取得的迄今最紧的基于信息论的泛化界。本次报告的内容主要基于茆永轶教授及其博⼠⽣汪⼦乔合作的以下论⽂。
Ziqiao Wang and Yongyi Mao, “On the generalization of models trained with SGD: information-theoretic bounds and implications”, ICLR 2022.
Ziqiao Wang and Yongyi Mao, “Tighter information-theoretic bounds from supersamples”, ICML 2023.