在数据可用性和计算方面,巨大规模性,使得深度学习的关键应用领域取得重要突破,例如自然语言处理和计算机视觉。证据表明,规模Scale是科学深度学习的关键因素之一,但在科学领域,物理先验的更重要,这使得规模策略和效益,变得不确定。
近日,美国 麻省理工学院(Massachusetts Institute of Technology)Nathan C. Frey等,在Nature Machine Intelligence上发文,在多个数量级上,基于改变模型和数据集的大小,研究了具有超过10亿个参数的模型,在多达10亿个数据点的数据集上预训练,用以研究大型化学模型中,神经网络的缩放行为。还考虑了生成化学的大型语言模型和机器学习原子间势的图神经网络。并研究了物理先验和标度之间的相互作用,从而发现了化学语言模型的经验神经网络标度关系,对于所考虑的最大数据集大小,标度指数为0.17,对于等变图神经网络原子间势,标度指数为0.26。
Neural scaling of deep chemical models. 
图1:深度化学模型的神经网络标度关系。

图2:在基于训练绩效评估training performance estimation,TPE训练的早期识别最优模型,并停止训练非最优模型,以节省80%以上的总计算消耗。

图4:ChemGPT模型性能(验证损失)的神经网络缩放,作为模型(非嵌入参数数量)和数据集(标记数量)大小的函数。
Frey, N.C., Soklaski, R., Axelrod, S. et al. Neural scaling of deep chemical models. Nat Mach Intell (2023). https://doi.org/10.1038/s42256-023-00740-3https://www.nature.com/articles/s42256-023-00740-3https://www.nature.com/articles/s42256-023-00740-3.pdf声明:仅代表译者个人观点,小编水平有限,如有不当之处,请在下方留言指正!