一作解读：深度学习中的Neural Scaling Law (神经标度律)和对AI+Science的启发

导语

麻省理工大学在读博士刘子鸣同学和他的导师Max Tegmark以及其他成员在Arxiv上发出了他们最新的工作《The Quantization Model of Neural Scaling》，用“知识量子”的想法来解释神经标度律，集智俱乐部邀请了一作作者刘子鸣来重点介绍这篇工作，与此同时刘子鸣同学也发起了一个圆桌讨论，邀请了来自加州大学圣地亚哥分校的助理教授尤亦庄、复旦大学计算机系副教授马兴军、集智科学家，后chatGPT读书会发起人之一李嫣然、斯坦福大学计算机科学系博士后研究员吴泰霖，希望来讨论LLM与Science之间在结合过程中的问题和挑战。本次分享也是集智俱乐部AI+Science读书会与“后chatGPT”读书会的一次梦幻联动，在两个社区会同步分享。

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，从2023年3月26日开始，每周日早上 9:00-11:00 线上举行，持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

背景介绍

近年来，神经网络由于能够学习复杂模式和做出准确的预测而变得越来越流行。但是，随着神经网络和数据集规模的增加，这些网络的性能往往趋于稳定甚至下降。这种现象被称为神经标度律，它一直是机器学习领域许多研究人员感兴趣的话题。

一篇Arxiv的最新文章提出了神经标度律量化模型的理论，并解释了观察到的损失随着模型和数据大小的增加而呈现幂律下降的现象。此外，还探讨了随着模型规模的扩大，新的能力随之涌现的情况。更是详细介绍了深度学习中自然语言模型的训练实践规律。对指导人们设计深度学习模型尤其是自然语言相关的模型有很好的指导作用。通过确定与网络特定功能相对应的量子，研究人员可以优化网络架构和培训过程以提高性能。这可以带来更高效、更有效的神经网络，从而处理更大的数据集和更复杂的任务。

文献地址：https://arxiv.org/abs/2303.13506#

图1:从网络内部，我们自动发现量子模型的离散单元——用于语言建模的任务（详见4.3节）

图2:上面三张图是在多任务稀疏奇偶数据集的训练中，神经网络表现出幂律神经缩放参数。下面三张图对应通过子任务分解的神经尺度可以观察到缩放行为的涌现现象。

图3:描绘了神经尺度在LLM中分解

集智俱乐部邀请到了一作之一麻省理工在读博士、AI+Science读书会的发起人之一的刘子鸣来跟大家讨论和解读相关内容。

分享大纲

(1) 标度律简单介绍：

(a)物理中，什么是标度律？

(b)什么是神经标度律？

(c)神经标度率不适用的各种情况

(2) 神经标度律：

(a)连续流形理论；

(b)离散量子理论

(3) 神经标度律对AI+Science的启发：

(a)AI+Science问题是否服从神经标度律？

(b)量子解释如何帮助AI+Science的可解释性

圆桌问题列表

AI被称为“第五范式”（继经验范式、理论范式、模拟范式、数据驱动范式之后）。在你的研究中，AI是否已经改变了研究范式？

在你的研究中，是否更大规模的AI模型会带来更好的效果？“Scale is all you need”有什么局限性？

在你的研究中，AI出现过哪些有趣/奇怪的行为？比如相变，涌现，对Scaling Law的违反等等？

目前的AI大体上是黑盒。如何提高AI for Science的可解释性？你的研究有哪些工具/方法可以被借鉴？

随着更先进的通用人工智能（AGI）出现，如何监管AI以保证结果可信？

以及更多嘉宾和观众的提问，欢迎你提前思考，带着你感兴趣的问题来参与我们的直播（想提问的话，可以扫码加入读书会，获取腾讯会议室会议号即可加入社群噢）。

直播信息

直播时间：

2022年4月2日（周日）上午 10:00-22:00

参与方式

扫码参与读书会，加入群聊获取本系列读书会的视频回放权限、资料权限，与社区的一线科研工作者和企业实践者沟通交流。

主讲人简介

刘子鸣目前是麻省理工学院（MIT）物理系博士生，导师是Max Tegmark。此前2020年他从北京大学获得物理学士学位。他的研究兴趣在AI和物理的交叉：一方面AI for Physics，利用AI工具自动化物理规律和概念的发现；另一方面Physics for AI，利用物理启发构建AI理论和更具可解释性的模型。

个人主页：https://kindxiaoming.github.io/

参考文献：

https://arxiv.org/abs/2004.10802 “A Neural Scaling Law from the Dimension of the Data Manifold”

https://arxiv.org/abs/2303.13506 “The Quantization Model of Neural Scaling”

https://arxiv.org/abs/2001.08361 “Scaling Laws for Neural Language Models“”

https://arxiv.org/abs/2303.12712 ”Sparks of Artificial General Intelligence: Early experiments with GPT-4”

“后ChatGPT”读书会启动

2022年11月30日，一个现象级应用程序诞生于互联网，这就是OpenAI开发的ChatGPT。从问答到写程序，从提取摘要到论文写作，ChatGPT展现出了多样化的通用智能。于是，微软、谷歌、百度、阿里、讯飞，互联网大佬们纷纷摩拳擦掌准备入场……但是，请先冷静一下…… 现在 all in 大语言模型是否真的合适？要知道，ChatGPT的背后其实就是深度学习+大数据+大模型，而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇，现在又凭什么可以搭上大语言模型这趟列车呢？

集智俱乐部特别组织“后 ChatGPT”读书会，由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起，旨在系统性地梳理ChatGPT技术，并发现其弱点与短板。本系列读书会线上进行，2023年3月3日开始，每周五晚，欢迎报名交流。

详情请见：

“后 ChatGPT”读书会启动：从通用人工智能到意识机器

报名链接：

https://pattern.swarma.org/study_group/23?from=wechat

AI+Science 读书会启动

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从2023年3月26日开始，每周日早上 10:00-12:00 线上举行，持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

详情请见：

人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

点击“阅读原文”，报名读书会