来自巴斯大学计算机科学教授Simon J.D. Prince撰写的《理解深度学习》新书,共有19章,从机器学习基础概念到深度学习各种模型,包括最新的Transformer和图神经网络,比较系统全面,值得关注。
深度学习的历史在科学界是不寻常的。一小群科学家的坚持不懈,在一个看似没有希望的领域工作了25年,已经彻底改变了一个领域,并极大地影响了社会。通常,当研究人员调查科学或工程的一个深奥和明显不切实际的角落时,它仍然是深奥和不切实际的。然而,这是一个明显的例外。尽管普遍存在怀疑,但Yoshua Bengio、Geoff Hinton、Yann LeCun等人的系统努力最终取得了回报。本书的标题是“理解深度学习”,以区别于涵盖编码和其他实用方面的书籍。本文主要介绍深度学习的基础思想。本书的第一部分介绍了深度学习模型,并讨论了如何训练它们、衡量它们的性能并提高性能。下一部分将讨论专门用于图像、文本和图形数据的体系结构。这些章节只需要线性代数、微积分和概率论的入门,任何数量学科的二年级本科生都应该能读懂。本书后续部分将讨论生成模型和强化学习。这些章节需要更多的概率和微积分知识,目标是更高级的学生。这个标题在一定程度上也是一个笑话——在写作时,没有人真正理解深度学习。现代深度网络学习的分段线性函数的区域比宇宙中原子的数量还要多,并且可以用比模型参数更少的数据示例进行训练。显然,我们应该能够可靠地拟合这些函数,也不应该很好地泛化到新数据。最后一章讨论这些以及其他尚未完全理解的方面。您的时间是宝贵的,我努力策划和呈现材料,以便您可以尽可能高效地理解它。每一章的主要内容是对最重要的思想的简要描述,并附有插图。附录回顾了所有的数学先决条件,不需要参考外部材料。对于希望深入研究的读者,每一章都有相关的问题、Python笔记,并总结了该领域的历史和最新研究。写一本书是一个孤独的、艰难的、多年的过程,只有当它被广泛采用时才有价值。如果您喜欢阅读本文或有改进建议,请通过附带的网站与我联系。我很乐意听到你的想法,这些想法将为后续的版本提供信息和动力。
人工智能(AI)关注的是构建模拟智能行为的系统。它包含了广泛的方法,包括基于逻辑、搜索和概率推理的方法。机器学习是人工智能的一个子集,它通过将数学模型拟合到观察到的数据来学习做出决策。这个领域经历了爆炸式的增长,现在(错误地)几乎是AI这个术语的同义词。深度神经网络是机器学习模型的一种,当该模型对数据进行拟合时,这被称为深度学习。在撰写本文时,深度网络是最强大、最实用的机器学习模型,在日常生活中经常遇到。使用自然语言处理算法翻译另一种语言的文本,使用计算机视觉系统在互联网上搜索特定对象的图像,或通过语音识别界面与数字助理交谈,都是很常见的。所有这些应用程序都是由深度学习驱动的。正如标题所示,本书旨在帮助该领域的新读者理解深度学习背后的原理。这本书既不太理论化(没有证明),也不太实用(几乎没有代码)。我们的目标是解释潜在的想法;在阅读完这本书后,读者将能够将深度学习应用于没有现有成功秘诀的新颖情况。机器学习方法大致可以分为三个领域:有监督、无监督和强化学习。在本书写作时,这三个领域的前沿方法都依赖于深度学习(图1 - 1)。本章从较高的层次描述了这三个领域,本书的组织结构也大致反映了这种分类法。
本书的结构与这篇引言的结构一致。第2 ~ 9章介绍了监督学习流程。本文介绍了浅层和深层神经网络,并讨论了如何训练它们,测量和提高它们的性能。第10-13章描述了深度神经网络的常见架构变体,包括卷积网络、残差连接和transformer。这些架构用于监督、无监督和强化学习。第14 ~ 18章使用深度神经网络解决无监督学习问题。我们用一章的时间介绍四个现代深度生成模型:生成对抗网络、变分自动编码器、归一化流和扩散模型。第19章简要介绍了深度强化学习。这是一个可以单独写成一本书的话题,因此这里的论述必然是肤浅的,但对于不熟悉该领域的读者来说,这是一个很好的起点。尽管这本书的标题是,深度学习的一些方面仍然鲜为人知。第20章提出了一些基本问题。为什么深度网络如此容易训练?为什么它们的泛化能力这么好?为什么他们需要这么多参数?它们需要很深吗?在此过程中,探索了意想不到的现象,如损失函数的结构、双下降、grokking和彩票。
Chapter 1 - 导论 Introduction
Chapter 2 - 监督学习 Supervised learning
Chapter 3 - 浅层神经网络 Shallow neural networks
Chapter 4 - 深度神经网络 Deep neural networks
Chapter 5 - 损失函数 Loss functions
Chapter 6 - 训练模型 Training models
Chapter 7 - 梯度与初始化 Gradients and initialization
Chapter 8 - 度量性能 Measuring performance
Chapter 9 - 正则化 Regularization
Chapter 10 - 卷积网络 Convolutional nets
Chapter 11 - 残差网络 Residual networks and BatchNorm
Chapter 12 - Transformers
Chapter 13 - 图神经网络 Graph neural networks
Chapter 14 - 无监督学习Unsupervised learning
Chapter 15 - 生成对抗网络 Generative adversarial networks
Chapter 16 - Normalizing flows
Chapter 17 - 变分自编码器 Variational auto-encoders
Chapter 18 - 扩散模型 Diffusion models
Chapter 19 - 深度强化学习 Deep reinforcement learning
Chapter 20 - 为什么深度学习work?Why does deep learning work?
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询!点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料