本书介绍
过去十年见证了数据科学和机器学习领域的一场革命,其缩影是深度学习方法的变革。事实上,许多以前被认为遥不可及的高维学习任务—如计算机视觉、围棋或蛋白质折叠—在适当的计算规模下实际上是可行的。值得注意的是,深度学习的本质是建立在两个简单的算法原则之上的:第一,表示或特征学习的概念,由此自适应的,通常是分层的特征为每个任务捕获适当的规律性概念,第二,通过局部梯度下降类型的方法进行学习,通常实现为反向传播。
文末附本书最新免费pdf下载地址。
虽然学习高维的泛型函数是一个可恶的估计问题,但大多数感兴趣的任务并不是泛型的,而是来自于底层物理世界的低维度和结构的基本预定义规则。本文通过统一的几何原理来揭示这些规律,这些原理可以应用于广泛的应用领域。
这种“几何统一”的努力,本着费利克斯·克莱恩的埃尔兰根计划的精神,有双重目的:一方面,它提供了一个共同的数学框架来研究最成功的神经网络架构,如CNN、RNN、GNN以及Transformer。另一方面,它给出了一个建设性的过程,将先前的物理知识结合到神经架构中,并为构建未来尚未发明的架构提供一些基础的方法。
我们希望读者除了形成统计思维和方法的基础之外,还能从这本书里带走三个观点。
本书目录