取自:Mathworld.
"The green curve shows the convolution of the blue and red curves as a
function of t, the position indicated by the vertical green line. The
gray region indicates the product g(tau)f(t-tau) as a function of t, so
its area as a function of t is precisely the convolution."
设想在图表中间有一条既高且窄的钟形曲线。曲线下的区域是积分。设想该曲线附近有第二条较短较宽的钟形曲线从图表左侧向右侧缓慢漂移。这两个函数沿X轴各点的重叠部分之积,即是其的卷积。所以在一定意义上,两个函数是被“卷在了一起”。
静态的底层函数是得到分析的输入图像,而动态的另一个函数被称为过滤器,因为该函数会获取图像的信号。两个函数通过乘法产生联系。若想以矩阵而非钟形曲线的方式对卷积进行想象,请见标题“卷积演示”下Andrej Karpathy的极佳动画演示。
我们还需理解,在卷积网络中,一张图像需经过多个过滤器的扫描,每个过滤器获取一个不同的信号。可以想象卷积网络中较早的一层在经过水平线过滤器、垂直线过滤器和对角线过滤器的扫描后,创建了图像边缘的映射图。
卷积网络将这些过滤器获取的图像特征空间片段逐一制成图谱;也就是说,卷积网络为特征出现的各处均创建一张映射图。通过研究特征空间的不同比例,卷积网路可以轻易构建可扩缩且稳健的特征工程。(请注意,卷积网络分析图像的方式不同于RBM。RBM将各图像视为整体进行特征的重建和识别,而卷积网络对图像片段,亦即“特征映射图”进行分析。)
因此,卷积网络执行的是一种搜索。想象有小型放大镜于较大的图像上从左向右滑动,一遍后再从左边重新开始(如打字机一般)。举例说,该移动窗口仅能识别一截短垂直线。三个暗像素相互堆叠。移动窗口将“垂直线辨识”过滤器在图像的实际像素上进行移动,以寻求匹配。
每次成功的匹配将被绘制于该视觉元素特定的特征空间里。在该空间里,每条垂直线匹配的位置都会得到完整记录,类似鸟类观测员在地图上将最近观测到大蓝鹭的地理位置用大头针进行标记。卷积网络需要在单一图像上运行很多、很多次搜索——无论是水平线,还是对角线,有多少待查的视觉元素,就需要搜索多少次。
卷积网络在输入时,不止仅卷积这项操作。
在经过卷积层处理后,输入信息会经过一次非线性转换,如tanh或者 rectified linear 单元。如此,可以将输入值压缩至-1到1之间。