来源:机器学习实验室
做图像分割方向的朋友,一定都用过U-Net,或者做分割方向研究的朋友们,也许都有过魔改U-Net的经历。作为2015年MICCAI上发表的一篇论文,U-Net目前在谷歌学术的引用是11487次,几乎做分割的人人都会引用。
早期的深度学习图像分割研究主要围绕FCN展开,目标是优化卷积下采样过程中信息的保留。随后,U-Net以其独特的编解码对称U形结构成为主流。在语义分割领域,U-Net与空洞卷积并列为两大关键设计,确立了其在该领域的主导地位。
U-Net在图像分割领域的统治地位归功于其卓越的性能,特别是在医学图像处理上。在医学影像的深度学习应用中,U-Net几乎成了标配,其基础模型通常能提供出色的基准性能。MICCAI,作为医学图像分析领域的顶尖会议,U-Net在此的卓越表现值得我们深入分析。
U-Net在医学图像上的优秀表现可以从两个方面来解释:一是U-Net网络自身的结构优势,二是医学图像的独特性质。
U-Net结构分析
语义分割网络的典型工作流程包括图像输入、下采样编码、上采样解码,最终输出分割结果。U-Net的结构设计如下:
乍一看很复杂,U形结构下貌似有很多细节问题。我们来把U-Net简化一下,如下图所示:
图解显示,简化版U-Net的核心要素包括:下采样编码、上采样解码以及跳跃连接。
下采样进行信息浓缩和上采样进行像素恢复,这是其他分割网络都会有的部分,U-Net自然也不会跳出这个框架,可以看到,U-Net进行了4次的最大池化下采样,每一次采样后都使用了卷积进行信息提取得到特征图,然后再经过4次上采样恢复输入像素尺寸。但U-Net最关键的、也是最特色的部分在于图中红色虚线的Skip Connection。每一次下采样都会有一个跳跃连接与对应的上采样进行级联,这种不同尺度的特征融合对上采样恢复像素大有帮助,具体来说就是高层(浅层)下采样倍数小,特征图具备更加细致的图特征,底层(深层)下采样倍数大,信息经过大量浓缩,空间损失大,但有助于目标区域(分类)判断,当high level和low level的特征进行融合时,分割效果往往会非常好。从某种程度上讲,这种跳跃连接也可以视为一种Deep Supervision(参见系列第15篇)。因此,U-Net的结构设计不仅使其在医学图像上表现出色,同样在普通自然图像上也具有很好的效果。
医学图像
医学图像与普通自然影像相比,具有哪些独特的特征?
自然图像-家居设施
医学图像-肝脏CT
与自然图像相比,医学图像的内容和信息密度通常较低,因此医学影像的结构相对固定,语义信息也较为简单。常见的医学影像类型,比如CT、MRI、超声、病理切片和OCT等等,大多数成像方式对单一的人体器官进行成像时得到的影像结构都会相对固定一些。比如说下图的血管内超声影像,其图像特点就是官腔(lumen)的位置相较于整幅图而言永远都处于中心位置。
血管内超声图像(IVUS)
由于专业性和隐私性,医学影像数据比自然图像数据更难获取,通常一个项目只能使用数百例数据,小样本是其显著特点。对于深度学习而言,小样本不能用大模型,因为容易过拟合,所以,网络结构复杂和参数量大的模型并不适合于医学影像。U-Net的基础模型参数量为28M,属于轻量级网络,即使在数据量有限的情况下,通过适当的数据增强,也能保持良好的适应性。
所以,总的来说U-Net在医学图像上效果优越,是由U-Net网络结构和医学图像本身特征所决定的。U-Net的带有跳跃连接的编解码结构能够融合不同层级的特征,医学图像本身的固定化结构和小样本性,共同使得U-Net成为医学图像分割领域的最佳模型。下次碰到面试官问你这个问题,可不要还回答不上来哦。
欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)