【Review】A Review on Deep Learning Techniques Appli

时间:2017-05-02 18:16:03

基本情况

2017年4月份的文章.深度学习技术在语义分割中的应用综述,能写综述性质文章的都是大神,并且本文可以说是深度学习进行语义分割的第一本综述.本文正文有20页,参考文献有114篇,含28个数据集和27种方法.

Abstract

综述性质的文章,本文首先描述了这个领域的一些专业术语和基本概念;接下来,介绍了主要的数据集和竞赛;然后回顾了存在的方法,强调了这些方法的主要贡献;最后,对上边描述的方法给出了在对应评估数据集上的定量结果;最最后,本文指出了一系列有希望的未来的工作,并对使用深度学习技术的语义分割的state-of-the-art给出了自己的结论.

1 Introduction

深度学习在计算机视觉上远没有其他早期建立的分支和机器学习的方法成熟,并且缺少统一的工作和先进技术的综述.随着图像分割领域千变万化的技术革新,想跟上这个领域的脚步十分困难.本文可以说是集中针对使用深度学习进行语义分割的第一本综述,主要贡献是:
(1)本文针对存在的语义分割数据集提供了一个广泛的调查,这会对使用深度学习技术的分割项目有帮助.
(2)对存在的最重要的使用深度学习的分割技术进行了深入和有组织的回顾,包括他们的起源和贡献.
(3)统计了性能评估方法,包括定量评测标准,例如accuracy、运行时间、内存占用等.
(4)关于上边的结果进行了讨论,同时列举了未来可能的工作,并对这个领域的最高水平给出了结论.
文章的组织方式:
Section 2介绍了语义分割概念,文献中常用的符号的定理,以及在深度网络中常用的概念.
Section 3描述了存在的数据集,挑战,benchmarks.
Section 4基于贡献的复杂度顺序进行了已存在方法的回顾,这部分集中在描述理论和方法强调,而不是定量评估.
Section 5基于在上边提到的数据集上对存在的方法进行了简要的讨论,另外,给出了未来的研究方向.
Section 6总结了整篇文章,对语义分割技术和这个领域的最高水平给出了结论.

2 Background

讲了几个算是经典的网络,不细说. 网络分别是AlexNet、VGG、GoogLeNet、ResNet、ReNet(这个不太熟悉).

3 Datasets

一图以蔽之
1

4 Methods

1

1

本文指出现在的语义分割的先进方法的先驱是FCN.FCN主要利用的是已经存在的CNN模型能够学习不同层次的特征.而把CNNs中的全连接层换成卷基层,输出空间图片而不是分类结果,然后通过deonv等上采样,这种方法是一项里程碑性的成果,因为它实现了语义分割的end-to-end的训练,并通过高效的学习可以对任意尺寸图片输出分割结果.FCN已经作为深度语义分割的基石.
任何方法都是缺陷,尽管FCN功能强大并且很灵活,但是也有一些缺点:固有的空间不变性无法有效利用全局上线文信息;默认不考虑实例级别的关注;对于高分辨率的图片缺少效率;并且不适用非结构化数据例如3D point cloulds等.因才有上以上表中的那些方法对这些问题进行改进,以达到state-of-the-art.
这部分信息量很大,从FCN变种,到实例分析,再到不同种类图像数据(RGB-D, 3D, Video)研究状况,可以针对自己关注的领域重点阅读.

5 Discussion

这部分主要是对以上方法的分析.
评估标准 首先,在语义分割系统中最受欢迎的系统评估标准:exection time, memory footprint, accuracy.
结果 接下来,给出了大量数据集上使用上述评估标准的代表性结果.(这部分的结果感觉十分有用,如果需要对自己的方法和其他方法进行比较,可以直接使用这些数据.需要的自己去论文看吧.)
结果分析 接下里,总结了这些结果的结论.分析结果发现,有些实验无法repeat,原因是有些方法并没有标准数据集上进行测试,还有的没有给出实验配置和源代码.另外,很多方法没有给出执行时间信息和内存占用信息,他们更多关注IoU,但是其他的信息对于一些特定场景的应用是十分重要的.最后,DeepLab在RBG图像数据集上都表现的十分出色.
未来方向 最后,指出了作者认为重要的未来的语义分割的发展方向:
(1)3D datasets: 数据可以推动技术的发展,现在还缺乏语义分割的3D的数据集,2018年ILSVRC将会加入3D数据.
(2)Sequence datasets
(3)Point cloud segmentation使用图像卷积网络.也就是处理3D数据的方法的研究.
(4)Context Knowledge. 关于上下文信息的利用,作者认为还有很大空间.
(5)Real-time segmentation. 实时分割的应用前景就不说了,在实际中至少要求25fps,但是目前FCN-8s只有10fps,crfasrnn只有2fps.
(6) Memory.相应意味着模型变小.
(7)Temporal coherency on sequences.
(8)Multi-view integration. 多视角(视图)集成.

作者:u014451076 发表于2017/5/2 20:16:03 原文链接
阅读:20 评论:0 查看评论