上海论文网提供MBA论文选题服务,专业提供硕士毕业论文服务。
导航 当前位置:上海论文网 > 计算机论文 > 正文
基于上下文信息聚合的语义分割与目标检测算法研究
  • 论文价格:150
  • 用途:硕士毕业论文 Master Thesis
  • 编辑:若诗
  • 点击次数:
  • 论文字数:31240
  • 论文编号:el2021013116573521845
  • 日期:2021-02-04
  • 来源:上海论文网
本文是计算机论文,在接下来的章节中,本文从全卷积神经网络着手,为了解决FCN架构应用于语义分割的先天性不足[55],而图像语义分割任务包含分类和定位两个子任务,这些位置信息的丢失会大大影响语义分割中的定位任务,从而影响分割精度。除此之外,CAN的融合方式并没有充分利用骨干网中上下文信息,对特征图映射也没有很好地处理。CAN存在的这些问题同样常见于目前的大部分语义分割算法中,因此本文提出了双向上下文信息聚合卷积神经网络。BiCANet在尽可能保留特征图空间信息的同时,充分融合和利用了骨干网中上下文信息,并提出了多尺度上下文融合模块将特征图更好地映射到语义分数图上。相对于图像语义分割,图像目标检测属于计算机视觉领域的中层次任务。它能够将普通医学图像中容易被忽略的细小病灶区域突出显示出来,并且能够将分割区域的器官状态直观地进行展现。这些特性可以帮助医生更快更准地分析患者的病情,从而能大大提高医生诊断的效率和准确性。

.....

 

第一章绪论

 

在自动驾驶领域,众所周知,自动驾驶是一个极其困难的视觉任务。在现实生活中,路况千变万化非常复杂,在自动驾驶过程中如稍有不慎就会造成人员伤亡。所以这就要求计算机对当前环境的判断和路径的规划足够灵敏且准确。图像语义分割能帮助计算机处理精准的空间信息以及细节信息(例如:车道线分割,交通标志分割以及行人分割等),从而帮助其做出更好的决策。在安防领域,对人体的语义分割是必不可少的。人体语义分割通常涉及诸如面部,躯干和四肢等类别。例如:对人体四肢的分割,可以辅助计算机判断当前人物的行为;对面部的分割中,计算机可以通过图像分割得到的信息,对人们的性别、年龄、种族进行估计,从而缩减人员安全排查的范围。在智能医疗领域,随着20世纪70年代CT的发明,医学图像处理在医学领域中的地位日益重要。医学图像分割在医学研究、临床诊断和病理分析等领域中有着广泛的应用和研究价值(例如:肿瘤图像分割,视网膜分割和肺结节分割等)。医学图像分割,就是根据医学图像中的某种相似性特征(如亮度、颜色、或者形状),对其进行图像分割。

....

 

第二章相关背景知识介绍

 

2.1图像语义分割关键技术介绍
目前,直接应用DCNN来解决图像语义分割任务主要存在以下两个缺陷:DCNN中的下采样操作会丢失一部分位置和细节信息;DCNN具有很强的空间不变性,这种空间不变性对于分类任务来说,就是同一张图片进行空间变化(平移,翻转和镜像等操作)并不影响最后分类结果。但是语义分割任务是由分类和定位两个子任务组成的,这种不变性虽然有利于分类,但对于语义分割的定位任务却是很不利的,准确来说就是会导致分割输出结果位置不准确的问题。因此,Deeplabv1提出了DenseCRF来获得边缘位置更平滑的分割结果。它的作用是对DCNN的输出做后处理。DenseCRF将全局的高层次信息(类别信息)与局部的低层次信息(位置和边缘信息)进行结合。尽管目前已经有一些工作提出了新型算法去拟合DCNN的多层关联性,但DenseCRF与它们对比具有很大的优越性。一方面,DenseCRF在计算远距离像素点与当前像素点之前的关系时,能够更加高效,另一方面,通过对周围像素点关系的学习,其可以更好地捕捉图像中物体的位置和细节信息。下采样是通过池化或者带步长的卷积来降低图像分辨率的操作,因此会丢失一部分位置信息。Deeplabv1创造性地在DCNN中提出了扩张卷积(Dilatedconvolution)来解决这个问题,扩张卷积可以在不改变特征图分辨率的情况下,增大特征图的感受野。

 

2.2图像目标检测关键技术介绍
为了保证算法具有较高的精确率,R-CNN往往需要大量的候选区域。在同一张图像中这些候选区域大部分都是互相重叠的,且每个候选区域都需要独立地输入到CNN中。那么对于不同ROI,CNN可能对重叠区域进行了多次无用的特征提取,也正因如此,R-CNN的训练和预测速度非常慢。针对R-CNN中存在的上述缺陷,FastR-CNN[10]提出了自适应尺度池化模块。自适应尺度池化模块能够简化R-CNN中的冗余步骤,提高算法的识别效率。此外,FastR-CNN提出了感兴趣区域池化层(RoIPooling),用来提取特征层上各个候选框固定维度的特征表示;同时使用Softmax作为分类器,以多任务学习的方式同时进行分类和回归。因为FastR-CNN不会重复提取特征,所以它能显著地加快训练和测试速度。FastR-CNN的流程图如图2.7所示:FastR-CNN依赖于外部候选区域方法,如选择性搜索。但这些算法都是在CPU上运行的且速度非常慢。在测试过程中,FastR-CNN需要2.3秒来进行预测,其中的2秒用于生成ROI。正因如此,区域生成的计算成为设计检测网络的瓶颈。与其使用固定的算法得到候选区域,不如让网络自己学习候选区域应该是什么,因此,FasterR-CNN[12]提出了区域生成网络(RegionProposalNetwork,RPN),通过网络自主学习的方式代替了非常低效的区域提名等操作。RPN在生成ROI时效率非常高,能够以每幅图像10毫秒的速度运行。FasterR-CNN通过构建RPN提取候选框,共用卷积特征,进一步提升了预测速度。总而言之,FasterR-CNN相对于FastR-CNN最大的创新点在于提出了RPN候选框提取模块,这也是目标检测算法中首次尝试利用CNN来解决区域生成的问题,并且RPN对后续基于端到端的目标检测算法的优化具有极大的指导意义。

 

第三章基于CAN的图像语义分割......................................16
3.1研究动机与目的..............16
3.2上下文信息聚合方法研究.......................................17
3.3实验部分...........................20
3.4本章小结...........................25
第四章基于BiCANet的图像语义分割...............................26
4.1研究动机与目的..............26
4.2双向上下文信息聚合方法研究...............................27
4.3实验部分...........................33
4.4本章小结...........................43
第五章基于CADet的端到端目标检测算法.......................44
5.1研究动机与目的..............44
5.2研究方法...........................45

......

 

第五章基于CADet的端到端目标检测算法

 

5.1研究动机与目的
物体之间的位置和尺度差异是目标检测任务的主要挑战之一,通常有两种策略来解决由此挑战引起的问题。第一种是图像金字塔(即不断调整输入图像大小),然而此种方法只能在检测网络训练完成之后,在测试过程中使用。图像金字塔通过缩放输入图像产生具有不同语义信息和细节信息的特征,再对这些不同分辨率大小的特征图分别产生预测,最后将这些预测结果融合得到最终的预测结果。使用来自各种尺寸图像的特征确实在识别精度和定位精度方面超越仅使用单尺度图像的特征。但是,显然这种解决方案将大大地增加内存使用和计算复杂性,因此会使得目标检测器的效率急剧下降,并且限制了其在实时任务中的应用,诸如OHEM[45]和SNIP[46]之类的方法均采用了这种策略。第二种是特征金字塔,其通过融合骨干网中不同尺度的特征,来丰富特征图中的信息。与图像金字塔相比,特征金字塔对存储空间和计算机算力的要求更低,并且更容易嵌入到目前一些主流的目标检测网络中去,从而可以对检测网络进行端到端的训练。尽管具有特征金字塔的目标检测器取得了不错的成绩,但由于它们只是在骨干网的深层融合多尺度信息构建特征金字塔,而这种骨干网实际上是为物体分类任务设计的,因此这些方法仍然存在一些局限性。
计算机论文怎么写

 

5.2研究方法
FAU结构如图5.2所示。为了降低CADet架构的计算成本,FAU在三个分支上都使用了1×1卷积层来限制输入通道的数量。虽然多使用一个卷积层理论上会增加运算成本,但是1×1卷积算力成本比较廉价,使用它可以为后续耗算力的大卷积降低算力成本,从而达到整体运算成本的降低。从右到左来看,第一个分支对输入进行1×1的卷积,这个分支的目的是为了能够以非常小的计算成本跨通道地组织信息,提高网络的特征表达能力。第二个分支先使用了一个1×1卷积对输入通道进行降维,然后紧接一个3×1卷积和1×3卷积,这就相当于对输入特征进行了三次特征变换。第三个分支首先使用了一个1×1的卷积进行输入通道降维,然后连接了一个5×1卷积和1×5卷积。第二和第三分支将n×n的卷积核尺寸分解为n×1和1×n两个卷积。例如:一个5×5的卷积感受野与先后进行一个5×1的卷积和一个1×5的卷积相同。这种操作可以在理论感受野大小不变的情况下,提升网络深度并减少计算参数量。虽然这种结构与CCPB中堆叠3×3卷积的结构理论感受野一样
计算机论文范文

...........

 

第六章总结与展望
本文的第一章对论文的研究背景以及研究意义进行了详细的介绍,并大致阐述了本文的主要研究内容和贡献。在第二章本文大致介绍了卷积神经网络(ConvolutionalNeuralNetwork,CNN)的基础知识和发展历程,进一步的,本文对图像语义分割(SemanticSegmantation)以及图像目标检测(ObjectDetection)的关键性技术进行了简明扼要的介绍。语义分割需要判断图像中每个像素所属类别,目标检测则只需要框出图像中每个目标的包围盒。因此本文提出的针对图像语义分割任务的优化思想,应该同样可以用于提升目标检测算法性能。为了解决图像目标检测任务存在分类和定位子任务不可兼得的问题[56]并验证本文提出的语义分割优化思想具有普适性,本文提出了上下文信息聚合检测网络。但是实际感受野是呈高斯分布的,所以FAU这种结构的实际感受野更大,感知的区域更广。最后FAU也将三个分支的输出结果在通道维度上进行堆叠,再通过一个1×1的卷积核将输出通道数通道恢复到与输入通道数相同。
参考文献(略)