上海论文网是一家老字号代写网站,专业提供代写硕士毕业论文服务。

计算机视觉应用于物体识别算法的分析与实现

发布时间:2020-05-12 21:06 论文编辑:若诗 价格:150 所属栏目:软件工程论文 TAG:

本文是软件工程论文,本文使用了Python、C++和Matlab三种编程语言实现,相机标定部分使用Matlab实现,双目视觉和立体匹配部分使用C++实现,物体识别的部分使用Python和深度学习框架Pytorch实现。

本文是软件工程论文,本文使用了Python、C++和Matlab三种编程语言实现,相机标定部分使用Matlab实现,双目视觉和立体匹配部分使用C++实现,物体识别的部分使用Python和深度学习框架Pytorch实现。之所以使用不同的编程语言是因为不同的任务有其不同的需求,不同的编程语言也有其不同的特性和生态,在进行研究和实现时,必须依据具体问题选择适当的工具。比如C++的运行速度更快,所以更适合实时性要求非常高的立体匹配算法,Python更加灵活,处理数据、可视化的能力强大,有配套的深度学习框架,所以它非常适合用于深度学习的算法实验,而的标定程序经过比较,其精确度优于C++的OpenCV框架。本文主要介绍了四项工作,自动标注、立体匹配、物体识别和行为识别。自动标注是基于VATIC的软件和算法框架修改的,其节省标注的能力更胜一筹。立体匹配算法利用了双目视觉的对极约束条件,通过动态规划的思想,在线性的时间内就完成了立体匹配。物体识别是一项全新的工作,它通过弱监督学习的训练方法,在不提供标定框的条件下即可识别图像上的物体及其数量。行为识别则实现了对视频数据的分类,达成了识别目标顾客行为的目标。

.........

 

第1章绪论

 

本文使用计算机视觉和深度学习技术,设计的“智能抓取识别系统”,已成功应用于便利店的货架和自动贩卖机的实际场景中。该系统通过本文所设计的算法,能够识别人在一个商品展示架前是否做出了抓取或者放回的动作,以及抓取的是物品。对于“自动支付便利店”项目,在顾客进入门店时,通过人脸识别绑定用户账号,当用户在店内抓取或放回商品,通过识别行为主体、行为、物体,实现物品在对应账号购物车的添加和删除,用户离店时,无需显式的支付过程即可完成支付,免去了营业员的收银工作。对于“自动支付贩卖机”项目,它和传统的自动售货机不同,它不需要复杂的机械设备或RFID作为辅助,只通过相机识别客户所拿到的物品,它通过面部识别打开机柜,并在门关闭后自动进行支付。客户不需要任何额外的操作,就像在家里的冰箱里拿东西一样。它彻底颠覆了传统的复杂机械设备,取而代之的是其他的硬件设备:在固定位置放置的一对摄像头,后台服务器,以及适合使用场景的准入设施(电子锁,门禁等)。

........

 

第2章相关概念和技术

 

2.1双目视觉和立体匹配
计算机视觉是让计算机从图像或者视频中获得高度的语义理解,以获得和人视觉系统相同的能力的一门交叉学科。人眼通过观察各种各样的模式识别客观世界的物体,比如颜色,形状,纹理,甚至可以识别人和物体的交互关系,物体的运动模式等获得更丰富的语义信息。而计算机所存储的数字图像,仅仅是存储在内存中一段连续的数字,而且还十分容易遭受多种形式的干扰,比如强烈变化的光照,不同的尺度,多种形式的遮挡。如何从图像的数值中提取富有辨别力的信息,分析、识别这些信息就是计算机视觉最主要的任务。传统的计算机视觉技术,通过提取图像上的亮度直方图,计算图像的梯度,设计各种形式的模板等方式提取图像上的颜色,形状,纹理等特征,结合机器学习技术让计算机具备识别这些模式的能力。计算机视觉技术经过长期的发展,开始结合深度学习技术,在计算机视觉的各个方向上超越传统技术。结合了深度学习的计算机视觉技术虽然识别效果更好,但是却带来了一些其它的问题:需要更大规模的有标注数据,更快速的计算资源,以及如何训练深度学习模型以避免过拟合。

 

2.2物体识别
在本节我将介绍在Image-Net数据集上训练的图像分类卷积神经网络,这些网络通常用卷积层提取图像特征,用全连接网络作为分类器估计图像类别的置信度,利用向传播算法,就可以端到端的识别图像的类别。因为这些网络具有非常好的特征提取能力,所以常常使用迁移学习的方法将这些网络的卷积层的结构和参数转移到其他任务上。当前行为识别能取得的效果是有限,这是因为基于深度学习的方法,需要依赖大规模视频数据集,深度学习模型才能取得较好的学习效果。和大规模图像分类数据不同,当前还没能有和大规模图像分类一样规模的数据集。如何构建更大的视频数据集,如何构建更好的模型能够容纳大规模视频数据集,这都是行为识别未来要解决的关键问题。

......

 

第3章标注工具和数据集..........................15
3.1VATIC标注工具的插值算法原理..........16
3.2基于VATIC插值算法的改进策略........18
3.3数据的内容和标注方法.........................20
3.4数据标注的统计结果............................22
第4章立体视觉.........................................24
4.1对极约束................................................25
4.2立体匹配................................................26
第5章物体识别.........................................35
5.1网络结构................................................36
5.2损失函数................................................37

.......

 

第6章行为识别

 

6.1数据集
最早用神经网络端对端实现光流算法的是FlowNet[73],然而它和效果最好的传统算法相比,优势还不明显。此后,FlowNet2[74]使用个堆叠的FlowNet模型达成了显著的效果提升,而且非常适合于捕捉小位移的运动信息。对于我们的数据集,FlowNet2的效果如图6-2所示,图6-2是由图6-1及图6-1后一帧所计算出的光流图,可以看出,原图的背景信息被全部抹去,只留下了关键的人体轮廓,而且准确的描绘了人体部位的运动强度和方向。这符合上文对光流的作用和便利店场景下人体行为识别任务的思考,因而笔者使用FlowNet2计算图像的运动信息,而不是[26]中所使用的EpicFlow。在6.4节的实验结果表明,对于便利店场景下的人体行为识别,使用更善于捕捉运动信息的FlowNet2模型,可以实现更优的准确率。
软件工程论文范文

 

6.2运动信息
对于行为识别任务而言,提取其运动信息是至关重要的,[72]已经证明了光流对于行为识别任务而言是行之有效的方法,因为它具备运动目标外表的不变性。此外,[72]还证明了光流对于运动目标边界和小位移计算的准确性对于行为识别来说是最为关键的。在行为识别任务中,使用光流算法计算视频的运动信息由来已久。[72]给出了使用光流来计算运动信息的合理性,也启示了笔者对于便利店场景的人体行为识别任务的优化方向。在便利店场景下,人体的行为通常是精细的,通常是简单的肢体运动,如抓取,放回,或者注视。同时,便利店的背景既复杂又单一,复杂是指,它的背景包含着形形色色的商品,很容易对卷积神经网络造成误导性的影响,单一是指,背景不能提供过多的有效的场景信息作为分类标准,举例,对于其他数据集而言,分类踢足球和游泳两个类别,极有可能场景信息就可以提供足够好的分类标准。
软件工程论文怎么写
...........

 

第7章总结与展望

 

在本文的研究过程中,参考了大量计算机视觉方向的国际顶级期刊、会议的文章,如CVPR,ICCV,ECCV,IJCV。对于开源了源代码的文章,笔者都运行过并见到了实际的效果,对于未开源代码的文章,都有学习它们的思想,并复现了部分文章。本文主要介绍了四项工作,自动标注、立体匹配、物体识别和行为识别。自动标注是基于VATIC的软件和算法框架修改的,其节省标注的能力更胜一筹。立体匹配算法利用了双目视觉的对极约束条件,通过动态规划的思想,在线性的时间内就完成了立体匹配。物体识别是一项全新的工作,它通过弱监督学习的训练方法,在不提供标定框的条件下即可识别图像上的物体及其数量。行为识别则实现了对视频数据的分类,达成了识别目标顾客行为的目标。在接下来,笔者将继续开展本文的研究和实现,其方向主要有二。其一,继续弱监督学习物体识别的研究,虽然当前的准确率足够,但是模型的可解释性不强,我将尝试RegionProposalNetwork的思想,继续实验。除此之外,在立体匹配的基础之上,我将尝试使用多源输入网络,如深度孪生网络(SiameseNetwork),双流神经网络(Two-StreamNeuralNetwork)。
参考文献(略)