上海论文网提供MBA论文选题服务,专业提供硕士毕业论文服务。
导航 当前位置:上海论文网 > 计算机论文 > 正文
边缘计算设备中神经网络适配及其手写体识别
  • 论文价格:150
  • 用途:硕士毕业论文 Master Thesis
  • 编辑:若诗
  • 点击次数:
  • 论文字数:146908
  • 论文编号:el2021050715272022119
  • 日期:2021-05-10
  • 来源:上海论文网
本文是计算机论文,本文第二个工作主要考虑8比特量化对浅层卷积神经网络性能影响,没有采用Pytorch来自动调整和修剪模型的神经网络架构、超参数等功能。虽然本文第三个工作总结了最近几年深度学习量化与压缩的最新进展,但是依然不完整。其次第三个工作仅仅利用第三方工具包来实现一种9个卷积层的模型规模量化实验评估。因此,今后我们需要考虑各种深层深度学习网络下的分布式训练和推理,以试图适应多种目标平台的硬件约束,而又不会过度损害所构建ML的预测准确性。其次,需要考虑如何结合云环境中GPU资源来实现各种分布式机器学习的训练、压缩与加速推理。最后,本文没有直接评估神经网络剪枝和蒸馏等规模压缩和加速方法。最新工作[52]提出了用于加速卷积神经网络训练过程的INT8训练技术。该文献通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传播和反向传播过程,缩短卷积神经网络训练时间。

......

 

第一章绪论

 

由于本文问题是神经网络模型压缩中的量化对神经网络识别率影响,下面将分别概述一种量化定义和量化的意义,并且结合本文的研究目标来归纳一种网络架构适配和优化的概念图。1)什么是量化?量化是一种便于深度学习在移动端或者边缘计算设备部署的技术,它指的是以比浮点精度更低的比特宽度来执行计算并存储的技术。量化过程基本原理是更高精度的向低精度的范围进行映射。一个量化的模型采用整数来对张量执行部分或全部操作。结合图1.1的概念图,我们继续探讨深度学习领域的两个流派。其中之一是学院流派,其追求超强的、超复杂的模型网络与实验方法,以获取特别高的性能;第二个是工程流派,其追求将算法稳定、高效地落实在硬件设备或平台上。第一类的模型具有更好的性能,但是大的存储、计算和能量资源消耗是它在边缘计算应用中受到限制的主要原因。因此,卷积神经网络不断增加的深度和尺寸为其在边缘计算设备的部署带来了巨大的挑战,与此同时神经网络模型压缩和加速已演变为行业内研究热点之一。由于本文第三章探讨前馈网络的网络适配与量化,第四章主要探讨浅层的卷积神经网络的量化处理,第五章将探讨深层的卷积神经网络的量化案例。特别地,与此相关的近5年研究工作概述将放在第五章的第一小节。

......

 

第二章神经网络模型压缩基础知识

 

2.1神经网络
为了进一步压缩网络,不仅可以量化权重,还可以量化激活量。激活直方图可以从数据集中的一小部分进行计数,并且使用相同的方法,还可以确定每一层激活的分层位宽。但是,如果不对全精度网络的激活施加任何限制,激活值将在很宽的范围内扩展。因此,大多数层的熵很大,许多层将被分配给最大位宽。修剪的目的通过删除对结果影响很小或没有影响的参数来降低模型的复杂度。文献[14]显示的是使用参数的二阶导数,据此我们可以估计其对训练损失的影响。它们通过删除对结果影响较小的参数,可以降低模型的计算成本并提高准确性。文献[15]显示,可能有一些神经元不能被激活功能激活(即在ReLU函数这种情况)。因此,它们计算激活的神经元并删除未激活的神经元。通过修剪,这样相对未修剪的网络会重新训练网络并获得更高的准确性。文献[16]显示我们可以修剪非常接近0的权重。这样做可以将某些网络中的参数数量减少大约10倍,而不会降低准确性。为此,它们训练网络时会修剪不必要的权重并再次训练剩余的网络。文献[17]表明,使用Fisher信息量度,我们可以确定权重的重要性。他们利用这些信息来修剪不重要的权重。

 

2.2神经网络模型压缩
他们还使用Fisher信息量度确定代表单个权重的位数。剪枝方法一般分为两种,修剪连接和修剪节点。这种修剪方法主要是通过删除一些连接来减少浮点操作的数量。换言之,如图2.3所示,它们从权重矩阵中删除单个值。从理论上讲,从权重矩阵中删除值将提高计算复杂度。在实际中,我们使用密集权重矩阵表示层之间的连接,并且在这种情况下,要能够去除权重并降低复杂性,我们需要将这些密集权重矩阵转换为稀疏权重矩阵。但是,与从稀疏到稠密矩阵乘法的实现相比,从密集到稠密矩阵乘法的实现要好得多,因为它们可以非常可预测地访问内存索引。因此,除非我们修剪大部分权重矩阵(约90%),否则我们将减慢操作速度。由于这种情况,我们将不会使用稀疏矩阵来应用此方法。但为了确定要修剪的节点,我们将看一个简单的标准。本小节分别探讨了小样本学习思想、神经网络压缩和分布式机器学习。本(非)全日制专业学位论文主要采用上述工程流派的思想和方法论。
计算机论文范文

 

第三章边缘设备分布式训练和手写字母识别..............................................................................20
3.1手写字母识别技术介绍.....................................................................................................20
3.2硬件受限的神经网络字母识别技术..................................................................................21
3.3本章小结..............................................................................................................................25
第四章手写数字识别算法对比及CNN量化案例.......................................................................26
4.1传统机器学习算法.............................................................................................................26
4.2卷积神经网络.....................................................................................................................28
4.3浮点模型下手写数字识别算法对比.................................................................................38
4.4浅层CNN构建和8比特量化下模型压缩.....................................................................39
第五章深度学习模型量化新进展及一个低精度案例..................................................................43
5.1深层卷积神经网络量化上的新进展.................................................................................43
5.2数据集及其Dorefa-Net案例............................................................................................48
5.3深层模型量化及仿真分析.................................................................................................49

......

 

第五章深度学习模型量化新进展及一个低精度案例

 

5.1深层卷积神经网络量化上的新
第三章和第四章仅仅是利用CPU计算力,而不是利用GPU计算力的机器学习方案。考虑5G和移动边缘计算正在兴起,我们有必要考虑基于边缘计算中心的网络边缘人工智能场景,该场景涉及的网络规模量化的计算工作可以让边缘计算中心中GPU来完成。当量化后网络被发送到边缘设备后,边缘设备就可以做低比特宽度的推理,这将有助于提高低精度推理速度和减少边缘设备的功耗等[32]。因此,本章前一节涉及深层神经网络量化上的最新进展,其后的章节探讨一个低宽度权重与偏置下的深层卷积神经网络案例。该案例的量化感知训练过程中,张量和模块都要进行量化处理[33][34]。此外,与第四章不同,本章将利用GPU来进行训练,并且数据集为CIFAR10,以适应不同的边缘应用场景。国内的相关人工智能公司和大学最近三年一直有关于模型量化和压缩的工作。例如在2020年4月,商汤研究院“链接与编译”团队通过在线直播,发布了模型量化方面的进展,发布内容含有CVPR2020、ICCV2019等多篇与北航刘祥龙老师团队合作的工作[51]。该工作还通过解释什么是INT8训练来帮助初学者理解线性量化操作[53]。最后,我们用参考文献[54]来做小结,该工作介绍了神经网络量化的背景,探讨了量化的基础算法,并列举了学术界的一些研究和工业界的最新方案。
计算机论文怎么写

 

5.2数据集及其Dorefa-Net案例
深层神经网络层数大于10,拓扑节点数目可能达到几百和规模大大增加。这是对边缘计算设备很不利。如果要在资源约束的硬件设备上部署机器学习模型,设计人员往往需要进行模型优化,具体如网络模型的压缩和加速。在这些优化方法中,量化模型便于硬件上移植。尽管在2019年10月的PyTorch开发者大会上,Facebook宣布发布PyTorch1.3。此版本具有三个实验功能:张量,8位模型量化和PyTorchMobile。但是该版本的8位模型量化API函数的调用很不方便。它还可以实现其他的深度学习模型压缩与加速功能,如剪枝和分组卷积结构等。由于本文仅仅研究基于量化的模型压缩与加速,没有直接讨论剪枝的案例。参考文献[30]中的深层卷积神经网络模型。卷积神经网络由输入层、卷积层、池化层和全连接层组成,其与传统的人工神经网络的区别就在于添加了数量不等的卷积层和池化层,卷积层和池化层的主要作用就是对输入样本进行特征提取,从而让输入到全连接层的特征更具有代表性。CPU来计算,而不是使用单个或者多个设备中的GPU进行计算,例如边缘计算服务器通常仅仅具有CPU。因此所提出的分布式训练的方法是一种移动边缘计算的机器学习优化的辅助方法。

......

 

第六章总结与展望

 

其次,我们构建一个单个卷积层的CNN,并且考虑CPU硬件配置下8比特模型压缩案例,所采用数据集为MNIST。基于Pytorch规模量化API的实验结果显示,量化所导致手写体识别准确率下降是很小的。第五章第一节介绍了深层神经网络量化上的进展,第二节及其之后考虑一种移动边缘计算场景,即训练需要采用边缘计算中心的GPU的场景,所采用数据集为CIFAR10。我们采用第三方的9层卷积神经网络模型压缩和加速包,我们进行了8比特和16比特混合的模型压缩方案的性能评估。简言之,低精度量化是一个简单的、有效的减少模型大小的技术,它可以提升模型推理速度。这对于嵌入式设备和网络边缘AI应用都具有很重要的工程意义。下一代边缘设备都是智能的,但是这些智能必须被压缩到越来越小的外形尺寸中。AI应用程序的研发人员必须确保自己构建的新机器学习模型都经过优化,并且可以在多个边缘设备上进行快速推理。目前已有开源的量化模型有Dorefa-Net、Binary-Net和Tenary-Net等。由于篇幅,这里主要采用了上述9个卷积层的Dorefa-Net进行性能评估[30]。该第三方模型压缩(model-compression)包基于pytorch实现模型压缩,它具有多种量化选项,如任意位数(16/8/4/2bits)、三值/二值和组合。
参考文献(略)