中国工程论文网
代写工程论文
当前位置:工程论文网 > 软件工程论文 > 基于内容特征的多模态语义子空间映射软件工程研究

基于内容特征的多模态语义子空间映射软件工程研究

时间:2018-10-10 17:51来源:www.e-lunwen.com 作者:lgg 点击:
本文是一篇软件工程论文,软件工程是研究和应用如何以系统性的、规范化的、可定量的过程化方法去开发和维护软件,以及如何把经过时间考验而证明正确的管理技术和当前能够得到
本文是一篇软件工程论文,软件工程是研究和应用如何以系统性的、规范化的、可定量的过程化方法去开发和维护软件,以及如何把经过时间考验而证明正确的管理技术和当前能够得到的最好的技术方法结合起来。(以上内容来自百度百科)今天为大家推荐一篇软件工程论文,供大家参考。
 
第 1 章 绪论
 
1.1 研究背景与意义
过去十年,网络、移动通信和数字电视的发展及融合促进了图像、音频和视频内容的产生,使网络成为真正的多媒体平台[1-9]。除此之外,越来越多的多媒体数据采集设备融入到了人们生活的点点滴滴中,比如笔记本电脑和智能手机等移动设备。这些设备除了极大地方便了人们的日常生活外,也为每个人开辟了一条创造多媒体数据的捷径,例如录小视频、发朋友圈和拍摄美景等。与此同时,随着网络技术的发展,人们可以方便地把自己创造的多媒体数据上传到比如 Facebook、YouTuBe和微信之类的社交平台上,以便与亲朋好友分享自己的生活。据统计,早在 2013年 Facebook 的总照片数已达 2500 亿,平均每日提交的数量就有 3 亿 5000 万。到如今,Facebook 的总照片数量早已经突破万亿,而且这种惊人的增长速度还在持续。然而,由于多媒体数据纷繁多杂,人们难以从海量的资料里提取出对自己有用的部分。所以,怎样智能化地处理多媒体数据是一个非常有意义的课题[10-17]。单模态数据通常被表示为底层内容特征,比如颜色直方图和图像形状等。然而这种内容特征表达的直观语义与人们对数据的理解有巨大差异,也就造成了所谓的“语义鸿沟”[18-25]。例如,对于计算机来说,红色的苹果和红色的气球是一样的东西。显而易见,这样的结果实在难以满足用户的区分要求。所以,怎样最大程度地减少“语义鸿沟”显得至关重要。此外,异构多媒体数据的底层内容特征维度往往不同,因此,异构数据的相似性不能直接用底层内容特征来表达。不同模态的多媒体数据可以表示相同的语义,比如,猴子的叫声、描述猴子的文字和猴子的图片都表达出了“猴子”这一语义。然而,这三个不同模态的信息或许分别是由 150 维度的小波域特征、50 维度的颜色特征和 80 维度的文档频率特征来进行表达。因此,在语义的基础上,精准地挖掘模态间的相关性能够提升多媒体数据处理的效果[26-35]。
............
 
1.2 国内外研究现状
在多模态数据处理中,怎样衡量异构数据间的相似性是一个至关重要的问题,即“语义鸿沟”问题。大多数研究工作的目标是设计有效的方法来使多模态数据处理更准确和更具有扩展性。其中比较有代表性的做法就是从多模态数据中学得一个公共子空间,使得表达相同语义的异构数据在这个公共子空间中在一定程度上保持最大相关和距离最近;然后,再在这个公共子空间中作进一步处理,比如分类和检索等。常见的共享空间包含语义空间、哈希空间和相关性空间等[50-54]。典型相关分析(CCA)[51-53]是建立不同模态数据间关系时常用的无监督子空间学习方法之一,它被广泛用于多模态数据处理和一些视觉问题。CCA 的强大之处在于,它采用线性的方式,把不同形式的所有模态数据投影到共享的潜在子空间里,在这个潜在子空间里数据可以直接根据皮尔逊相关系数来进行比较。广义的典型相关分析(GCCA)[54]把 CCA 从两个模态数据间的相关性挖掘拓展到了多个模态。在 CCA 方法的基础上,Zhang 等人对图像和音频进行了相关性挖掘[53],并调整了异构数据在相关子空间里的结构。Rasiwasia 等人使用 CCA 方法,通过最大化文本和图像间的相关性系数来挖掘潜在信息[55],并结合语义信息在相关子空间上进行了多模态数据检索。利用 CCA 的扩展版 GCCA,Imura 等人同时对文本、图像和描述相关信息的音频这三个模态的数据进行了相关性挖掘,完成了多模态数据检索[56]。作为 CCA 的拓展版本,核典型相关性分析(KCCA)[52]被提出来用非线性的方式挖掘异构模态数据间的潜在信息。随后,Zhang 等人采用 KCCA 来对多模态数据进行相关性挖掘,并结合多核学习应用于多模态数据检索[57]。类似地,Li 等人介绍了一种多模态因子分析(CFA)方法[58]来评估两种模态数据之间的关联,并用于多模态数据检索。CFA 方法的核心是以欧氏距离为准则,最小化变换域中数据之间的距离。与 CCA 相比,CFA 提供了更好的鲁棒性和有效的特征选择。类似地,Wang 等人通过核方法推广了 CFA 来模拟两个多维变量之间的非线性关系,提出了核多模态因子分析(KCFA)[59]。然而像 CCA 和 CCA 的变体这样粗糙的处理,可能会丢失一些重要信息,从而影响匹配精度。因此,偏二乘回归(PLSR)[60]被提出来解决这个问题,它结合了 CCA、主成分分析(PCA)和多元线性回归(MLR)的优点。随后,为了更好地处理非线性数据,Liu 等人提出了多核偏二乘回归(MKPLSR)[61]。而且,Chen 等人将 PLSR 应用于多模态文档检索提出了原生空间匹配(OM)[62]。
........
 
第 2 章 多模态数据的特征分析和语义理解
 
再好的多媒体数据处理算法没有良好的特征也凸显不出它的有效性,而文本和图像是最为常见且易于表示的数据。因此,本章首先介绍了图像和文本的特征提取及预处理方法。多模态数据处理的难点就是如何挖掘异构数据间的潜在语义和相似性度量,而有效的解决思路是将不同模态特征映射到同一空间里。所以,本章接着分别介绍了多模态数据间的联合特征映射和基于因子分析的潜在关联挖掘。
 
2.1 多模态数据的特征提取和预处理
选择信息丰富、有区分度的独立特征是模式识别、分类和回归等多媒体数据研究中有效算法的关键步骤。特征的好坏将会对最后数据处理的准确率和精度有很大的影响,而且特定系统中特征的选择很可能高度依赖于具体问题。因此,选择最为适合的特征是进行数据处理的前提。本节将就文本和图像的常用特征提取方法和预处理方法进行详细的介绍。作为全局特征中的一种,颜色特征描述了图像的表面性质,因而不能很好地突出局部特征。但由于颜色特征给人的感受更为直观且易于提取,所以能够在多媒体数据处理中得到广泛采用。常用的颜色特征有直方图、空间集、相关图和颜色矩等,其中直方图用得最多[66]。它从整体上对图像进行特征提取,因而没有办法辨别颜色局部信息。其优点是能够轻易地刻画出各种颜色在整个图片当中所占的比例,所以对那些必须手动分割和无视位置信息的图片特别有用。
........
 
2.2 多模态数据间的联合特征映射
不同模态的数据特征维度和分布不同,因而处理优势和语义表达也有不小的差距。如果这种差距特别明显,那么就可以考虑用特征映射,将特征映射到有优势的特征空间中。本节以偏最小二乘回归为例,通过图像和文本间的线性特征映射,介绍了多模态数据间的联合特征映射方法。在现实工程应用中,通常会遇到需要挖掘两对特征间的依赖关系问题,而此时偏最小二乘回归(PLSR)就是比较经典的解决方法。特别适用于两组特征样本数很多而且有多重相关性的情况,这是传统的回归分析所没有的优点[60]。由于吸纳了PCA,CCA 和线性回归分析(LRA)的优点,它不仅提供了一个更为合理的模型,还提供了丰富而深入的信息。PLSR 的基本做法是先从自变量和因变量中分别抽象出主成分,并使其相关性联系最大,然后建立因变量和自变量对应的主成分的回归,假如这个时候已经能够达到用户所要求的精度那么就结束运算;否则就像之前一样不停地抽象出后续的主成分,直到能够达到用户所要求的精度再结束。最后,因变量通过自变量的主成分变量来建立其与自变量间的关系。
...........
 
第 3 章 基于因子分析优化的多模态特征子空间映射 ............20
3.1 监督式因子分析优化算法 ............ 20
3.2 实验结果分析........ 24
3.2.1 多模态数据集 ............. 25
3.2.2 对比实验结果与分析 ............. 26
3.3 本章小结 .... 29
第 4 章 基于多核偏二乘回归的多模态语义匹配........30
4.1 核偏二乘回归的多核优化 ............ 30
4.1.1 核函数选择 ..... 30
4.1.2 核偏最小二乘回归 ..... 33
4.1.3 多核优化方法 ............. 34
4.2 基于多核优化的多模态语义匹配算法 .... 34
4.3 实验结果与分析.... 36
4.3.1 实验设置 ......... 37
4.3.2 对比实验结果与分析 ............. 38
4.4 本章小结.... 42
第 5 章 总结与展望........43
5.1 总结............ 43
5.2 展望............ 43
 
第 4 章 基于多核偏二乘回归的多模态语义匹配
 
多模态数据处理的任务除了最基本的多模态数据混合分类以外,还有检索。考虑到多模态数据的非线性和多核学习的有效性,本章在多核偏二乘回归的基础上,将图像和文本的线性特征映射拓展到非线性特征映射,提出了基于多核偏二乘回归的多模态语义匹配,实现了多模态数据的分类和检索。
 
4.1 核偏二乘回归的多核优化
考虑到偏二乘回归是基于线性空间,所以引入了核函数,介绍了核偏二乘回归,并进一步分析了单核 PLSR 的优缺点,对其进行了多核优化。由于很多多模态数据都有非线性的特点,因而希望学习到的模型也是非线性的。而通常的做法就是选择一个函数将输入特征投影到另一个空间中去。而核函数恰好可以做到这点。此外,它还能够将一些在高维空间中难以进行的运算,转换到低维空间中进行运算,从而使那些线性不可分的数据得到较好地处理。比如,在图 4.1 中,目标是在二维空间中把分别代表正负样本的点正方形和圆形给分开,显然,这是用线性分类器是没有办法做到的,所以考虑用核函数将其映射到高维空间中去,这里为了方便显示,取这个“高维空间”为三维。经过核映射后,在三维空间中的正负样本如图 4.2 所示,此时就很容易用一个线性分类器达到用户想要的效果。因此,核函数不仅能够把线性不可分的数据映射到高维空间中,转化为线性可分,还能把一些在高维空间中难以进行的运算,转换到低维空间中进行计算。从图 4.3 中可以看出,在三维空间中的线性分类器,此时在二维空间中变成了非线性的分类器。
.........
 
总结
 
随着科技的进步和发展,多媒体数据已经遍布了我们的生活,并且它们的形式很少是单一的文本或者图像,而是视频、网页和朋友圈这种集多种模态数据于一体的形式出现。因此,人们对多媒体数据的处理需求也进而发展成为多模态数据的处理,其中最常见的就是分类和检索问题。如何挖掘多模态数据之间的联合信息,从而完成多模态数据的混合分类和检索已经成为了当下的研究热门。由于异构数据之间难以逾越的语义鸿沟问题,因此,我们必须采用一种方法来度量它们的相似性,从而将特殊的多模态数据处理转化为一般化的多媒体数据处理问题。对于上述问题,本文以特征映射为思想,展开了如下的研究工作:
(1) 本文首先提出了一种基于因子分析优化的多模态特征子空间映射(SAFA)算法,并用于多模态数据混合分类。它在多模态因子分析的基础上,做出了一些调整。考虑到文本特征的语义表达更为明晰,首先,通过一个线性映射矩阵将图像特征映射到文本空间中;然后在语义标签的基础上,通过让多模态文档内部数据在文本空间中的距离最小化来使其内部紧密联系;最后,在文本空间中学得一个线性分类器进行分类。通过在三个标准多模态数据集上的多模态数据分类实验,证实了SAFA 算法的有效性。
(2) 作为子空间学习方法的典型代表,典型相关分析被很多研究学者应用到多模态数据处理方法中并取得了不错的成绩。尽管如此,偏二乘回归集主成分分析、多变量线性回归和典型相关分析的优点为一体,因而更加适合本文提出的特征映射思想。考虑到多模态数据的非线性和多核学习的风靡,本文提出了另一种基于多核偏二乘回归的多模态语义匹配算法(MKOM)。它先通过多核偏二乘回归将图像特征映射到文本空间中,然后通过逻辑回归,分析多模态数据在文本空间上的语义,实现多模态数据的检索和分类。通过将不同特征对应的不同的核的合成,本文算法较为充分的挖掘了多模态数据的非线性性质和最大相关性,从而实现了多核非线性特征映射,完成了多模态数据检索和分类任务。最后,通过在二个标准数据集上将MKOM 与其他常用多模态数据处理方法进行对比,证明了 MKOM 算法的有效性。
..........
参考文献(略)
(责任编辑:gufeng)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
栏目列表
点击提交代写需求
点击提交代写需求
点击提交代写需求
推荐内容