上海论文网提供MBA论文选题服务,专业提供硕士毕业论文服务。
导航 当前位置:上海论文网 > 计算机论文 > 正文
视觉数据的智能语义生成方法研究
  • 论文价格:150
  • 用途:硕士毕业论文 Master Thesis
  • 编辑:若诗
  • 点击次数:
  • 论文字数:95433
  • 论文编号:el2021040920344722040
  • 日期:2021-04-13
  • 来源:上海论文网
本文是计算机论文,本文以视觉内容描述研究为主题,分别研究了视频的双向时序特征表示、用于描述生成的自适应注意力机制、多视角视频内容描述以及视觉内容描述补全等几方面问题。所研究的子问题从视觉特征表示到视觉­语言连接、描述充分性、视觉­语言协调性等方面,层层递进地对视觉内容描述进行了系统研究。在每个子问题研究最后,均通过大量的实验验证了相关研究问题的假设和方法的有效性,并结合实验示例对研究问题进行了详细分析。以下将对本文的研究工作进行简要总结。在基于带注意力机制的双向视频特征表示研究中,有效地提升了视频的时序特征表示能力。在描述生成阶段,为了增强视频和描述的局部关联性以生成更加准确的语言描述,所提方法在语言生成模型中集成时序注意力机制,以将每个单词与视频中最相关的片段相关联。同时,该工作提出采用单词隐藏层状态嵌入作为语义信息来源的方式以获取当前单词所需的语言学信息。基于“视觉门控单元”,自适应注意力机制可以在语言生成过程中根据当前单词状态,选择性地利用视觉信息和语言学知识,从而有效地提升描述生成的性能。

......

 

第一章绪论

 

本文将以视觉内容描述研究中的关键问题(如图1­3所示)贯穿全文,依次研究基于注意力的双向视频特征表示、用于描述生成的自适应注意力机制、多视角视频描述以及视觉内容描述补全等子问题。通过这些研究子问题,本文从视觉特征表示到视觉­语言关联、从单个描述到多视角描述的丰富性和充分性、从视觉内容理解到视觉­语言联合理解等几个方面层层递进、深入研究视觉内容描述问题。更为详细地,本文的主要贡献和创新点如下:(1)该方法同时考虑视频的整体特征和局部片段特征,设计了一种时序注意力机制以将重要的视频片段信息融合到双向时序编码和描述单词生成过程中,从而有效地提高视觉和语言的局部关联性。在多个视频描述数据集上的实验结果验证了所提方法的有效性。(2)通常地,语言描述中有些单词表示具体内容并与视觉内容相关,有些单词则主要用来连接实际内容的功能性单词并与视觉内容无关,而传统视觉注意力机制通常忽略这一问题。本方法在所提自适应注意力机制中设计了一种“视觉门控单元”,用于控制当前单词的信息来源,即视觉内容或语言学知识。

.....

 

第二章理论基础

 

2.1深度卷积
神经网络在生物神经系统中,大多数神经元把它们的输出转化为简短的时序电压脉冲信号(也称之为动作电位),这些脉冲信号在神经元细胞体或其附近以恒定的电压和振幅穿越个体神经元(即激活),以达到在神经元之间传递信号的功能[61]。受此启发,人工神经网络中的神经元模型x采用突触权值、加法器和激活函数来模拟整个神经信号传递的过程。与数字电路中电路的通断用开关实现类似,早期的人工神经网络采用激活与否来判断信号是否通过该神经元传递,因此,理想的激活函数如图2­5中(a)图中的阶跃函数,采用0­1指示神经元是否激活,从而过滤掉不重要的信息,同时引入非线性以增强特征的表征能力。视觉内容理解的目标在于使机器像人一样将图像或者视频通过数字化呈现的内容进行抽象化、语义化,从而模拟人类视觉语义感知机制。基于不同的理解层次和粒度,当前研究较多的任务包括识别与分类、标注、检测、问答以及描述等。本文研究着力于视觉内容描述研究,而在视觉内容理解与描述中,如章节1.3中所述,视觉内容描述包括检索、基于模板以及基于语言模型等方法。本文研究均采用基于神经语言模型的方式,故本小节将从此方面对基础方法进行介绍。

 

2.2循环神经网络
针对这一任务,首先收集并标注了一个包含3,136个视频和41,031条描述的多视角视频描述数据集,该数据集填补了多视角视频描述研究的空白,为后续研究提供了实验基础。其次,本文提出了一种视角感知的多视角视频描述方法,该方法采用长短时记忆模型挖掘视频中所包含的多个不同视角。在多视角描述生成过程中,基于不同视角的特征表示生成多视角视频描述语句。最后,该工作提出了一种基于已有评测指标的多视角描述评测方法,该评测方法采用二部图最大匹配的方式,从语义相似性、视角完整性及紧凑性三个方面综合评估所生成多视角语言描述的质量。在视觉内容描述补全研究中,本文旨在联合理解视觉信息和待补全描述的语法语义信息,生成合适的文本片段以完善待补全描述,从而使得其在视觉内容和语法语义上均具有较高的准确性。在该研究中,本文首先基于已有图像描述数据集构建了一个图像描述补全数据集,该数据集将语言描述中与视觉实体相关的短语/词等文本片段去除,采用空格“____”替代。

 

第三章基于带注意力的双向长短时记忆模型的视频描述方法..........................35
3.1引言..................................................................................................35
3.2基于注意力的双向LSTM视频描述方法..............................................38
3.3实验评估...........................................................................................42
3.4本章小结...........................................................................................49
第四章基于自适应注意力机制的视觉内容描述方法........................................50
4.1引言..................................................................................................50
4.2基于自适应注意力机制的视觉内容描述生成........................................51
4.3实验评估...........................................................................................55
第五章基于多视角的视频内容描述研究.........................................................66
5.1引言..................................................................................................66
5.2多视角描述数据集.............................................................................69
5.3多视角感知描述生成方法...................................................................72

.....

 

第六章基于实体的视觉内容描述补全研究

 

6.1引言
本章提出的基于实体的视觉内容描述补全任务同时从关注的特定视觉内容和描述的前后语义及语法结构出发,更契合跨模态视觉内容和语义理解的目标。此外,如图6­1所示,本章任务中的缺失文本片段长度不确定、位置不确定等灵活性使得研究任务与实际应用更加接近,且更具有挑战性。由于需要同时考虑与空格“____”前后已有文本片段的语法相容性,使得本章的视觉内容描述补全不仅要求正确识别图像中的相关内容,还需要深入语言层面,判断所缺失片段在句子中的语法成分等语言学信息。基于自适应注意力机制的视觉内容描述方法该工作提出一种自适应注意力机制,旨在解决注意力机制在视觉内容描述生成过程中“无差别地”的将所有单词均与视觉信息相关联这一问题,提升视觉­语义关联的准确性。基于带注意力的双向长短时记忆模型的视频描述方法该工作以视频时序特征表示为切入点,提出采用双向时序方式以对视频进行编码,其分别从前后向时间序列中获取有用信息以增强视频的时序特征表示能力。
计算机论文范文

 

6.2数据集介绍
综上所述,经过视觉和语言特征表示、多模态特征融合以及缺失文本片段生成等模块,本节所提出的基于自适应动态注意力的多模态融合网络可以有效地从图像和待补全文本中感知视觉语义信息,并生成合适的文本片段以补全给定图像描述语句。同时,通过自适应动态注意力机制,文本生成过程中可以更有效地利用视觉和文本信息,从而使得补全后的描述在内容和语法语义上更加准确。本节将对视觉内容描述补全进行实验分析。为了验证所提方法的有效性,本节对比了现有的视觉内容补全相关方法。同时,考虑到视觉问答同样采用图像和文本作为输入,本节实现并改进了几种视觉问答的最新方法以用于视觉内容描述补全,并与所提方法进行性能比较及结果分析。本节分别从评测指标得分定量分析和样例展示定性分析两方面,深入全面地分析并讨论所提出的图像内容描述补全方法,并探讨指标的准确性和公平性以及未来可改进的方向。此外,本节还进一步分析了缺失文本片段的不同长度在各种评测指标中的表现,结果如图6­6中所示。通过观察可以发现,当长度从一个单词增加到两个单词时,所有评测指标结果均得到明显提升。从任务特性的角度来看,大多数包含两个单词的文本片段都以冠词(“a”,“an”或“the”)和名词构成,这些冠词容易被准确地生成,并在指标评测过程中与人工标注精确匹配从而导致得分提高。
计算机论文怎么写

.....
 

第七章全文总结与展望

 

最后,在语言生成模型中,该单元根据当前单词在描述中的成分自适应地选择利用视觉内容和语言学信息。传统视觉注意力机制通常忽略了对“实义词”和“功能性单词”的区别,各单词均与视觉内容进行关联。然而,“功能性单词”大多与视觉内容无关,其更取决于语言学知识。本文所提出的自适应注意力机制充分考虑了不同单词的成分特性,通过将已生成单词的隐藏层状态向量嵌入到语义空间以表示当前的语言学信息。此外,将视觉数据中所提取的语义标签作为视觉信息,并在描述生成过程中选择性地利用上述两种信息,以模拟人类注意力机制,提升描述的准确性。在多视角视频描述研究中,本文从更为充分和完善地理解并描述丰富的视频内容出发,提出了一种新的多视角视频描述任务。然后,提出了一种基于自适应动态注意力机制的多模态融合网络,该网络同时感知图像及待补全描述,并动态地更新语言注意力内容集,生成空缺文本片段内容。实验结果表明,所提方法有效地实现了多模态语义感知,并生成了合适的文本片段以完善待补全的语言描述。
参考文献(略)