上海论文网提供MBA论文选题服务,专业提供硕士毕业论文服务。
导航 当前位置:上海论文网 > 工程论文 > 软件工程论文 > 正文
端到端语音识别中编解码器的研究与优化
  • 论文价格:150
  • 用途:硕士毕业论文 Master Thesis
  • 编辑:若诗
  • 点击次数:
  • 论文字数:0
  • 论文编号:el2021012720463421830
  • 日期:2021-01-30
  • 来源:上海论文网
tagTAG:
本文是软件工程论文,在基于深度神经网络的语音识别技术中心,端到端方法逐渐成为主流方法并开始挑战HMM方法的地位,但端到端方法还有一些不足之处。因此,本文围绕语音识别理论,在端到端模型的基础上探寻更加高效、简洁的语音识别模型。现将本文工作总结如下:最后引入端到端方法,并在识别准确率、训练效率等方面比较了几种端到端方法的表现。针对基于HMM/DNN的模型存在优化目标不一致的问题。该算法通过编码器提取高级特征,独特的三角形结构还起到了压缩特征的目的,同时保留了原始音频的有效信息,解码器中使用CTC-Attention联合解码,提高了识别准确率。对于给定句子,使用历史词的独热编码作为前馈神经网络的输入,并将他们压缩成一个具有连续值的特征向量。这种方法实际上也是使用的固定上下文长度。并且由于softmax层需要大量的计算,使得这一方法存在训练代价昂贵的问题。

......

 

第一章绪论

 

语音识别的多数研究是在对问题做假设的基础上进行的,据此语音信号序列和词信号之间的联系通过若干个组件来实现,然后逐步地转换生成最终的词序列。然而这些假设中有一些在真实场景下是有问题的。而端到端语音识别的实质就是过滤可能存在问题的假设而借助数据的驱动,选择更适合的方法让序列转换的结果更准确。在语音识别中输出序列长度一般比输入序列长度要短很多,CTC正好适用这样的问题。另外,CTC可以相对自由地选择建模单元。但由于训练稳定性差且无法进行语言建模,CTC模型相对于传统模型仍然更难训练。Attention模型首先把语音信号序列转换成一个中间层的序列表达,基于这一中间表达实现了基于递归神经网络的生成模型,但是在应用到语音识别中时存在一些问题:只适合短句识别且效果不稳定。针对这些问题,将CTC和Attention结合起来是一种不错的选择。但即便把CTC与Attention两种模型结合起来,仍然需要解决一些问题:如何构建更好的模型结构;如何为端到端模型提供更加专业的语言知识等。
软件工程论文范文

........

 

第二章相关技术

 

2.1语音识别原理
随之出现深度学习方法逐渐缓解了统计语言模型的问题,而且随着深度学习方法的不断发展,使用神经网络构建语言模型的方法正逐渐取代传统的n-gram语言模型方法。Bengio等[50]首先提出了使用前馈神经网络构建语言模型的方法采用分布式表示解决了数据稀疏难题对统计建模的影响,克服了模型参数的维度灾难问题。但是前馈神经网络的softmax层存在运算量大的问题而且本质上其输入层仍采用n-1个词作为历史信息且n值需要事先指定,并没有解决长期依赖的问题[67]。基于Bengio等人的工作,Mikolov等人[51][52]在2010年提出使用RNN训练语言模型,通过隐藏层的循环获得更多的上下文信息同时降低了模型的参数个数。然而由于RNN存在梯度消失的问题,使得该方法对长距离信息的学习变得困难,虽然理论上RNN可以得到任意长度的上下文信息[58]但实际的性能分析表明,RNNLM的性能相当于N为8或9时的n-gram语言模型[60]。此外,RNNLM中存在的softmax输出层计算量太大的问题也没有得到很好的解决。
软件工程论文怎么写

 

2.2声学模型
语言模型表达了一个句子出现的可能性以及合理与否。有些语言模型将每个单词序列的概率或权重作为语言得分来给出。该得分表示假定的用户说出单词序列的可能性。通过语言模型,可以排除语音识别过程中不合语法和不太可能的句子,从而降低识别的错误率。目前语言模型在自然语言相关处理方面应用相当广泛,除了本文的语音识别外,还有机器翻译、词性标注、句法分析、问答系统以及自动文摘等应用。从技术的角度看,语言模型主要可以分为两大类:统计语言模型和神经语言模型。之前的工作通过将RNN与HMM组合在混合系统中来将RNN用于时序分类。但是,这种方法除了继承HMM的缺点之外,混合系统也没有充分利用RNN的全部潜力进行长期序列建模。因此,直接训练RNN用于时序分类任务似乎更加可行。CTC通过允许网络在输入序列的任何点进行标签预测来实现此目的,只要标签的整体顺序正确即可。由于CTC不关心目标标签与输入序列的对齐且其直接输出完整的标签序列的概率,这使得CTC在不做数据分段和外部后处理的前提下就可以将网络用作时序分类器。

 

第三章改进的编码器网络在端到端方法中的应用..............................................................................................22
3.1引言..............................................................................................................................................................22
3.2相关工作......................................................................................................................................................23
3.3基于tBLSTM的端到端语音识别模型.....................................................................................................26
第四章外部语言模型在端到端方法中的应用......................................................................................................35
4.1引言..............................................................................................................................................................35
4.2相关工作......................................................................................................................................................36
4.3IndRNNLM的实现与解码.........................................................................................................................39
第五章总结与展望..................................................................................................................................................48

 

第四章外部语言模型在端到端方法中的应用

 

4.1引言
端到端语音识别方法已经成为语音识别领域的新趋势。而语言模型作为纠正语音识别结果中语义错误的重要方法,也一直是研究者们关注的重点。虽然端到端语音识别方法可以从训练音频的文本中获得一些语言知识,但相比语言模型来说,其语言知识还是远远不够的,为了得到较为准确语音识别结果,语言模型仍是语音识别系统的首选方法。语言模型可以分为统计语言模型以及神经语言模型。统计语言模型的主要思想是:给定前面的词,求后面一个词出现的概率,通常使用单词组合出现的频率作为其概率。但是统计语言模型存在两个问题:自由参数数目过多;数据的稀疏性也叫零概率问题。为了解决这两个问题,出现了n-gram语言模型,虽然n-gram语言模型具有实现简单、可靠等优点,但是仍然存在没有长距离依赖、泛化能力弱、维度灾难等缺陷。避免这个问题的一种方法是使用LSTM单元,其存储单元可以存储任意时间量的值。Sundermeyer等人[53]的研究表明LSTM单元在语言建模方面比RNN会产生更好的结果。然而,LSTM还是存在梯度衰减的问题,这使得LSTM难以实现深度网络。无论是RNN中的梯度爆炸或梯度消失还是LSTM中的梯度衰减,这些都要归咎于其梯度在传播中的衰减或增长。在RNN及其变体中,每当神经网络误差函数的梯度通过神经网络的单元传播回来时,它就会以某个因子被缩放,该因子要么大于1,要么小于1[71]。由此造成的后果就是梯度随着时间的推移而呈指数衰减或衰减。因此,梯度要么支配下一个权重适应步骤,要么有效地丢失。

 

4.2相关工作
语言模型可以对自然语言的先验知识进行建模并帮助解决声学信息的二义性问题,其在自动语音识别中一直扮演着重要的角色。构建语言模型的本质是解决序列数据的预测问题。而神经网络特别适用于序列数据的处理,2003年,Bengio等人[50]首次提出将神经网络用于语言建模任务中。此外,这种方法还有一个很大的缺陷:只能利用固定数量的上下文单词预测下一个单词,而且这个固定的数量还需要事先指定。这种缺陷是由于FNN本身的结构导致的,即FNN缺少记忆性。Mikolov等人基于Bengio等人[50]的工作,使用RNN进行语言建模[51],提出了基于RNN的语言模型(RNNLM)。与前馈神经网络不同,RNN中的循环连接使得模型可以获得更大范围的上下文信息,并且相比于n-gram模型取得了显著的提升。但是,RNN虽然理论上可以取得任意长度的上下文信息,但在实际操作中,效果并不理想。针对RNNLM有很多改进方法[65][66][68],如可以通过将单词分为若干类来加速训练并且可以采用基于类的因子分解来避免输出层计算量大的问题[63]或使用潜在狄利克雷分配(LDA)[62]增加具有上下文信息的输入特征进一步提升模型性能。尽管通过使用数据并行性可以在GPU上有效地训练RNN语言模型,但由于RNN的梯度消失和梯度爆炸的问题,使用反向传播来训练参数存在一些困难。

........

 

第五章总结与展望
深度学习的在近几年来极大的改变了语音识别的发展,特别是深度神经网络的出现,将语音识别的错误率相对下降了30%甚至更多,而这种下降使得语音识别开始走向商业化。此外,由于移动设备对语音识别的需求日渐增长以及计算能力的显著提升和大数据驱动,这些都使得深度学习在大词汇连续语音识别上取得了前所未有的成功。在voxforge数据集上得到的实验结果也达到了较好的性能。针对端到端语音识别模型语言知识获取上的不足,本文提出训练外部语言模型来弥补这一缺陷。本文提出一种基于IndRNN的语言模型方法。其特征在于首次使用IndRNN作为网络基本单元,提出了针对IndRNN的正则化方法IndDrop并提出使用LBL用于解决softmax层计算量大的问题。最后,将语言模型和端到端语音识别模型想融合进行解码。语言模型在PTB数据集上的实验结果显示,这一方法在取得较低困惑度的同时收敛速度也有所改进,证实了该方法的有效性。在LibriSpeech数据集上的语音识别任务实验表明,我们提出的方法相较其他方法具有一定的优越性,取得了11.62%的字错误率,相比不使用语言模型的情况降低了3.4%。
参考文献(略)