深度学习理论及其在语音识别领域的应用

来源：筏尚旅游网

第33卷第3期第34期201年9月

通信对抗COMMUNICATIONCOUNTERMEASURESVol.33No.3Sep.2014··深度学习理论及其在语音识别领域的应用

22222

杨俊安1，，王一1，，刘辉1，，李晋徽1，，陆俊1，

（1.解放军电子工程学院，安徽合肥230037；2.安徽省电子制约技术重点实验室，安徽合肥230037）

摘要：深度学习是模式识别和机器学习领域最新的研究成果，它以强大的建模和表征能力在图像和语音处理等领域取得了很好的应用。将深度学习引入到电子对抗领域的语音识别中，首先简单介绍了深度随后阐述了目前语音识别领域中语种识别、说话人识别和关键词检出存在的问题，并学习的基本理论，

利用深度学习方法对这些突出的问题加以解决。

关键词：深度学习；深度信念网络；语音识别；特征提取；声学建模中图分类号:TN912.34

文献标志码:A

DeepLearningTheoryandItsApplication

inSpeechRecognition

22222

YANGJun-an1，，WANGYi1，，LIUHui1，，LIJin-hui1，，LUJun1，

(1.ElectronicEngineeringInstituteofPLA,HefeiAnhui230037,China;2.KeyLaboratoryofElectronicRestriction,HefeiAnhui230037,China)

Abstract:DeepLearningisanemergingareaofpatternrecognitionandmachinelearning.Ithasbeensuccess-fullyusedinimageandspeechprocessingbyitsmorepowerfulmodelingandrepresentationalabilities.Inthispaper,asanattempttosharethisexpertisewiththeresearchersintheareaofelectronicwarfare,wefirstlydis-cussthebasicprinciplesofdeeplearning,andthenweprovideasurveyontheexistinglanguagerecognition,speakeridentificationandkeywordsspottingtechnologies.Finally,inordertoovercometheinherentflawsinthesetechnologies,weusedeepbeliefnetworkasexamplestoimprovetheirperformances,experimentalresultsshowthatwiththehelpofdeeplearning,wecanachievebetterspeechrecognitionresultsthaneverbefore.Keywords:deeplearning;deepbeliefnetwork;speechrecognition;featureextraction;acousticmodeling

1引言

在经历了几十年的长足发展之后，语音信号处理技术已经迈向实用并逐渐形成了三个主要分支：语音合成、语音编码和语音识别[1]。对于电子对抗领域的研究人员来说，语音识别无疑是其中最令人感兴趣的方面。

语音识别就是让机器识别和理解语音信号，进而转化为相应的文本或命令[1]。在电子对抗中，语音识别技术有着非常广阔的应用前景，可以广泛应用于通信侦察、电话监听等领域，彻底改变现有的利用人工监听方式导致的效率低下、错误率高等问题。

然而现有的语音识别技术在应用过程中仍然存在着鲁棒性差、识别率低等突出问题[2]，这主要是因为传

收稿日期：2013-02-21

·2·通信对抗第33卷

统的语音建模工具无法准确地描述语音内部复杂的结且表征和建模能力不强。针对这一问题，神经网络大构，

师Hinton[3-4]于2006年首先提出深度学习（DeepLearn-ing）理论，并在图像处理、语音信号处理等领域得到了很好的应用，现已成为国际研究的热点。

本文在简要介绍深度学习理论之后，对其在电子对抗语音处理领域的应用作了初步研究。

CRFs)、最大熵模型(MaximumEn-ditionalRandomFields，

MaxEnt)、支持向量机（SupportVectorMachine，tropy，

SVM）等都属于浅层结构。相关研究已经证明，浅层结构对于内部结构不复杂、约束不强的数据具有较好的效果，但是当要处理真实世界中内部结构复杂的数据（如语音、自然声音、自然图像、视频等）时，这些模型就会出现表征能力不足的问题。而深度学习方法能够有效捕获隐藏的数据内部结构，利用更为强大的建模能力对数据进行表征。

2.2深度信念网络：一种典型的深度学习模型[10-11]

然而，通向深度学习的道路并非一帆风顺，如何对拥有多层非线性转换单元的模型进行有效训练成为摆在众多研究人员面前的难题。例如多层神经网络就是拥有多层非线性转换单元的深度结构模型，但是在对其进行训练的过程中，研究人员很快发现传统的神经网络BP训练算法很容易陷入局部最优，并且这种情况会随着神经网络层数的增加越发严重。理论和实验均表明传统的BP训练算法不适用于训练多层神经网络。为了解决训练多层神经网络的问题，Hinton基于深度学习理论，率先提出了深度信念网络（DeepBeliefNetworks,DBN）这种特殊的多层神经网络。DBN与传统的多层神经网络既有共同点又有区别性。共同点是DBN本质上仍然是一种多层神经网络，在网络初始值确定后仍然使用BP算法进行微调；不同的是相比于传统神经网络判DBN是一种生成型和判决型相结合决型模型的本质，

的混合模型，它可获取观测数据和标签的联合概率分布，这就方便了先验概率和后验概率的估计，而判决型模型仅能对后验概率进行估计。另外DBN在训练阶段需要使用非监督的方法进行预训练后确定初始值，这就降低了对输入数据的要求。下面通过简单介绍DBN的构成以及训练方法来具体阐述如何构建一个深度结构模型。

DBN由一系列受限波尔兹曼机（RestrictedBoltz-RBM）组成。RBM的结构如图1所示，它mannMachine，

的可视层和隐层彼此相互连接（而层内无连接），隐层单元hj主要用于获取可视单元vi中的高阶相关性。相比传统的深度sigmoid置信网络，RBM中权值的学习相对容易。为获取权值，预训练采用无监督贪心逐层方式来实现，这种方式也被Hinton称作对比散度（Contrastivedivergence，CD）。在训练过程中，首先将可视单元vi映射到隐层单元hj；然后可视单元以随机方式由产生的隐层单元重建；这些新可视单元再次向隐层单元映射，这样

2深度学习理论简介

在提出之后的短短数年里，深度学习就以其强大的

对数据内部结构的表征能力赢得了国际学术界的广泛重视，美国国防高级研究计划局（DefenseAdvancedRe-searchProjectAgency，DARPA）也于2009年成立了深度学习项目组。而更值得一提的是，深度学习已经开始在工程实践领域得到了应用。美国微软公司已经成功地将深度学习方法应用于自己的语音识别系统当中，它能够将单词错误率相较之前的最优方法降低约30%。因此，深度学习被认为是继1997年的隐马尔科夫(HiddenMarkovModel,HMM)模型之后，语音识别领域的又一次重大突破[5]。在国内，科大讯飞公司已经将深度学习应用于“讯飞语音输入法”中，并取得了识别正确率较原有方法提高约14%的效果。因此，无论是理论研究还是工程应用，深度学习方法都不失为一个值得深入研究的新领域。

2.1深度学习的神经学启示

深度学习的提出源于神经学研究的不断深入。神经学领域的研究人员发现，尽管人们每时每刻都面临着大量的感知数据，却总能以一种灵巧的方式获取值得注意的重要信息。解剖发现哺乳类动物的大脑皮质其实并未对得到的视觉或听觉数据直接进行特征提取，而是让接收到的刺激信号通过一个复杂的多层网络模型，从而捕获观测数据所展现的规则，进而识别物体；也就是说人脑是根据经过多次聚集和分解过程处理后的信息来识别物体[6-8]。受到此研究成果的启发，Hinton等人提出了深度学习的概念。

深度学习本质上是对拥有深层结构的模型进行训练的一类方法的统称，因此首先来明确深层结构的概念。深层结构是相对于浅层结构而言的，它们的区别就在于拥有的非线性运算单元的层数[9]。一般认为，深层结构是指非线性转换单元的层数大于或等于两层的模型；而浅层结构则专指只包含单层非线性转换单元的模型，我们日常经常使用的HMM模型、条件随机场(Con-

第3期杨俊安，等：深度学习理论及其在语音识别领域的应用

出RBM的权值更新准则：

△wij=＜Edata(vihj)＞-＜Emodel(vihj)＞

·3·

就获取了隐层单元进一步重建。执行这种反复步骤叫做（GibbsSample）。隐层激活单元和可视输入吉布斯采样

单元的关联差异形成了权值更新的基础。

隐层1

（8）

这里＜＞表示期望。＜Edata(vihj)＞是数据集的期望，＜Edata(vihj)＞是模型中定义的期望。由于＜Emodel(vihj)＞难于计算，一般利用与梯度相类似的对比散度算法，＜Emodel(vihj)＞被替换为从数据开始运行的一次全吉布斯采样。

输入层

v1v2v3v4v5

精心训练RBM对成功应用深度学习是一个关键。通过组合大量逐层学习自底向上的RBM可以构建一个DBN（如图2所示），这个逐层的学习策略理论证明可参见相关文献。它证明了上述逐层学习程序提高了训练数据基于混合模型的似然概率的变化下界。也就是说，这种贪婪的算法近似于最大似然学习。注意这种学习是非监督的并不需要无标签样本。

输出层

图1RBM子模块模型

用数学公式来表示，在一个RBM，可视单元vi和隐单元hj在给定模型条件下的联合概率分布可用能量函数来表示：

h；θ))p(v，h；θ)=exp(-E(v，

分函数。

模型赋予一个可视向量的边际概率是：

h；θ))p(v，h；θ)=Σhexp(-E(v，（2）Z对一个伯努利（可视）-伯努利（隐藏）RBM，能量函数定义为：

E(v，h；θ)=-ΣΣwijvihj-Σbivi-Σajhj

i=1j=1

i=1

j=1

（1）

这里Z=ΣvΣhexp(-E(v，h；θ)是一个归一化因子或称作配

隐层3

隐层2

隐层1

（3）

图2

DBN模型

输入层

这里wij是可视单元和隐单元的对称作用权值，bi和aj是偏置量，I和J是可视单元和隐藏单元的数目。

条件概率可以如下式计算：

p(hj=1|v；θ)=σp(vj=1|h；θ)=σ

上述RBM的训练过程在整个DBN训练中被称为预训练，采用的是非监督学习方法；而在架构起整个DBN

（4）（5）

之后，就可以采用类似传统BP神经网络的监督式学习方式，对整个网络进行由后至前的回调，最终建立DBN。DBN之所以有效的原因就是因为采用了非监督学习的方式得到整个网络的初始值，相对于随机选取初始值的神经网络它能够有效避免陷入局部最优的问题。

ΣΣ

Ii=1Jj=1

wijvi+ajwijhi+bi

ΣΣJ

这里的激励函数σ(x)=1/(1+exp(x))，理论上，任意指数函数都可以用来作为激励函数。

而对于一个高斯（可视）-伯努利（隐藏）RBM，其能量函数是：

E(v，h；θ)=-ΣΣwijvihj-1

2i=1j=1相应的条件概率为：

p(vi=1|h；θ)=N

3语音识别领域研究现状

语音识别包括语种识别、说话人识别、关键词检出三个部分。虽然近年来的语音识别新技术层出不穷，但是语音识别技术总体上还是可以用一个统一的框架来表示，其结构如图3[1]所示。

输入语言

训练识别

识别结果

Σ(v-b)-Σah

i=1

j=1

（6）

ΣΣ

Jj=1

wijhi+bi，1

Σ）（7

这里vi是满足均值为Σwijhi+bi方差为1的高斯分布

j=1

的实数值。高斯-伯努利RBMs可用于将实值随机变量转换到二进制随机变量，然后再进一步利用伯努利-伯努利RBMs处理。

利用对数似然概率logp(v，h；θ)的梯度，可以推导

图3语音识别过程的总体结构

虽然语音识别技术在近些年来取得了巨大进步，但是仍然应该看到距离语音识别技术模仿和赶超的对象———人的语音识别能力还是有很大的差距。研究表

·4·通信对抗第33卷

明，当处于海量的语音环境中，而且这些语音中包含大量来源不同的噪声、信道干扰和口音时，人类辨别特定语音(特定的说话人、特定的语言以及特定的文字等)的能力要远远好于现有最优的语音识别技术，因此语音识别技术的未来既充满着挑战又饱含着机遇。根据对现有语音识别技术的理解，可以从以下几个方面进行突破[2]：

1）更加鲁棒、更具有表征语音本质能力的语音特征。特征对于模式识别领域具有特别重要的意义，一个好的特征提取算法能够有效地提高后续的识别正确率，对于语音识别领域也是如此。现有的语音特征提取方法如梅尔倒谱系数（Mel-FrequencyCepstralCoefficient,MFCC）、差分倒谱参数(ShiftedDeltaCepstra,SDC)等大多存在着无法对包含更多语音特征的多帧语音进行处理、对外部环境敏感、参数选择复杂等问题，因此研究新的语音特征提取方法成为语音识别领域突破的重点方向。

2）以HMM为主的声学模型与其他模型的结合。现有的研究已经证明了HMM是一个有效的声学模型，但是仍然可以使用如神经网络、SVM与HMM相结合的方法提高声学模型对声学特征的建模表征能力。

这两个方面问题都可以通过深度学习加以解决。

瓶颈的意思就是指该层神经元个数相对于其他层要少得多。以一个5层网络为例，基于BN-DBN的语音特征提取方法可以分为两个步骤实施：第一个步骤是建立神经网络，这个过程与普通的DBN架构方式无异，即通过2.2节所述的预训练与微调，建立一个DBN；第二个步骤则是将瓶颈层之后的网络去除(以5层网络为例，即去除第4和第5层)，而将原来的瓶颈层作为输出层。图4是一个5层的基于BN-DBN的语音特征提取方法实施示意图。

图4基于BN-DBN的语音特征提取方法

而在实际应用中，可充分利用神经网络对多帧信号的处理能力，将多帧特征拼接后送入网络(在实验中选取连续10帧语音信号送入神经网络)，因此输入层神经元个数等同于帧数×每帧特征的维数；在设定隐层1的神经元个数时，通常将其神经元个数设得尽量大，使其能够提供强大的建模能力，保证其能够获取数据的内部结构，隐层3的神经元个数等同于隐层1；而对于瓶颈层，通常将其神经元个数设定为等同于单帧的维数。

利用BN-DBN在NISTLRE2007语音库和实际采集语音中进行了实验，结果证明了BN-DBN的特征表现要好于现有的其他特征。4.2

利用深度信念网络增强HMM模型的建模能力[15]GMM是目前主流的对HMM输出概率进行建模的方法，基于GMM-HMM的声学模型被广泛应用于现有的连续语音识别系统当中；但是当面对更加复杂的语音识别环境时，GMM逐渐显示出建模能力不足的问题，因此可尝试采用DBN代替GMM。相对于GMM，DBN拥有以下优点：

1)能够对包含多帧数据的特征进行处理，可以表征更丰富的语音变化特征；

2)相对于GMM,DBN对HMM中后验概率的估计不需要很苛刻的数据分布假设，条件更宽泛；

3)GMM本质上仍属于浅层结构，属于深层结构的

4深度学习理论在语音识别领域的应用

目前深度学习理论已成功应用于音素识别、大词汇量连续语音识别（LVCSR）中[12-16]，其应用主要集中在利用深度学习方法提取更具表征能力的特征以及对现有基于HMM的声学模型进行加强上。下面结合笔者前期针对海事卫星话音信号识别所做的工作，对这两方面的应用进行简单介绍。

4.1利用瓶颈深度信念网络进行语种特征提取

利用传统语音特征提取算法MFCC提取的特征，由于只对单帧信号作用，因此不能很好地涵盖有效的语种且容易受到噪声污染。而常用的SDC特征的计算信息，

受控于其4个参数：N-d-P-k（N：倒谱参数的个数；d：计P：计算差分倒谱的相邻块的帧算差分倒谱的帧间间隔；

移；k：差分倒谱块的个数），通常，N-d-P-k需要利用实验的结果来人工确定最优组合，过程繁琐且耗费系统资源大。因此，采用一种瓶颈深度信念网络（Bottle-NeckDeepBeliefNetworks,BN-DBN）来提取更加适合。

瓶颈的概念最早由Grézl等人[17]于2007年提出并应用于连续语音识别当中，而BN-DBN则是瓶颈的概念与DBN相结合的产物。它通常被设定为一个奇数层的多层ANN，并将其中最中间的一层命名为瓶颈层。顾名思义，

第3期杨俊安，等：深度学习理论及其在语音识别领域的应用·5·

DBN拥有更强的表征能力，能够对复杂的语音变化情况进行建模。

[6]

时演示的惊人突破[EB/OL].2012-11-12/2012-11-13.http://blog.sina.com.cn/s/blog_4caedc7a0102ejlz.html.LeeTS,MumfordD.HierarchicalBayesianInferenceintheVisualCortex[J]//JOptSocAmAOptImageSciVis,2003,20(7):1434-1448.[7]

SerreH.RobustObjectRecognitionwithCortex-likeMechanisms[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2007,29(3):411-426.[8]

LeeT,MumfordD,RomeroR,etal.TheRoleofthePrimaryVisualCortexinHigherLevelVision[J].VisionRes,1998,38(15-16):2429-2454.[9]

DengL.AnOverviewofDeep-structuredLearningforInformationProcessing[C]//ProceedingsofAsian-pacificSignalandInformationAnnualSummitandConference2011,Xi'an,October18-21,2011.[10]

HintonGE.APracticalGuidetoTrainingRestrictedBoltzmannMachines[M].MontavonG,OrrGB,MullerKR.NeuralNetworks:TricksoftheTrade.2ndEdition.Berlin:Springer-Verlag,2012:599-619.[11][12]

BengioY.LearningDeepArchitecturesforAI[J].Founda-tionsandTrendsinMachineLearning,2009,2(1):1-127.MohamedA,DahlG,HintonG.DeepBeliefNetworksforPhoneRecognition

[C]//NIPSWorkshoponDeep

LearningforSpeechRecognitionandRelatedApplica-tions,Whistler,BC,Canada,December2009.[13]

MohamedA,YuD,DengL.InvestigationofFull-se-quenceTrainingofDeepBeliefNetworksforSpeechRecognition[C]//Interspeech,2010:2846-2849.[14]

DahlGE,YuD,DengL,etal.LargeVocabularyContin-uousSpeechRecognitionwithContext-DependentDBN-HMMs[C]//ICASSP,2011.[15]

MohamedA,DahlG.AcousticModelingUsingDeepBe-liefNetworks[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):14-22.[16]

SivaramG,HermanskyH.SparseMultilayerPerceptronforPhonemeRecognition[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):23-29.[17]

GrézlF,KarafiatM,KontarS,etal.ProbabilisticandBot-tle-neckFeaturesforLVCSRofMeetings[C]//Proceed-ingsofIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,Honolulu,HI,USA,Apr2007:757-760.

图5基于DBN-HMM的声学模型

一个完整的基于DBN-HMM的声学模型如图5所示。在随后的实验中，利用该模型替代原有的GMM-HMM声学模型，并进行了连续语音关键词检测，结果表明能够有效提高关键词检出率。

5结束语

本文简要介绍了深度学习发展历史以及目前应用最多的深度学习模型———深度信念神经网络的概念，并将深度学习引入到语音识别领域，用语种识别和关键词检出领域的两个应用阐明了深度学习方法在电子对抗语音处理领域的应用前景。作为模式识别与机器学习领域目前最前沿、最热门的研究方向，深度学习的研究方兴未艾，还有许多值得深入研究的理论热点、难点，而如何更好地将其应用于电子对抗领域其他研究方向也是一个值得重点关注的问题。

参考文献

[1][2]

韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.

PichenyM,NahamooD,GoelV,etal.TrendsandAd-vancesinSpeechRecognition[J].IBMJournalofResearchandDevelopment,2011,55(5):2-2.[3]

HintonGE,SalakhutdinovR.ReducingtheDimension-alityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-507.[4]

HintonGE,OsinderoS,TehY.AFastLearningAlgo-rithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.[5]

RashidR.“跨越语言，沟通无碍”微软语音机器翻译实

作者简介

杨俊安(1965-)，男，安徽巢湖人，教授，博士生导师，研究方向为语音信号处理、智能计算等。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文