基于神经网络的语音识别技术研究
孙 宁 孙劲光 孙 宇
1)
1)
2)
X
(辽宁工程技术大学电子与信息工程系1) 阜新 123000)(大连交通大学2) 大连 116028)
摘 要:对BP神经网络在特定人语音识别技术中的应用进行了探索性的研究,进而对非特定人语音识别做了一定的实验和研究。通过对比分析了传统的语音识别方法)))模板匹配法和人工神经网络语音识别方法的优缺点。神经网络可以得到较高的识别准确度,但是训练速度慢是它的弱点,因此,针对经典的BP算法训练速度慢的缺点,对BP网络加以改进,提高网络训练速度,通过改进使神经网络用于语音识别的各种优越性充分发挥。
关键词:模式识别 语音识别 人工神经网络 特征提取中图分类号:TP183
ResearchofSpeechRecognitionTechnology
BasedonNeuralNetwork
SunNing1) SunJinguang1) SunYu2)
(DepartmentofElecronicandInformationEngineering,LiaoningTechnicalUniversity1),Fuxin 123000)
(DalianJiaotongUniversity2),Dalian 116028)
Abstract:ThispapermainlystudiestheapplicationoftheBPneuralnetworkinrecognitionoftheChineseisolatedwordsofspecificpersonandtheChineseisolatedwordsofnonspecificperson.Inthepartofspeechrecognition,firstly,wecomparethetraditionalmethodofspeechrecognition--thelawofmatchingmodelwiththemostclassicalandpopularartificialnervalnetworkmodel--BPnetwork,thenweusetheBPnervalnetworkasthemethodofspeechrecognition.BPnervalnetworkcangethigheridentificationprecision,butitsfa-taldisadvantageisthatthetrainingspeedisveryslow,andcannotrealizethesignalofspeechintherealtime.WeimprovetheBpnervalNetwork,bringitsadvantageintofullplay.
Keywords:patternrecognition,speechrecognition,artificialneuralnetwork(ANN),featureextractionClassnumber:TP183
1 引言
语音识别技术分为传统的语音识别技术和现代语音识别技术两种。传统的语音识别技术以模板匹配法为主要方法,现代语音识别技术以神经网络为主要发展趋势。人工神经网络模拟了人类神经元活动原理,具有自学习、联想、对比、推理和概括能力,并且,具有能够逼近任意的非线性函数、并行化处理信息、容错能力强等诸多优点。因此,它为解决语音识别这样的一个复杂的模式分类问题提供了新的途径。
图1 语音识别系统
2.1语音信号处理
语音信号处理的好坏对整个系统的识别结果有直接影响。语音信号处理中主要完成端点检测
和特征提取两方面工作,在这之前进行预处理和时域、倒谱域分析。
(1)语音信号的预处理
对语音信号进行分析和处理之前,必须对其进行预处理。语音信号预处理过程包括语音采集、放大、增益控制、反混叠滤波、数字化和预加重。
2 语音识别系统基本结构设计
语音识别系统框图设计如下:
X收到本文时间:2005年7月4日第34卷(2006)第3期 计算机与数字工程
59
(2)语音信号的时域分析
语音信号时域分析中将提取短时能量、短时平均幅度、短时过零率三种参数。它们是语音端点检
测的依据。
(3)语音信号的端点检测
进行语音识别前,要将预处理后的语音信号从背景噪音中检测出来,方可进行分帧、特征提取和语音识别。端点检测包括起点检测和末尾检测。本文主要完成孤立词的起点检测算法。因此,选用双门限起点检测算法对起点进行检测,方法是应用短时能量(或短时幅度)和短时过零率两个参数。结果如图2所示:
9Ep9Xrij
该式表明,当自变量X处于对%p偏导数为负值时,$X应取大于零值,反之,$X应取小于零值,使X
由性能指标函数Ep的定义可得:$Xrij]-向Ep减小方向移动。
以单隐含层神经网络为例,r=2表示输出层,则:
2Dpi=-
9Ep9Ep9ypi9ypi
2=-2=(tpi-ypi)9ypi9Netpi9Nerpi9Net2pi
接下来,r=1表示隐含层,考虑到所有第2层
1
神经元输入信号Net2pi都与第1层的神经元输出Opi相关,利用复合微分规则,对Opj求微分需对所有第2层的输入信号Netpi分别求微分并求和来得到,对第j个隐层节点有:
1Dpi
2
1
9Ep9Ep9O1pi
=-1=-1
9Nerpi9Opi9Net1pi
2
1
9Ep9-etpk9Opi
=(E(-))1
k9Net29Net1pk9Opipi
19Opi22
=(EDpk#Xpki)1k9Netpi
于是有:$X2ij=G(tpi-ypi)
图2 信号的端点检测结果
9ypi1
Opi
9Net2pi
2Xpki)
(4)语音信号的特征提取
通过特征提取可将高维的原始信号空间变换到较低维的特征空间。经过综合考虑,选用了加权的线性倒频谱系数,它是线性系数的一种推演参数,这组参数比较准确的表达了语音信号的频谱幅度,是语音特征表示的良好参数。2.2BP算法
BP算法采用输出层的误差调整输入层权矩阵,并用此误差估计输出层的直接前导层的误差,一次向前推,形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传送的过程,分为两个阶段:
(1)向前传播阶段
¹隐含层中第i个神经元的输出为:a1i=f1(
j=1
1$Xij
=G(
E
k
2Dpk
#
9Opi
1#xpj9Netpi
1
2.3BP网络结构的设计
在进行BP网络的设计时,一般应从网络的层数、每层中的神经元个数和激活函数、初始值以及学习速率等几个方面来进行考虑。
(1)网络的层数
理论上已经证明:具有偏差、至少一个S型隐含层加上一个线性输出层构成的网络,能够逼近任何有理函数。这实际上已经给了我们一个基本的设计BP网络原则。增加层数可以更进一步的降低误差,提高精度,但同时也使网络复杂化,从而增加了网络权值的训练时间。而误差精度的提高实际上也可以通过增加隐含层中的神经元数目来获得,其训练效果比增加层数更容易观察和调整,所以采用增加隐含层的神经元数。
(2)隐含层的神经元数
通过采用一个隐含层,增加其神经元数的方法来达到网络训练精度的提高,这在结构实现上,要比增加更多的隐含层简单的多。那么究竟选取多少个隐含层节点才合适?这在理论上并没有一个明确的规定。在具体设计时,比较实际的做法是通过对不同神经元数进行训练对比,然后适当的加上一点余量。EwlijPj+
s1
r
b1i),I=1,2,.......s1
º输出层第k个神经元的输出为:a2k=f2(
Ew2kia1i+
i=1
b2k),k=1,2,...,s2
s2
»定义误差函数为:
E(W,B)=0.5(
k=1
Etk-
a2k)2
(2)向后传播阶段--误差传播阶段
60 基于神经网络的语音识别技术研究
第34卷
(3)初始权值的选取
由于系统是非线性的,初始权值对于学习是否达到局部最小、是否收敛以及训练时间的长短的关系很大。如果初始权值太大,使得加权后的输入和n落在了S型激活函数的饱和区,从而导致其导数f.(s)非常小,因而在计算权值修正公式时,使vwijy0,从而使得训练过程几乎停顿下来。所以,一般总是希望经过初始加权后的每个神经元的输出值都接近于零,这样可以保证每个神经元的权值都能够在它们的S型激活函数变化最大之处进行调节。所以,一般取初始值在(-11)之间的随机数。
(4)学习速率
学习速率决定每一次循环训练中所产生的权值变化量。大的学习速率可能导致系统的不稳定;但小的学习速率导致较长的训练时间,收敛很慢,不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小值。所以在一般情况下,倾向于较小的学习速率以保证系统的稳定性。学习速率的选取范围在0.01V0.8之间。
(5)期望误差的选取
在设计网络的训练过程中,期望误差值也应当通过对比训练后确定一个合适的值,这个所谓的/合适0,是相对于所需要的隐含层的节点数来确定的,因为较小的期望误差只是要靠增加隐含层的节点,以及训练时间来获得的。本课题采用有导师学习法,训练目标值由外界环境给出。
考虑上述因素后,本文采用三层结构神经网络,如图3所示。初始权值由机器随机给出,范围是(-1,1),通过修改步长和调整神经元数目来实现所要求的训练准确度,训练速度快,识别能力强的网络结构确定为进一步实验的网络结构。
种方法,然后在频域中采用了功率谱密度、快速傅里叶变换进行特征提取,通过神经网络训练,发现时域数据区别度不够大,网络的识别精度差,因此,这两组数据不选作样本。采用快速傅里叶变换方法和线性预测系数方法进行特征提取,通过训练,发现此两组数据最优,能够达到较好的训练效果。
(2)对于非特定人的语音识别
通过对特定人样本的训练,发现通过线性预测系数方法提取的特征在训练中表现最好,因此在非特定人的样本选取中,我们直接应用线性预测系数方法提取样本特征。
3 实验
用Matlab对所研究内容进行实验论证,得出如下结论:
3.1对于特定人的语音识别
采用特定的一个人的声音,对他声音样本中一部分样本进行训练,然后再用其它的样本进行识别,随着神经元数目的改变,步数和识别率也随着改变,从中选择最适当的神经元数,作为训练网络的神经元数目。当神经元数为40、35、30、25个时,结果如表1:
表1 特定人的语音识别结果
神经元个数训练步数识别率
401250100%
351300100%
301320100%
25140040%
图3 含有一个隐含层的神经网络
2.4学习样本的选取
通过统计规律选取几组样本进行实验,并对每组样本分别进行网络训练,对结果进行误差分析和识别结果分析,从中选择出结果较好的样本,再进行多次实验,对结果进行统计、归纳总结,得出如下结论:
(1)对于特定人的语音识别
首先试验了短时过零分析和幅值概率分析两图4 网络训练误差曲线对比图
3.2对于非特定人的语音识别
方法同特定人的语音识别,用两位同学的样本进行综合训练,然后用同样特征提取方法提取其他人的样本进行识别。当神经元数为85、80、75、70
个时,其识别率依次为80%、100%、100%、40%,训练步数分别为2000步、3000步、3500步、3500步。通过实验,可以选取80个神经元。
第34卷(2006)第3期 计算机与数字工程
表2 非特定人的语音识别结果
神经元个数训练步数识别率
85200080%
803000100%
753500100%
70350040%
61
没有严密的理论方法能够预计他们的有效性。然而尽管目前神经网络理论还存在这样或那样的不足,但仍然有了许多成功应用的例子,不失为一种
研究非线性系统和语音识别系统的有力工具。
参考文献
[1]焦李成.神经网络系统理论[M].西安电子科技大学出版社,1995
[2]张立明.人工神经网络模型及应用[M].上海复旦大学出版社,1993
[3]从爽编著.面向MATLAB工具箱的神经网络理论与应用[M].杭州:浙江科学技术出版社,1997
[4]JBHampshire.AHWalbel.ANovelObjectivefunctionforimprovedphonemerecognitionusingtime-delayneuralnet-works[J].IEEETransonneuralnetwork,1990,1(2):216~228
[5]MKweir.Amethodofself-determinationofadaptivelearningratesinbackpropagation[J]IEEETransonneuralnetwork,1991,4(3):371~379
[6]PBurrascaco,pLucci,smoothingbackpropagationcostfunc-tionbydeltaconstraining[A],procofINTjointconfonneuralnetwork[C].sunBiego,1990
3.3BP算法改进的进一步实验
对改进的BP网络进行了进一步的实验,对比训练误差曲线图如图4所示。改进后BP网络对于
特定人语音识别结果如表3所示。由此可见,改进后的BP网络在训练时间、实时反映速度及识别率上都有明显的提高。
表3 改进后BP网络特定人语音识别结果神经元个数训练步数
识别率
30821100%
25876100%
20898100%
1592198%
4 结论
BP算法加以改进后,对特定人孤立词的语音识别取得了很好的效果,但BP算法和它的改进算法对网络训练问题都仍然存在不可预见性。而且其中不少改进算法是采用启发式的方法对传统BP算法进行改进,因此,对这类算法除实验手段外还(上接第40页)
见的一些攻击手段。而且,在提取水印时,不需要原始载体图像的参与,整个算法也比较容易实现,扩展了其在现实中的应用范围。
参考文献
[1]VanSchyndelR,TirkelA,OsborneC.Adigitalwatermark[A].In:Proc.OftheIEEEonInternationalConferenceonImageProcessing[C],Austin,Texas,USA,IEEEPress,1994:86~90.
[2]NiuXiamu,LuZheming,SunShenghe.Digitalwatermarkingofstillimageswithgray-leveldigitalwatermarks[J].IEEETrans.OnConsumerElectronics,2000,46(1):137~145.
[3]潘蓉、高有行,基于小波变换的图像水印嵌入方法,中国图像图形学报[J].2002,(7)7:667~673.
[4]苟意远、陈晓鸥,基于CL多小波的数字水印技术[J].中国图像图形学报,2003,(8)5:572~577.
[5]PrasadL,IyengarSS.Waveletanalysiswithapplicationstoimageprocessing[M].BocaRation,Florida,USACRCPre.LLC,1997.
[6]CohenA,DaubechiesI,FeauveauJ.Biorthogonalbasesofcompactlysupportedwavelets.Commun.PureAppl.Math.,1992,XLV:485~560.
[7]丁玮、阎伟齐、齐东旭,基于Arnold变换的数字图像置乱技术[J].计算机辅助设计与图形学学报,2001,13(4):338~341.
(上接第53页)
兼容,此时必须分析PE文件的格式。Win32系统下的许多文件都是PE格式的,为了防止对PE文
件的非法操作,可以用软件对该文件进行加密。加密后的PE文件只有合法的用户才可以操作,从而保证了PE文件的安全。
参考文献
[1]MattPietrekPeeringInsidethePE:ATouroftheWin32
PortableExecutableFileFormat[J].MicrosoftSystemsJour-nal,1994,9(3):15~34.
[2]MicrosoftCorporation.MicrosoftportableExecutableandcom-monobjectFileFormatspecification[M/CD]MSDN[3]看雪,软件加密技术内幕[M].电子工业出版社[4]张建平,林亚平,PE可执行文件通用加密工具的设计与
实现[J].计算机系统应用,2004,08:19~22
因篇幅问题不能全部显示,请点此查看更多更全内容