您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页背景噪声下的端点检测算法的研究

背景噪声下的端点检测算法的研究

来源:飒榕旅游知识分享网
2008年第07期,第41卷 通 信 技 术 Vol.41,No.07,2008 总第199期 Communications Technology No.199,Totally

背景噪声下的端点检测算法的研究

周 娜①, 赵振东①, 张 莹②

(①华北电力大学 电子与通信工程系,河北 保定 071003;②东北财经大学 津桥商学院,辽宁 大连 116600)

【摘 要】噪声环境下的端点检测在语音信号分析和识别中占有重要地位。文中将分形理论中的分形记盒维数应用到端点检测算法中,采用了基于分形记盒维数与短时能零比相结合的端点检测算法,以分形记盒维数为主要判决条件,并在判决门限的设定上采用了自适应机制。仿真结果表明,基于分形记盒维数和短时能零比相结合的端点检测算法在白噪声和粉红色噪声下具有很好的准确率和鲁棒性。

【关键词】端点检测;能零比;分形记盒维数;自适应机制

【中图分类号】TN912.3 【文献标识码】A 【文章编号】1002-0802(2008)07-0239-03

Endpoint Detection Methods Based on Background Noise

ZHOU Na, ZHAO Zhen-dong①, ZHANG Ying②

(①Dept. of Electronic & Communication Engineering, North China Electric Power University, Baoding Hebei 071003, China;

②Kingbridge Business College, Dongbei university of Finance & Economics, Dalian Liaoning 116600, China)

【Abstract】Endpoint detection in noisy environment plays an important role in speech analysis and recognition. In this paper, the box-counting dimension in the fractal theory is used in the endpoint detection. The classical threshold method is improved, and the endpoint detection algorithm based on the box-counting dimensions and short-time energy-zero-ratio is employed. The box-counting dimension is taken as the main decision condition, and the self-adaptive mechanism is used to set the decision threshold. The simulation results show that this algorithm is of high accuracy and good robustness in the white noise and pink noise environment. However, it is not very satisfying in the volvo and babble noise environment.

【Key words】endpoint detection; energy-zero-ratio; box-counting dimensions; self-adaptive mechanism

0 引言

语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起始点及结束点,有效的端点检测技术不仅能减少系统的处理时间,提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高。语音端点检测是语音分析、语音合成和语音识别中的一个必要环节,在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用。尽管语音端点检测技术在安静的环境中已经达到了令人满意的准确率,但是在实际应用时由于噪声的引入和环境的改变通常会使系统性能显著下降。

现有的语音检测技术中,所采用的特征是线性特征,往

往忽略了语音信号的非线性特征。而随着声学及空气动力学理论的发展,语音信号已被证明是一个复杂的非线性时变过程。人体生理学告诉我们语音信号中存在着混沌机制,并且声母语音信号的混沌程度大于韵母语音信号的混沌程度,由此就可以利用描述语音信号混沌特性的参数来进行语音分段。而描述混沌信号特征的一种有效手段就是运用分形理论,并且分形理论中的维数在非线性时间序列分析中具有较为满意的效果,所以本文采用分形记盒维数作为主要的判决条件。

1 分形记盒维数的定义

分形维是描述分形特征的重要参数,它是分形信号最重

收稿日期:2008-05-05。

作者简介:周 娜(1984-),女, 硕士研究生,主要研究方向为语音信号处理;赵振东(1956-),男, 教授,高工,主要研究方向为语音

信号处理;张 莹(1973-),女,讲师,主要研究方向为数据挖掘、信息管理。

239

要的特征参数。分形方法将维数从整数扩大到分数,突破了一般拓扑维数为整数的。分形维的定义多种多样,常用的有记盒维数[1]、信息维数[2]、关联维数[3]和相似维数[4]。这里采用记盒维数进行计算。

定义(记盒维数)设F是Rn中任一非空有界子集,记N(F, δ)表示最大直径为δ且能覆盖F的记盒的最小数,则F的上下盒维定义为

lnN(F,δ)

, (1) dimBF=limδ→0ln(1/δ)lnN(F,δ)

dimBF=lim。 (2)

δ→0ln(1/δ)

通过对大量的语音信号进行分形记盒维数计算,发现DB集中于1.2~1.8之间,因为在二维平面上语音信号的波形要比一条直线复杂和不规则得多,但它还不至于充满整个二维空间,所以语音信号的维数要大于维数为1的直线,但小于平面2维。由于噪声信号具有极其复杂的波形和不规律性,使得噪声语音信号的DB值普遍较大。但是语音发音原理告诉我们清音具有高频类噪声性,而浊音具有低频类周期性。由于清音的噪声性,使得其语音信号呈现出极为复杂的波形,因此清音具有较高的DB值。所以作者在以分形记盒维数作为主要判断条件下,将短时能零比作为辅助判断条件,以提高端点检测算法的准确率。

在开始进行端点检测之前,首先为分形计盒维数和过零率分别确定两个门限。一个是比较低的门限,其数值比较小,对信号的变化比较敏感,容易被超过。另一个比较高的门限,信号必须达到一定的强度,该门限才可能被超过。敏感门限被超过未必是语音的开始,有可能是时间很短的噪声引起的。只有较强的门限被超过则可以基本确信是由于语音信号引起的。这里由于语音信号的分形记盒维数比噪声的分形记盒维数要小,所以设定门限时敏感的门限是分形记盒维数大的,而较强门限为分形记盒维数较小的。每个发音前后的背景噪声都是不一样的,最好的情况就是在每个发音的端点检测中让这个门限阈值由该语音前后背景噪声(紧挨语音的)来确定。这样的门限阈值具有一定的相对性,可大大提高端点检测的鲁棒性。这种改进之后的相对门限或比例门限效果较好,设置方法和采取的参数多种多样。

2 短时能零比

将短时能量和过零率结合变成新的特征参数——短时能零比,不但减少了特征参数的个数,简化了阈值的设定,而且在低信噪比[6]下,过零率在一定程度上反映了信号的频谱分布情况,过零率较小对应于信号频谱具有较强的中低频分量,过零率较大,则对应于信号频谱较强的高频分量。定义如下:

短时过零率:

(3) ZCRn=∑sign[x(m)−sign[x(m−1)]],

m=1N

[5]

其中,

⎧1,(x(m)≥0),

(4) sign[x(m)]=⎨

⎩−1,(x(m)≤0) °

短时能零比:

EZRn=AMPn/ZCRn。 (5) 式(5)中EZRn为第n帧的短时过零率N为帧长,sign为符号函数。

4 仿真结果与分析

4.1 仿真结果

本实验所用的语音库来源于中科院的测试语音库CASIA98-99,噪声采集了一些真实的噪声,包括白噪声(white)、粉红噪声(pink)、高速行驶汽车噪声(volvo)和背景说话噪声(babble)。白噪声条件下采取帧长100,帧移也是100个采样点,其他噪声条件下采取帧长80点,帧移80个采样点,进行端点检测。图1至图4对语音信号进行了仿真。

3 算法的改进

此算法将记盒维数定义为边长为δ的正方体,在Rd空间在R2中,则边长为δ的正方形中成为δ_网坐标块超立方体。

所形成的一个网格覆盖。对式Nδ(F)~δDb两边取对数,有

log10(Nδ(F))~Dblog10(1/δ)。 (6)

式(6)表明,若干点对log10(1/δ),log10(Nδ(F))在δ→0也即可按最小均方误差时的渐进线是直线,其斜率就是DB。原则采用多点直线拟合办法来计算DB,即

DB=

[∑log10Nδi(F)][∑log101/δi]−M[∑log10Nδi(F)log10(1/δi)]i=1i=1i=1

°

MM

22

[∑log10(1/δi)]−M[∑(log10(1/δi))]

i=1

i=1

M

M

M

(7) 其中:δi为M个变化尺度,i=1, 2, 3,…, M;Nδi(F)表示用边对于一个分为长为δi组成的网格覆盖F的最小正方形个数。

若干帧的语音信号来说,称一帧语音信号的DB为短时记盒维数。 240

图1 混有白噪声的语音信号,SNR=10 dB

限,算法的准确率至少提高7%。表1至表3对仿真结果进行了分析。

表1 基于分形计盒维数与短时能零比算法采取自适应

门限与固定门限平均准确率比较

背景噪声 固定门限 自适应门限

White noise 85% 94%

Pink noise 79.75% 90.25%

Volvo noise 75.5% 82.5%

Babble noise 73.75% 80.75%

表2 基于分形计盒维数与短时能零比算法在复杂噪声背景

下的准确率

图2 混有粉红色噪声的语音信号

背景噪声 30dB20dB10dB5dB

White noise100%100%94%86%

Pink noise 100% 100% 93% 85%

Volvo noise 100% 98% 90% 75%

100% 95% 87% 70% Babble noise

表3 端点检测算法在复杂噪声背景下的准确率

背景噪声(10dB)

短时能量 双门限法 基于分形记盒维数与短时能零比

White noise50% 65% 94%

Pink noise 48% 63% 93%

Volvo noise 45% 60% 90%

Babble noise40%57%87%

图3 混有volvo噪声的语音信号

由图1, 2, 3, 4及表2可以看出此算法在30 dB噪声条件下的准确率都能达到100%,随着SNR的减小,准确率也随之下降,但即使是在5 dB人声背景噪声条件下,此算法的准确率也达到了70%。通过表3中和其经典的端点检测算法的比较得出基于分形计盒维数与短时能零比相结合的算法具有较好的鲁棒性和准确率。

参考文献

1 沈亚强. 低信噪比语音信号端点检测和自适应滤波[J]. 电子测量与仪器学报, 2001, 15(1): 27-32.

2 董远,胡光锐. 语音识别的非线性方法[J]. 电路与系统学报, 1998,

图4 混有babble噪声的语音信号

4.2 结果分析

门限阈值的“相对”设定方法,这种“相对”的思想可以较好的弥补固定门限的缺陷。本算法以当前帧的前几帧信号作为参考设定起点门限阈值,而又根据当前帧的前后几帧来设定止点门限阈值,这符合人耳听觉感知机理,并具有一定的自适应性。从表1可以看出,采用自适应机制比固定门

3(1): 52-57.

3 何凯,王树勋,戴逸松. 基于Shannon熵的1/f类分形信号去噪方 法[J]. 吉林大学学报(信息科学版),2003,21(1): 21-26. 4 李水根. 分形[M]. 北京:高等教育出版社, 2004:113-136.

5 Maragos P. Fractal aspects of speech signals: dimension and interpolation [C]. Proc IEEE ICASSP, 1991,(1): 417-420. 6 柴君. 基于阵列神经网络的说话人识别系统研究[D].华北电力大学,2006.

热诚欢迎广大作者踊跃投稿! 241

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务