咨询热线:021-80392549

利用隐空间投影算法的模型自适应方法

放大字体缩小字体发布日期:2014-10-21 来源:[标签:出处] 作者:[标签:作者] 浏览次数: 107
核心提示:
摘 要:为了降低语音识别系统中噪声的影响,提出一种利用隐空间投影算法的模型自适应方法。该方法利用状态间的相关性提取出反映码本和待识别语音共同特性的基矢量。由于语音与噪声是相互独立的,因此,当语音识别系统中有噪声存在时,认为不能用基矢量表示的那部分余量就是噪声。与本征音方法相比,该方法可以有效地降低噪声对语音识别系统的影响。该方法在提取基矢量时利用了自适应教据,并且节省了存储空间。实验结果表明:该方法在噪声环境下相对于最大似然线性回归自适应方法有4~9百分点的提高,相对于最大后验概率和本征音方法有更大的提高。
关键词:信息处理;说话人自适应;隐空间投影;空间相关性

语音识别技术近些年来取得了很大的进展,得到了广泛的应用,但是,稳健性问题仍然是语音识别中一个严重的问题。所谓的稳健性是指语音识别系统在各种条件下都能保持较高识别率的这样一种性质,稳健性问题的解决将是推动语音识别技术实用化的一个关键因素。模型自适应是一种解决稳健性问题比较有效的方法,通过利用少量的待识别语音更新码本,使得自适应后的码本更接近于待识别的语音的特性,同时使得自适应后的码本更接近于识别环境。
声学码本的各个状态之间是相互关联的,某些状态间存在着很强的相关性,这种相关性被称为“空间相关性。由于噪声与语音信号是统计独立的,语音信号的相关性是噪声所不具备的,因此,可以利用语音信号的空间相关性提高语音识别系统的稳健性。
为了减弱噪声对语音识别系统的影响,本文提出了一种利用隐空间投影projection to latentstructure(PLS)的模型自适应方法,该方法利用声学状态间的相关性,通过模型自适应降低噪声对语音识别系统的影响。
目前比较有效的自适应技术有最大似然线性回归(maximum likelihood linear regression,MLLR)、最大后验概率(maximum a posterior,MAP)和本征音(eigenvoice,EV)等几种,MLLR利用期望值最大(expectation maximization,EM)算法使得自适应数据的似然值最大,MAP利用最大后验概率更新当前码本参数。EV算法利用主分量分析(principal componentanalysis,PCA)来提取出一组基,用这组基来表示码本的性质,由于码本的状态间存在着相关性,因此,可以用较少的基来表示码本的特性,然后根据待识别说话人的特性调整各个基的系数;但是,由于这些基是从训练数据中提取出来的,当码本训练数据有限时,它可能不能充分地反映待识别的说话人的特性,或者说待识别说话人与码本之间的相关性。PLS方法则可以解决这个问题,它与EV算法的主要区别在于,PLS方法在提取基矢量的过程中利用了待识别的说话人数据。由于噪声与语音是统计独立的,因此,可以认为待识别说话人数据中不能用这组基线性表示的余量就是噪声。

1 PLS模型自适应
如果用X表示码本,Y表示待识别语音(来自同一说话人),PLS模型则要寻找一组基矢量ti,这组基矢量既可以用来表示X,也可以用来表示Y,即X和Y均表示成隐变量ti的线性变换。当有噪声存在时,不能用基矢量的线性组合表示的那部分语音就是噪声。表示如下:


其中:X是K×N维矩阵;Y是K×M维矩阵,K表示特征维数,N表示码本状态个数,M表示说话人统计量包含的状态数目(M≤N);ti是K×1维的列矢量,ti的个数用A来表示,即i=1,2,…,A;pi是N×1维的列矢量;ri是M×1维的列矢量。这里的pi和ri分别表示ti在X中及Y中的权重,矩阵E和F表示预测误差矩阵,那么噪声就表示为误差矩阵F。

1.1 基向量的求解
假设从两组变量中分别提取成分t和u,t是自变量X的一个线性变换t=Xw,u是因变量X的一个线性变换u=Yv。
欲使得t和u的相关程度达到最大,即可以通过让t和u的内积最大来实现,即一个条件极值问题:


利用Langrange乘数法,可知当t是矩阵的最大特征值对应的特征向量时,u是矩阵的最大特征值对应的特征向量时,t和u的相关程度达到最大。

1.2 PLS说话人自适应算法计算步骤
根据上面给出的基向量求解方法,可以给出下面的PLS说话人自适应算法的计算步骤。
步骤l变量去均值归一化处理,X和Y的各个分量都要去均值归一化,设Xo和Yo分别表示经过归一化和去均值处理后的矩阵。
下面用Xi、Yi、ti、pi、ri分别表示第i次迭代得到的自变量、因变量、基矢量、自变量系数、因变量系数,其中i=1,2,…,A,A表示基矢量的个数。
步骤2又分为3步。

步骤3利用Yi更新码本中相应状态的均值。
与EV算法相比,PLS利用了待识别说话人的数据提取基矢量,因此,它所提取出的基矢量能反映待识别的说话人的特性,可以用于说话人自适应。此外,当待识别的语音中含有噪声时,由于这组基也是反映码本特性

工博士工业品商城声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与商城( www.m.eepottsltd.com)联系,本网站将迅速给您回应并做处理。
联系电话:021-31666777
新闻、技术文章投稿QQ:3267146135 投稿邮箱:syy@m.eepottsltd.com
Baidu
map