語音識別技術之自適應技術
來源:網絡 編輯:ZZZ 2024-02-22 10:05:56 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯系方式: | |
咨詢內容: | |
驗證碼: |
|
1. 語音識別(bie)技術(shu)中的(de)自適應技術(shu)簡介
語(yu)(yu)音識(shi)(shi)(shi)(shi)別(bie)(bie)中(zhong)的自(zi)適(shi)應,即針(zhen)對某(mou)一個說話人或者某(mou)一domain來(lai)優化語(yu)(yu)音識(shi)(shi)(shi)(shi)別(bie)(bie)系統的識(shi)(shi)(shi)(shi)別(bie)(bie)性(xing)(xing)(xing)能(neng),使得識(shi)(shi)(shi)(shi)別(bie)(bie)系統對他們的性(xing)(xing)(xing)能(neng)有一定的提升。語(yu)(yu)音識(shi)(shi)(shi)(shi)別(bie)(bie)的自(zi)適(shi)應技術(shu)的目的是為(wei)了減少訓練集(ji)和測試集(ji)說話人或者domain之(zhi)間差異性(xing)(xing)(xing)造成的語(yu)(yu)音識(shi)(shi)(shi)(shi)別(bie)(bie)性(xing)(xing)(xing)能(neng)下降的影響。這(zhe)種差異性(xing)(xing)(xing)主要(yao)包括(kuo)語(yu)(yu)音學上的差異還有生理上發音習慣(guan)上不同導致的差異性(xing)(xing)(xing)等(deng)等(deng)。自(zi)適(shi)應技術(shu)主要(yao)被應用于(yu)語(yu)(yu)音識(shi)(shi)(shi)(shi)別(bie)(bie)技術(shu)相(xiang)關(guan)的產品,還有針(zhen)對VIP客戶的語(yu)(yu)音識(shi)(shi)(shi)(shi)別(bie)(bie)等(deng)。

上述的(de)差異性問題,它(ta)容易造成(cheng)(cheng)說話人或者(zhe)domain無關(guan)的(de)識別(bie)系統(tong)性能(neng)上不好,但是(shi)如果針對該說話人或者(zhe)domain訓練一(yi)個相關(guan)的(de)識別(bie)系統(tong),那么需要收集很多數(shu)據,這個成(cheng)(cheng)本是(shi)很高的(de)。而(er)語音(yin)識別(bie)中的(de)自適應技術作為一(yi)種折中,它(ta)的(de)數(shu)據量較少,并且性能(neng)上也(ye)能(neng)達到較好的(de)效果。
語(yu)音識別(bie)中的(de)(de)(de)(de)(de)自適(shi)應技術(shu)有很多,根據自適(shi)應的(de)(de)(de)(de)(de)空間(jian),可以分成兩類:特(te)(te)(te)征(zheng)空間(jian)自適(shi)應和模(mo)(mo)型(xing)空間(jian)自適(shi)應。對于特(te)(te)(te)征(zheng)空間(jian)自適(shi)應來說,它(ta)試圖(tu)將相(xiang)(xiang)(xiang)(xiang)(xiang)關(guan)的(de)(de)(de)(de)(de)特(te)(te)(te)征(zheng)通過(guo)特(te)(te)(te)征(zheng)轉換成無(wu)關(guan)的(de)(de)(de)(de)(de)特(te)(te)(te)征(zheng),從(cong)而能夠(gou)和無(wu)關(guan)的(de)(de)(de)(de)(de)模(mo)(mo)型(xing)相(xiang)(xiang)(xiang)(xiang)(xiang)匹(pi)配(pei)。而對于模(mo)(mo)型(xing)空間(jian)的(de)(de)(de)(de)(de)自適(shi)應來說,它(ta)試圖(tu)將無(wu)關(guan)的(de)(de)(de)(de)(de)模(mo)(mo)型(xing)轉換成相(xiang)(xiang)(xiang)(xiang)(xiang)關(guan)的(de)(de)(de)(de)(de)模(mo)(mo)型(xing),從(cong)而能夠(gou)和相(xiang)(xiang)(xiang)(xiang)(xiang)關(guan)的(de)(de)(de)(de)(de)特(te)(te)(te)征(zheng)相(xiang)(xiang)(xiang)(xiang)(xiang)匹(pi)配(pei)。總(zong)而言之,這(zhe)兩類算法目的(de)(de)(de)(de)(de)是為(wei)了讓(rang)相(xiang)(xiang)(xiang)(xiang)(xiang)關(guan)的(de)(de)(de)(de)(de)特(te)(te)(te)征(zheng)與(yu)無(wu)關(guan)的(de)(de)(de)(de)(de)模(mo)(mo)型(xing)相(xiang)(xiang)(xiang)(xiang)(xiang)匹(pi)配(pei)。
2. INTERPSEECH 2017 paper reading
2.1 Paper 1

第一篇(pian)文(wen)章的(de)題目(mu)是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它(ta)(ta)來(lai)自(zi)(zi)(zi)(zi)蒙特利爾大學(xue)。這篇(pian)文(wen)章的(de)主(zhu)要(yao)思(si)想是將(jiang)layer normalization的(de)scale和shift兩個參數由上下(xia)(xia)文(wen)無(wu)關(guan)的(de)變成上下(xia)(xia)文(wen)相(xiang)關(guan)的(de),從而(er)根(gen)據上下(xia)(xia)文(wen)信息來(lai)獲得動態(tai)的(de)scale和shift。這是一種模型空(kong)間的(de)自(zi)(zi)(zi)(zi)適應。它(ta)(ta)的(de)主(zhu)要(yao)創(chuang)新(xin)的(de)地(di)方主(zhu)要(yao)是,它(ta)(ta)不需(xu)要(yao)自(zi)(zi)(zi)(zi)適應階(jie)段(自(zi)(zi)(zi)(zi)適應階(jie)段就是使用目(mu)標 domain的(de)數據進行(xing)自(zi)(zi)(zi)(zi)適應,從而(er)能夠學(xue)習到目(mu)標domain的(de)知識),另外,它(ta)(ta)同樣不需(xu)要(yao)提供包含說話人信息的(de)相(xiang)關(guan)特征,例如(ru)i-vector等等。

DLN對(dui)應的(de)公式如上圖右(you)邊所示(shi),首先,取(qu)前一層的(de)minibatch ( TT )大小的(de)隱層矢(shi)(shi)量(liang)或者輸入(ru)矢(shi)(shi)量(liang)hl−1thtl−1進行summarization,從而(er)獲(huo)得(de)alal。然后,通過線性(xing)變換矩(ju)陣和偏置來動態地控制scale ( ααgl )和shift ( βlgβgl )。
同時,在原(yuan)來的CE訓(xun)練的基礎上,在目標函數上增加(jia)一個懲罰項(上圖的右(you)下角LvarLvar),用于增加(jia)句(ju)子內的variance,從而summarization出來的信息會更加(jia)具有區(qu)分性。

這(zhe)篇paper主要是在81小時的WSJ以及212小時的TED數據(ju)集(ji)上進行實驗,WSJ的訓(xun)練(lian)集(ji)包(bao)含283個(ge)說(shuo)話人,TED的訓(xun)練(lian)集(ji)包(bao)含5076個(ge)說(shuo)話人。
首先,在WSJ數據集(ji)(ji)(ji)上(shang)對比LN和(he)(he)DLN之間的(de)性能,性能主要包括(kuo)開發集(ji)(ji)(ji)和(he)(he)測試(shi)集(ji)(ji)(ji)的(de)FER和(he)(he)WER(FER表示(shi)幀錯誤率,WER表示(shi)詞錯誤率)。可(ke)以(yi)看出,除了測試(shi)集(ji)(ji)(ji)WER外,DLN均優于LN。文(wen)章分析,這是(shi)由于WSJ的(de)說(shuo)話人數目較少,導致句子間的(de)差異性不明顯,同時WSJ數據集(ji)(ji)(ji)是(shi)在安靜環(huan)境下錄制的(de),句子都比較平穩,DLN不能夠起作用。
在TED數(shu)據集上的結果如第二個(ge)表格所(suo)示(shi),發(fa)現在四個(ge)性能(neng)參數(shu)下,DLN均優于LN。文章對比(bi)WSJ和TED數(shu)據,TED數(shu)據集能(neng)夠取得比(bi)較(jiao)好的性能(neng)的原因是(shi),TED數(shu)據集較(jiao)WSJ speaker數(shu)目更多(duo),句子數(shu)更多(duo),variability更加明(ming)顯。通過這(zhe)篇文章,我們可(ke)以發(fa)現這(zhe)種動態(tai)的LN與句子的variability相關。并(bing)且總體上看來,DLN是(shi)要優于LN。
2.2 Paper 2

第二篇(pian)文章的(de)(de)題目是(shi)Large-Scale Domain Adaptation via Teacher-Student Learning,它(ta)來自微軟。這(zhe)篇(pian)文章的(de)(de)主要思想是(shi)通(tong)過teacher/student的(de)(de)結構來進(jin)行(xing)domain adaptation。這(zhe)種(zhong)方(fang)(fang)法不需要目標(biao) domain的(de)(de)帶(dai)標(biao)注(zhu)的(de)(de)數據(ju)(ju)。但是(shi),它(ta)需要和(he)訓練集相同(tong)(tong)的(de)(de)并行(xing)數據(ju)(ju)。它(ta)的(de)(de)創新點和(he)價值主要在于,這(zhe)種(zhong)方(fang)(fang)法可以使(shi)用(yong)非常多的(de)(de)無標(biao)注(zhu)數據(ju)(ju),同(tong)(tong)時借用(yong)teacher network的(de)(de)輸出來進(jin)一步提升student模(mo)型的(de)(de)性能(neng)。

將(jiang)teacher/student 簡稱(cheng)為T/S。T/S的訓練流(liu)圖(tu)如上(shang)圖(tu)右(you)邊(bian)所示。Figure 1 中的左側為teacher network,右(you)側為student network,它們(men)的輸出后(hou)驗概率分別設為PTPT和(he)PSPS。
student network的訓練過程:首(shou)先,將teacher network復制(zhi)一份作為student network的初始化。然后(hou)(hou),利用student domain data和(he)(he)teacher domain data通(tong)過對應(ying)的網絡獲(huo)得相應(ying)的后(hou)(hou)驗概率PTPT和(he)(he)PSPS。最后(hou)(hou),利用這兩個后(hou)(hou)驗概率計算error signal,進行back梯度(du)反傳更新student network。

本paper的(de)(de)(de)實驗是在375小時的(de)(de)(de)英文cortana數據(ju)上進行的(de)(de)(de)。測(ce)試(shi)(shi)集根(gen)據(ju)不同的(de)(de)(de)domain,有不同的(de)(de)(de)測(ce)試(shi)(shi)集。
針對干凈(jing)/帶(dai)噪(zao),在Cortana測(ce)試集上(shang)(shang)進行實驗。首先,使(shi)用(yong)(yong)teacher network進行測(ce)試,發(fa)現在帶(dai)噪(zao)語音上(shang)(shang)測(ce)試性(xing)(xing)能(18.8%)要遠差于(yu)(yu)noise-free的(de)(de)語音(15.62%)。如果通過仿(fang)真的(de)(de)方式來訓練(lian)teacher network,發(fa)現noisy的(de)(de)測(ce)試性(xing)(xing)能(17.34%)有一定(ding)的(de)(de)提(ti)升,這個等價(jia)于(yu)(yu)在student network上(shang)(shang)使(shi)用(yong)(yong)hard label來訓練(lian)。第(di)四行和第(di)五(wu)行使(shi)用(yong)(yong)T/S 算(suan)法,在同樣數據(ju)量(liang)上(shang)(shang),soft label (16.66%)要優于(yu)(yu)hard label (17.34%)。如果將(jiang)訓練(lian)student network的(de)(de)數據(ju)增加到3400小時,性(xing)(xing)能會有進一步(bu)的(de)(de)提(ti)升(16.11%)。

對于成年(nian)人/小孩來(lai)說,實驗(yan)首(shou)先將375小時中的(de)女性(xing)以及兒童(tong)數(shu)據(ju)去除(chu),獲(huo)(huo)得adult male 模型。實驗(yan)發(fa)現(xian),小孩的(de)識別性(xing)能(neng)很差,分別是39.05和(he)34.16。與干凈/帶噪相同,在使用(yong)T/S算法后,能(neng)夠在性(xing)能(neng)上(shang)獲(huo)(huo)得進一步的(de)提(ti)升,并且(qie)數(shu)據(ju)擴大對于性(xing)能(neng)是有優勢的(de)。
2.3 Paper 3

第三篇文(wen)(wen)章(zhang)是來自香港科(ke)技大學和谷歌的(de)文(wen)(wen)章(zhang)。這(zhe)篇文(wen)(wen)章(zhang)主要的(de)想法和創新點是將Factorized Hidden Layer (FHL)的(de)自適應方法 應用(yong)于LSTM-RNN。

對(dui)于FHL adaptation算(suan)法來說(shuo),它在說(shuo)話(hua)人無關(guan)(guan)(guan)的(de)網絡(luo)權重WW基礎上加上一(yi)個說(shuo)話(hua)人相(xiang)關(guan)(guan)(guan)的(de)網絡(luo)權重,從而獲得說(shuo)話(hua)人相(xiang)關(guan)(guan)(guan)的(de)網絡(luo)權重WsWs。根(gen)據(ju)公式(7),我們(men)可以看到,這個SD transformation是根(gen)據(ju)一(yi)組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通(tong)過線性插值(zhi)得到。同樣,對(dui)神經網絡(luo)的(de)偏置bb也可以進行相(xiang)應的(de)說(shuo)話(hua)人相(xiang)關(guan)(guan)(guan)變換。
但是,在實(shi)際實(shi)驗中(zhong),由于矩(ju)陣基(ji)會帶(dai)來大量的參數(shu)引入,這(zhe)些(xie)矩(ju)陣基(ji)都被限制為rank-1,因此公式(shi)(7)可以進(jin)行一(yi)些(xie)變換(huan),如上圖右邊所示。由于矩(ju)陣基(ji)為rank-1,那它可以被表示成(cheng)一(yi)個列向(xiang)量γ(i)γ(i)和一(yi)個行向(xiang)量ψ(i)Tψ(i)T相乘的形式(shi)。同時(shi),插值矢量被表示成(cheng)對角矩(ju)陣DsDs的形式(shi)。這(zhe)樣便獲得三(san)個矩(ju)陣ΓΓ、DsDs和ΨTΨT連乘的方式(shi),方便模型訓(xun)練。

本文還介紹了(le)speaker-dependent scaling。它(ta)將LSTM記憶單元中的(de)激活值進行speaker-dependent scale。通過公(gong)式(shi)帶入,發現,只要(yao)對每一個說(shuo)話(hua)(hua)人(ren)學習zszs即(ji)可以進行說(shuo)話(hua)(hua)人(ren)相(xiang)關的(de)scaling。但是(shi)這種算法存在(zai)一個問題,zszs的(de)維(wei)度(du)(du)與網絡的(de)層寬相(xiang)關,參數量大。因此(ci),一種subspace scaling的(de)方法被提出,它(ta)通過一個固定(ding)維(wei)度(du)(du)的(de)low-dimensional vector vsvs來(lai)控制(zhi)zszs,vsvs的(de)維(wei)度(du)(du)遠小于zszs,從而大大地(di)減少了(le)說(shuo)話(hua)(hua)人(ren)相(xiang)關的(de)參數量。

評論comment