重磅公開！阿里語音識別模型端核心技術(shù)，讓你“聽”見未來

作者：鄢志杰、薛少飛、張仕良、鄭昊、雷鳴 2019-01-18 12:45:12

本文將全面介紹阿里云語音識別技術(shù)中的重要模型端技術(shù)，希望和業(yè)界同仁交流探討。

[[255840]]

　　阿里妹導(dǎo)讀：語音識別技術(shù)作為人工智能技術(shù)中的重要組成部分，成為影響人機(jī)交互的核心組件之一，從各種智能家用 IoT 設(shè)備的語音交互能力，到公共服務(wù)、智慧政務(wù)等場合的應(yīng)用，語音識別技術(shù)正在影響著人們生活的方方面面。

　　本文將全面介紹阿里云語音識別技術(shù)中的重要模型端技術(shù)，希望和業(yè)界同仁交流探討。

　　本文作者：

　　鄢志杰、薛少飛、張仕良、鄭昊、雷鳴

　　聲學(xué)模型、語言模型和解碼器可以看作是現(xiàn)代語音識別系統(tǒng)最核心的三個組成部分。雖然最近有一些研究者嘗試構(gòu)建 End2end 的語音識別系統(tǒng)，但包含聲學(xué)模型、語言模型和解碼器的現(xiàn)代語音識別系統(tǒng)依然是當(dāng)前最主流和使用最廣泛的系統(tǒng)。在這其中，聲學(xué)模型主要用來構(gòu)建輸入語音和輸出聲學(xué)單元之間的概率映射關(guān)系；語言模型用來描述不同字詞之間的概率搭配關(guān)系，使得識別出的句子更像自然文本；解碼器負(fù)責(zé)結(jié)合聲學(xué)單元概率數(shù)值和語言模型在不同搭配上的打分進(jìn)行篩選，最終得到最可能的識別結(jié)果。

　　隨著近幾年深度學(xué)習(xí)的火熱，語音識別領(lǐng)域也紛紛投入深度學(xué)習(xí)的大潮之中。將傳統(tǒng) HMM-GMM 聲學(xué)模型替換成 HMM-DNN 聲學(xué)模型后，可以獲得超過 20% 的相對提升，在傳統(tǒng)N-Gram 語言模型基礎(chǔ)上疊加 NN-LM 語言模型也可以獲得進(jìn)一步的提高。

　　在這過程中，聲學(xué)模型由于更適合采用深度神經(jīng)網(wǎng)絡(luò)模型，從而受到研究者更多的關(guān)注。本文主要介紹阿里云語音識別技術(shù)中采用的聲學(xué)模型技術(shù)和語言模型技術(shù)，包括 LC-BLSTM 聲學(xué)模型、LFR-DFSMN 聲學(xué)模型和 NN-LM 語言模型，其中 LC-BLSTM 是對傳統(tǒng) BLSTM 模型的一種改進(jìn)，在保持了高準(zhǔn)確率的同時，提供了低延時的特性；而 DFSMN 是一種新穎的非遞歸結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)卻可以像 RNN 一樣對信號的長時相關(guān)進(jìn)行建模，同時可以獲得更穩(wěn)定的訓(xùn)練效果和更好的識別準(zhǔn)確。NN-LM 語言模型是近年來在傳統(tǒng)N-Gram 語言模型基礎(chǔ)上獲得的進(jìn)一步改進(jìn)。

　　Latency-Controlled BLSTM 模型

　　DNN（即 fully connected DNN）模型的優(yōu)點(diǎn)在于通過增加神經(jīng)網(wǎng)絡(luò)的層數(shù)和節(jié)點(diǎn)數(shù)，擴(kuò)展了網(wǎng)絡(luò)對于復(fù)雜數(shù)據(jù)的抽象和建模能力，但同時 DNN 模型也存在一些不足，例如 DNN 中一般采用拼幀來考慮上下文相關(guān)信息對于當(dāng)前語音幀的影響，這并不是反映語音序列之間相關(guān)性的最佳方法。自回歸神經(jīng)網(wǎng)絡(luò)（RNN）在一定程度上解決了這個問題，它通過網(wǎng)絡(luò)節(jié)點(diǎn)的自連接達(dá)到利用序列數(shù)據(jù)間相關(guān)性的目的。進(jìn)一步有研究人員提出一種長短時記憶網(wǎng)絡(luò)（LSTM-RNN），它可以有效減輕簡單 RNN 容易出現(xiàn)的梯度爆炸和梯度消散問題，而后研究人員又對 LSTM 進(jìn)行了擴(kuò)展，使用雙向長短時記憶網(wǎng)絡(luò)（BLSTM-RNN）進(jìn)行聲學(xué)模型建模，以充分考慮上下文信息的影響。

　　BLSTM 模型可以有效地提升語音識別的準(zhǔn)確率，相比于 DNN 模型，相對性能提升可以達(dá)到 15%-20%。但同時 BLSTM 模型也存在兩個非常重要的問題：

句子級進(jìn)行更新，模型的收斂速度通常較慢，并且由于存在大量的逐幀計算，無法有效發(fā)揮 GPU 等并行計算工具的計算能力，訓(xùn)練會非常耗時；
由于需要用到整句遞歸計算每一幀的后驗(yàn)概率，解碼延遲和實(shí)時率無法得到有效保證，很難應(yīng)用于實(shí)際服務(wù)。

　　對于這兩個問題，學(xué)術(shù)界首先提出 Context-Sensitive-Chunk BLSTM（CSC-BLSTM）的方法加以解決，而此后又提出了 Latency Controlled BLSTM（LC-BLSTM）這一改進(jìn)版本，更好、更高效地減輕了這兩個問題。我們在此基礎(chǔ)上采用 LC-BLSTM-DNN 混合結(jié)構(gòu)配合多機(jī)多卡、16bit 量化等訓(xùn)練和優(yōu)化方法進(jìn)行聲學(xué)模型建模，取得了相比于 DNN 模型約 17-24% 的相對識別錯誤率下降。

　　典型的 LSTM 節(jié)點(diǎn)結(jié)構(gòu)由 3 個 gate 組成：input gate、forget gate、output gate 和一個 cell 組成，輸入、輸出節(jié)點(diǎn)以及 cell 同各個門之間都存在連接；inputgate、forget gate 同 cell 之間也存在連接，cell 內(nèi)部還有自連接。這樣通過控制不同門的狀態(tài)，可以實(shí)現(xiàn)更好的長短時信息保存和誤差傳播。

　　LSTM 可以像 DNN 一樣逐層堆積成為 DeepLSTM，為了更好地利用上下文信息，還可以使用 BLSTM 逐層堆積構(gòu)造 Deep BLSTM，其結(jié)構(gòu)如下圖所示，網(wǎng)絡(luò)中沿時間軸存在正向和反向兩個信息傳遞過程，每一個時間幀的計算都依賴于前面所有時間幀和后面所有時間幀的計算結(jié)果，對于語音信號這種時序序列，該模型充分考慮了上下文對于當(dāng)前語音幀的影響，能夠極大提高音素狀態(tài)的分類準(zhǔn)確率。

　　然而由于標(biāo)準(zhǔn)的 BLSTM 是對整句語音數(shù)據(jù)進(jìn)行建模，訓(xùn)練和解碼過程存在收斂慢、延遲高、實(shí)時率低等問題，針對這些弊端我們采用了 Latency Controlled BLSTM 進(jìn)行解決，與標(biāo)準(zhǔn)的 BLSTM 使用整句語音進(jìn)行訓(xùn)練和解碼不同，Latency Control BLSTM 使用類似 truncated BPTT 的更新方式，并在 cell 中間狀態(tài)處理和數(shù)據(jù)使用上有著自己的特點(diǎn)，如下圖所示，訓(xùn)練時每次使用一小段數(shù)據(jù)進(jìn)行更新，數(shù)據(jù)由中心 chunk 和右向附加 chunk 構(gòu)成，其中右向附加 chunk 只用于 cell 中間狀態(tài)的計算，誤差只在中心 chunk 上進(jìn)行傳播。

　　時間軸上正向移動的網(wǎng)絡(luò)，前一個數(shù)據(jù)段在中心 chunk 結(jié)束時的 cell 中間狀態(tài)被用于下一個數(shù)據(jù)段的初始狀態(tài)，時間軸上反向移動的網(wǎng)絡(luò)，每一個數(shù)據(jù)段開始時都將 cell 中間狀態(tài)置為0。該方法可以很大程度上加快網(wǎng)絡(luò)的收斂速度，并有助于得到更好的性能。解碼階段的數(shù)據(jù)處理與訓(xùn)練時基本相同，不同之處在于中心 chunk 和右向附加 chunk 的維度可以根據(jù)需求進(jìn)行調(diào)節(jié)，并不必須與訓(xùn)練采用相同配置。

　　LFR-DFSMN 模型

　　FSMN 是近期被提出的一種網(wǎng)絡(luò)結(jié)構(gòu)，通過在前饋全連接神經(jīng)網(wǎng)絡(luò)（Feedforward Fully-connectedNeural Networks，F(xiàn)NN）的隱層添加一些可學(xué)習(xí)的記憶模塊，從而可以有效地對信號的長時相關(guān)性進(jìn)行建模。

　　FSMN 相比于 LCBLSTM 不僅可以更加方便的控制時延，而且往往也能獲得更好的性能，需要的計算資源也更少。但是標(biāo)準(zhǔn)的 FSMN 很難訓(xùn)練非常深層的結(jié)構(gòu)，由于梯度消失問題導(dǎo)致訓(xùn)練效果不好。而深層結(jié)構(gòu)的模型目前在很多領(lǐng)域被證明具有更強(qiáng)的建模能力。因而針對此我們提出了一種改進(jìn)的 FSMN 模型，稱之為深層的 FSMN（Deep FSMN, DFSMN）。

　　進(jìn)一步的我們結(jié)合低幀率（Low Frame Rate，LFR）技術(shù)構(gòu)建了一種高效的實(shí)時語音識別聲學(xué)模型，相比于去年我們上線的 LFR-LCBLSTM 聲學(xué)模型可以獲得超過 20% 的相對性能提升，同時可以獲得2-3 倍的訓(xùn)練以及解碼的加速，可以顯著的減少我們的系統(tǒng)實(shí)際應(yīng)用時所需要的計算資源。

　　最早提出的 FSMN 的模型結(jié)構(gòu)如上圖（a）所示，其本質(zhì)上是一個前饋全連接神經(jīng)網(wǎng)絡(luò)，通過在網(wǎng)絡(luò)的某些隱層旁添加一些記憶模塊（memory block）來對當(dāng)前時刻周邊的上下文信息進(jìn)行建模，從而使得模型可以對時序信號的長時相關(guān)性進(jìn)行建模。記憶模塊采用如上圖（b）所示的抽頭延遲結(jié)構(gòu)將當(dāng)前時刻以及之前 N 個時刻的隱層輸出通過一組系數(shù)編碼得到一個固定的表達(dá)。

　　FSMN 的提出是受到數(shù)字信號處理中濾波器設(shè)計理論的啟發(fā)：任何無限響應(yīng)沖擊（Infinite Impulse Response, IIR）濾波器可以采用高階的有限沖擊響應(yīng)（FiniteImpulseResponse, FIR）濾波器進(jìn)行近似。

　　從濾波器的角度出發(fā)，如上圖（c）所示的 RNN 模型的循環(huán)層就可以看作如上圖（d）的一階 IIR 濾波器。而 FSMN 采用的采用如上圖（b）所示的記憶模塊可以看作是一個高階的 FIR 濾波器。從而 FSMN 也可以像 RNN 一樣有效的對信號的長時相關(guān)性進(jìn)行建模，同時由于 FIR 濾波器相比于 IIR 濾波器更加穩(wěn)定，因而 FSMN 相比于 RNN 訓(xùn)練上會更加簡單和穩(wěn)定。

　　根據(jù)記憶模塊編碼系數(shù)的選擇，可以分為：

標(biāo)量 FSMN（sFSMN）
矢量 FSMN（vFSMN）

　　sFSMN 和 vFSMN 顧名思義就是分別使用標(biāo)量和矢量作為記憶模塊的編碼系數(shù)。

　　以上的 FSMN 只考慮了歷史信息對當(dāng)前時刻的影響，我們可以稱之為單向的 FSMN。當(dāng)我們同時考慮歷史信息以及未來信息對當(dāng)前時刻的影響時，我們可以將單向的 FSMN 進(jìn)行擴(kuò)展得到雙向的 FSMN。

　　FSMN 相比于 FNN，需要將記憶模塊的輸出作為下一個隱層的額外輸入，這樣就會引入額外的模型參數(shù)。隱層包含的節(jié)點(diǎn)越多，則引入的參數(shù)越多。研究結(jié)合矩陣低秩分解（Low-rank matrix factorization）的思路，提出了一種改進(jìn)的 FSMN 結(jié)構(gòu)，稱之為簡潔的 FSMN（Compact FSMN，cFSMN）。下圖是一個第l個隱層包含記憶模塊的 cFSMN 的結(jié)構(gòu)框圖。

　　對于 cFSMN，通過在網(wǎng)絡(luò)的隱層后添加一個低維度的線性投影層，并且將記憶模塊添加在這些線性投影層上。進(jìn)一步的，cFSMN 對記憶模塊的編碼公式進(jìn)行了一些改變，通過將當(dāng)前時刻的輸出顯式的添加到記憶模塊的表達(dá)中，從而只需要將記憶模塊的表達(dá)作為下一層的輸入。這樣可以有效的減少模型的參數(shù)量，加快網(wǎng)絡(luò)的訓(xùn)練。

　　上圖是我們進(jìn)一步提出的 Deep-FSMN（DFSMN）的網(wǎng)絡(luò)結(jié)構(gòu)框圖，其中左邊第一個方框代表輸入層，右邊最后一個方框代表輸出層。我們通過在 cFSMN 的記憶模塊（紅色框框表示）之間添加跳轉(zhuǎn)連接（skip connection），從而使得低層記憶模塊的輸出會被直接累加到高層記憶模塊里。這樣在訓(xùn)練過程中，高層記憶模塊的梯度會直接賦值給低層的記憶模塊，從而可以克服由于網(wǎng)絡(luò)的深度造成的梯度消失問題，使得可以穩(wěn)定的訓(xùn)練深層的網(wǎng)絡(luò)。

　　相比于之前的 cFSMN，DFSMN 優(yōu)勢在于，通過跳轉(zhuǎn)連接可以訓(xùn)練很深的網(wǎng)絡(luò)。對于原來的 cFSMN，由于每個隱層已經(jīng)通過矩陣的低秩分解拆分成了兩層的結(jié)構(gòu)，這樣對于一個包含 4 層 cFSMN 層以及兩個 DNN 層的網(wǎng)絡(luò)，總共包含的層數(shù)將達(dá)到 13 層，從而采用更多的 cFSMN 層，會使得層數(shù)更多而使得訓(xùn)練出現(xiàn)梯度消失問題，導(dǎo)致訓(xùn)練的不穩(wěn)定性。

　　我們提出的 DFSMN 通過跳轉(zhuǎn)連接避免了深層網(wǎng)絡(luò)的梯度消失問題，使得訓(xùn)練深層的網(wǎng)絡(luò)變得穩(wěn)定。需要說明的是，這里的跳轉(zhuǎn)連接不僅可以加到相鄰層之間，也可以加到不相鄰層之間。跳轉(zhuǎn)連接本身可以是線性變換，也可以是非線性變換。具體的實(shí)驗(yàn)我們可以實(shí)現(xiàn)訓(xùn)練包含數(shù)十層的 DFSMN 網(wǎng)絡(luò)，并且相比于 cFSMN 可以獲得顯著的性能提升。

　　從最初的 FSMN 到 cFSMN 不僅可以有效的減少模型的參數(shù)，而且可以獲得更好的性能。進(jìn)一步的在 cFSMN 的基礎(chǔ)上，我們提出的 DFSMN，可以更加顯著的提升模型的性能。如下表是在一個 2000 小時的英文任務(wù)上基于 BLSTM，cFSMN，DFSMN 的聲學(xué)模型性能對比。

Model	BLSTM	cFSMN	DFSMN
WER%	10. 9	10. 8	9. 4

　　從上表中可以看到，在 2000 小時這樣的任務(wù)上，DFSMN 模型可以獲得比 BLSTM 聲學(xué)模型相對 14% 的錯誤率降低，顯著提高了聲學(xué)模型的性能。

　　傳統(tǒng)的聲學(xué)模型，輸入的是每幀語音信號提取的聲學(xué)特征，每幀語音的時長通常為 10ms，對于每個輸入的語音幀信號會有相對應(yīng)的一個輸出目標(biāo)。最近有研究提出一種低幀率（Low Frame Rate，LFR）建模方案：通過將相鄰時刻的語音幀進(jìn)行綁定作為輸入，去預(yù)測這些語音幀的目標(biāo)輸出得到的一個平均輸出目標(biāo)。具體實(shí)驗(yàn)中可以實(shí)現(xiàn)三幀（或更多幀）拼接而不損失模型的性能。

　　從而可以將輸入和輸出減少到原來的三分之一甚至更多，可以極大的提升語音識別系統(tǒng)服務(wù)時聲學(xué)得分的計算以及解碼的效率。我們結(jié)合 LFR 和以上提出的 DFSMN，構(gòu)建了基于 LFR-DFSMN 的語音識別聲學(xué)模型，經(jīng)過多組實(shí)驗(yàn)我們最終確定了采用一個包含 10 層 cFSMN 層 +2 層 DNN 的 DFSMN 作為聲學(xué)模型，輸入輸出則采用 LFR，將幀率降低到原來的三分之一。識別結(jié)果和去年我們上線的最好的 LCBLSTM 基線比較如下表所示。

　　通過結(jié)合 LFR 技術(shù)，我們可以獲得三倍的識別加速。從上表中可以看到，在實(shí)際工業(yè)規(guī)模應(yīng)用上，LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以獲得 20% 的錯誤率下降，展示了對大規(guī)模數(shù)據(jù)更好的建模特性。

　　NN-LM 語言模型

　　語言模型，顧名思義，對語言進(jìn)行建模的模型。語言表達(dá)可以看作一串字符序列，不同的字符序列組合代表不同的含義，字符的單位可以是字或者詞。語言模型的任務(wù)，可以看作是給定字符序列，如何估計該序列的概率，或者說，如何估計該序列的合理性。

　　P (上海的工人師傅有力量)>P(上海的工人食腐有力量)

　　拿這句話做個例子。比如到底應(yīng)該是“工人師傅有力量”，還是“工人食腐有力量”，哪句話更“合適”。我們?nèi)菀着袛嘧筮呥@句的概率大一點(diǎn)。于是我們希望通過語言模型的建模，可以給出符合人類預(yù)期的概率分配。就像這句，“工人師傅”的概率，大于“工人食腐”的概率。

　　基于統(tǒng)計詞頻的傳統(tǒng)N元文法模型，通過馬爾可夫假設(shè)簡化了模型結(jié)構(gòu)和計算，通過計數(shù)的方式計算，通過查找的方式使用。擁有估計簡單、性能穩(wěn)定、計算快捷的優(yōu)勢，有超過三十年的使用歷史。然而其馬爾科夫假設(shè)強(qiáng)制截斷建模長度，使得模型無法對較長的歷史建模；基于詞頻的估計方式也使得模型不夠平滑，對于低詞頻詞匯估計不足。隨著神經(jīng)網(wǎng)絡(luò)（Neural Networks，NNs）的第三次崛起，人們開始嘗試通過 NN 來進(jìn)行語言模型建模。

　　一個典型的建模結(jié)構(gòu)是遞歸神經(jīng)網(wǎng)絡(luò)（recurrentneural networks，RNNs），其遞歸的結(jié)構(gòu)理論上可以對無窮長序列進(jìn)行建模，彌補(bǔ)了N元文法對于序列長度建模的不足；同時其各層間的全向連接也保證了建模的平滑。此外為了提升模型的性能，研究者們還嘗試了通過長短時記憶（Long Short-Term Memory，LSTM）結(jié)構(gòu)來提升基本 RNN 本身建模能力的不足，進(jìn)一步提升模型性能。

　　NN 用于大規(guī)模語言建模的系統(tǒng)中，需要面對一些問題，例如大詞表帶來的存儲和計算增加。實(shí)際線上系統(tǒng)的詞表往往比較大，而隨著詞表的增加，基本 RNN 結(jié)構(gòu)的存儲和計算量都會幾何級數(shù)爆炸式增長。

　　為此，研究者們進(jìn)行了一些嘗試，壓縮詞典尺寸成了一個最直接的解決方案，一個經(jīng)典的方法是詞表聚類。該方法可以大幅壓縮詞表尺寸，但往往也會帶來一定的性能衰減。更直接的一個想法是直接過濾掉低頻詞匯，這樣依然會帶來一定的性能衰減，據(jù)此有一個改進(jìn)策略，我們發(fā)現(xiàn)真正制約速度性能的主要是輸出層節(jié)點(diǎn)，輸入層節(jié)點(diǎn)大，借助 projection 層可以很好解決，于是輸入層采用大辭典，而僅對輸出層詞表進(jìn)行抑制，這樣不僅盡可能地降低了損失，同時過濾掉過低的詞頻，也有利于模型節(jié)點(diǎn)的充分訓(xùn)練，性能往往還會略有提升。

　　詞表的壓縮可以提升建模性能，降低計算量和存儲量，但僅限于一定的量級，不可以無限制壓縮，如何繼續(xù)降低計算量依然是一個問題。一些方法被提了出來。例如 LightRNN，通過類似聚類的方式，利用 embedding 的思想，把詞表映射到一個實(shí)值矩陣上，實(shí)際輸出只需要矩陣的行加矩陣的列，計算量大概也能開個方。和節(jié)點(diǎn)數(shù)多一起造成計算量大的一個原因就是 softmax 輸出，需要計算所有的節(jié)點(diǎn)求個和，然后得到分母。若是這個分母能保持一個常數(shù)，實(shí)際計算的時候就只算需要的節(jié)點(diǎn)，在測試環(huán)節(jié)就快的多了。

　　于是就有了正則項(xiàng)相關(guān)的方法，Variance Regularization，如果訓(xùn)練速度可以接受的話，這種方法在基本不損失模型正確性的情況下可以大幅提升前向計算速度；如果訓(xùn)練的時候也想提速，還可以考慮基于采樣，sampling 的方法，比如 NCE、Importance Sampling、Black Sampling 等，本質(zhì)上就是說，在訓(xùn)練的時候不計算全部節(jié)點(diǎn)，只計算正樣本（也就是標(biāo)簽為 1 的節(jié)點(diǎn)），以及部分通過某種分布采樣的到的負(fù)樣本，避免高輸出造成的計算緩慢。速度上提升還是很明顯的。

　　從阿里云獲得開發(fā)者模型定制能力

　　想象一個做智能電話客服或是智能會議系統(tǒng)的開發(fā)者，需要為他的系統(tǒng)接入語音識別（將語音轉(zhuǎn)寫為文字）的能力。擺在他面前的會是這樣一個尷尬的局面：

　　一個選擇是自己從零開始學(xué)做語音識別，這可能要花費(fèi)大量的時間和金錢。畢竟人工智能這種事情，各大互聯(lián)網(wǎng)巨頭投入大量的人力、物力、財力，也要花較長的時間才能積累下技術(shù)；

　　第二個選擇是用上述巨頭們在互聯(lián)網(wǎng)上提供的開箱即用的、one size fits all 的語音識別接口，時間是省下了，但語音轉(zhuǎn)文字的準(zhǔn)確率嘛，只能碰碰運(yùn)氣，畢竟巨頭們也很忙，沒有精力為你關(guān)注的場景進(jìn)行優(yōu)化。

　　那么問題來了：有沒有一種手段能夠以最小的投入獲得業(yè)務(wù)上最佳的語音識別效果呢？答案是肯定的。

　　阿里云依托達(dá)摩院業(yè)界領(lǐng)先的語音交互智能，打破傳統(tǒng)語音技術(shù)提供商的供給模式，在云計算時代讓普通開發(fā)者也能夠通過阿里云提供的語音識別云端自學(xué)習(xí)技術(shù)，獲得定制優(yōu)化自己所關(guān)心的業(yè)務(wù)場景的成套手段。阿里云讓廣大的開發(fā)者站在巨頭的肩膀上，通過自主可控的自學(xué)習(xí)，在短時間內(nèi)實(shí)現(xiàn)對語音識別系統(tǒng)應(yīng)用從入門到精通，并在開發(fā)者關(guān)心的場景下輕松擁有業(yè)界頂尖的語音識別準(zhǔn)確率。這就是云計算時代的語音識別技術(shù)全新的供給模式。

　　與其它人工智能技術(shù)一樣，語音識別技術(shù)的關(guān)鍵在于算法、算力和數(shù)據(jù)三個方面。阿里云依托達(dá)摩院語音交互智能，近年來持續(xù)在世界前沿進(jìn)行“算法”演進(jìn)，近期還將最新的研究成果 DFSMN 聲學(xué)模型開源，供全世界的研究者復(fù)現(xiàn)目前最佳的結(jié)果并進(jìn)行持續(xù)提升。

　　在“算力”方面自不用說，這本身就是云計算的天然強(qiáng)項(xiàng)。基于阿里云 ODPS-PAI 平臺，我們構(gòu)建了專為語音識別應(yīng)用優(yōu)化的 CPU/GPU/FPGA/NPU 訓(xùn)練和服務(wù)混布平臺，每天服務(wù)于阿里云上巨量的語音識別請求。在“數(shù)據(jù)”方面，我們提供通過海量數(shù)據(jù)訓(xùn)練的、開箱即用的場景模型，包括電商、客服、政務(wù)、手機(jī)輸入等等。

　　同時應(yīng)該看到，在具體的落地場景下往往會有一些非常特殊、領(lǐng)域相關(guān)的“說法”需要被識別，很多時候類似于“碎屑巖巖性地層”、“海相碳酸鹽巖”這種特定說法對于通用場景模型的識別率提出了挑戰(zhàn)。要獲得開發(fā)者關(guān)心的具體場景下最佳的準(zhǔn)確率，開箱即用的模型一般還需要一定的定制優(yōu)化工作才可以達(dá)到。傳統(tǒng)上，這樣的定制是通過語音技術(shù)服務(wù)提供商來完成的，在成本、周期、可控性等方面都存在明顯不足。

　　阿里云提供的語音定制“自學(xué)習(xí)”平臺服務(wù)，可以提供多種手段，在很短的時間內(nèi)、以較低的成本，讓開發(fā)者完全掌控模型定制優(yōu)化及上線的工作。阿里云創(chuàng)新工具平臺及服務(wù)技術(shù)，依托強(qiáng)大的基礎(chǔ)設(shè)施，使得在云計算的大背景下進(jìn)行大規(guī)模定制化語音服務(wù)成為可能。而開發(fā)者完全無需關(guān)心后臺的技術(shù)和服務(wù)，只需要使用阿里云提供的簡單易用的“自學(xué)習(xí)”工具，利用場景知識和數(shù)據(jù)，就可以獲得該特定場景下最優(yōu)的效果，并按需要持續(xù)迭代提升。

　　阿里云的智能語音自學(xué)習(xí)平臺具備以下優(yōu)勢：

易：智能語音自學(xué)習(xí)平臺顛覆性地提供一鍵式自助語音優(yōu)化方案，極大地降低進(jìn)行語音智能優(yōu)化所需要的門檻，讓不懂技術(shù)的業(yè)務(wù)人員也可以來顯著提高自身業(yè)務(wù)識別準(zhǔn)確率。
快：自學(xué)習(xí)平臺能夠在數(shù)分鐘之內(nèi)完成業(yè)務(wù)專屬定制模型的優(yōu)化測試上線，更能支持業(yè)務(wù)相關(guān)熱詞的實(shí)時優(yōu)化，一改傳統(tǒng)定制優(yōu)化長達(dá)數(shù)周甚至數(shù)月的漫長交付弊端。
準(zhǔn)：自學(xué)習(xí)平臺優(yōu)化效果在很多內(nèi)外部合作伙伴和項(xiàng)目上得到了充分驗(yàn)證，很多項(xiàng)目最終通過自學(xué)習(xí)平臺不光解決了效果可用性問題，還在項(xiàng)目中超過了競爭對手使用傳統(tǒng)優(yōu)化方式所取得的優(yōu)化效果。

　　舉例來說，開發(fā)者可以使用下述多種“自學(xué)習(xí)”手段來定制自己關(guān)心領(lǐng)域的模型：

　　a)業(yè)務(wù)熱詞定制

　　在許多特定場所，要求快速對特定詞的識別能力進(jìn)行加強(qiáng)（注：包括兩種模式，模式一為其他詞易被識別成特定詞；模式二為特定詞易被識別成其他詞），采用實(shí)時熱詞加載技術(shù)，可以在實(shí)時場景下，通過設(shè)置不同的檔位，能夠?qū)崿F(xiàn)熱詞識別能力的加強(qiáng)。

　　b)類熱詞定制

　　很多時候，相同的發(fā)音相同的屬性在不同上下文上會需要不同的識別效果。聯(lián)系人和地名就是典型的案例，對于不同人的好友，“張陽”和“章?lián)P”我們就必須能準(zhǔn)確地識別出相應(yīng)的名字。同樣，相隔千里的安溪跟安西如果識別錯誤會給導(dǎo)航帶來大麻煩。智能語音自學(xué)習(xí)平臺相信“每個人都值得被尊重”，提供聯(lián)系人類和地名類的定制能力，“讓天下沒有難識的路”。

　　c)業(yè)務(wù)專屬模型定制

　　用戶通過輸入對應(yīng)領(lǐng)域的相關(guān)文本，如行業(yè)或公司的基本介紹、客服聊天記錄、領(lǐng)域常用詞匯和專有名詞等，即可快速自行生成該行業(yè)下的定制模型，整個定制過程無需用戶人工干預(yù)。

　　通過這些手段，阿里云使得開發(fā)者不必關(guān)心語音技術(shù)的算法和工程服務(wù)細(xì)節(jié)，專注于他們擅長的垂直領(lǐng)域的知識和數(shù)據(jù)收集，實(shí)現(xiàn)全新的語音技術(shù)云端供給模式，造福于廣大的開發(fā)者及其業(yè)務(wù)結(jié)果。

責(zé)任編輯：張燕妮來源：阿里技術(shù)

語音識別人工智能技術(shù)