精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

重磅公開!阿里語音識別模型端核心技術(shù),讓你“聽”見未來

新聞 人工智能
本文將全面介紹阿里云語音識別技術(shù)中的重要模型端技術(shù),希望和業(yè)界同仁交流探討。

 [[255840]]

  阿里妹導(dǎo)讀:語音識別技術(shù)作為人工智能技術(shù)中的重要組成部分,成為影響人機(jī)交互的核心組件之一,從各種智能家用 IoT 設(shè)備的語音交互能力,到公共服務(wù)、智慧政務(wù)等場合的應(yīng)用,語音識別技術(shù)正在影響著人們生活的方方面面。

  本文將全面介紹阿里云語音識別技術(shù)中的重要模型端技術(shù),希望和業(yè)界同仁交流探討。

  本文作者:

  鄢志杰、薛少飛、張仕良、鄭昊、雷鳴

  聲學(xué)模型、語言模型和解碼器可以看作是現(xiàn)代語音識別系統(tǒng)最核心的三個組成部分。雖然最近有一些研究者嘗試構(gòu)建 End2end 的語音識別系統(tǒng),但包含聲學(xué)模型、語言模型和解碼器的現(xiàn)代語音識別系統(tǒng)依然是當(dāng)前最主流和使用最廣泛的系統(tǒng)。在這其中,聲學(xué)模型主要用來構(gòu)建輸入語音和輸出聲學(xué)單元之間的概率映射關(guān)系;語言模型用來描述不同字詞之間的概率搭配關(guān)系,使得識別出的句子更像自然文本;解碼器負(fù)責(zé)結(jié)合聲學(xué)單元概率數(shù)值和語言模型在不同搭配上的打分進(jìn)行篩選,最終得到最可能的識別結(jié)果。

  隨著近幾年深度學(xué)習(xí)的火熱,語音識別領(lǐng)域也紛紛投入深度學(xué)習(xí)的大潮之中。將傳統(tǒng) HMM-GMM 聲學(xué)模型替換成 HMM-DNN 聲學(xué)模型后,可以獲得超過 20% 的相對提升,在傳統(tǒng)N-Gram 語言模型基礎(chǔ)上疊加 NN-LM 語言模型也可以獲得進(jìn)一步的提高。

  在這過程中,聲學(xué)模型由于更適合采用深度神經(jīng)網(wǎng)絡(luò)模型,從而受到研究者更多的關(guān)注。本文主要介紹阿里云語音識別技術(shù)中采用的聲學(xué)模型技術(shù)和語言模型技術(shù),包括 LC-BLSTM 聲學(xué)模型、LFR-DFSMN 聲學(xué)模型和 NN-LM 語言模型,其中 LC-BLSTM 是對傳統(tǒng) BLSTM 模型的一種改進(jìn),在保持了高準(zhǔn)確率的同時,提供了低延時的特性;而 DFSMN 是一種新穎的非遞歸結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)卻可以像 RNN 一樣對信號的長時相關(guān)進(jìn)行建模,同時可以獲得更穩(wěn)定的訓(xùn)練效果和更好的識別準(zhǔn)確。NN-LM 語言模型是近年來在傳統(tǒng)N-Gram 語言模型基礎(chǔ)上獲得的進(jìn)一步改進(jìn)。

  Latency-Controlled BLSTM 模型

  DNN(即 fully connected DNN)模型的優(yōu)點(diǎn)在于通過增加神經(jīng)網(wǎng)絡(luò)的層數(shù)和節(jié)點(diǎn)數(shù),擴(kuò)展了網(wǎng)絡(luò)對于復(fù)雜數(shù)據(jù)的抽象和建模能力,但同時 DNN 模型也存在一些不足,例如 DNN 中一般采用拼幀來考慮上下文相關(guān)信息對于當(dāng)前語音幀的影響,這并不是反映語音序列之間相關(guān)性的最佳方法。自回歸神經(jīng)網(wǎng)絡(luò)(RNN)在一定程度上解決了這個問題,它通過網(wǎng)絡(luò)節(jié)點(diǎn)的自連接達(dá)到利用序列數(shù)據(jù)間相關(guān)性的目的。進(jìn)一步有研究人員提出一種長短時記憶網(wǎng)絡(luò)(LSTM-RNN),它可以有效減輕簡單 RNN 容易出現(xiàn)的梯度爆炸和梯度消散問題,而后研究人員又對 LSTM 進(jìn)行了擴(kuò)展,使用雙向長短時記憶網(wǎng)絡(luò)(BLSTM-RNN)進(jìn)行聲學(xué)模型建模,以充分考慮上下文信息的影響。

  BLSTM 模型可以有效地提升語音識別的準(zhǔn)確率,相比于 DNN 模型,相對性能提升可以達(dá)到 15%-20%。但同時 BLSTM 模型也存在兩個非常重要的問題:

  1. 句子級進(jìn)行更新,模型的收斂速度通常較慢,并且由于存在大量的逐幀計算,無法有效發(fā)揮 GPU 等并行計算工具的計算能力,訓(xùn)練會非常耗時;

  2. 由于需要用到整句遞歸計算每一幀的后驗(yàn)概率,解碼延遲和實(shí)時率無法得到有效保證,很難應(yīng)用于實(shí)際服務(wù)。

  對于這兩個問題,學(xué)術(shù)界首先提出 Context-Sensitive-Chunk BLSTM(CSC-BLSTM)的方法加以解決,而此后又提出了 Latency Controlled BLSTM(LC-BLSTM)這一改進(jìn)版本,更好、更高效地減輕了這兩個問題。我們在此基礎(chǔ)上采用 LC-BLSTM-DNN 混合結(jié)構(gòu)配合多機(jī)多卡、16bit 量化等訓(xùn)練和優(yōu)化方法進(jìn)行聲學(xué)模型建模,取得了相比于 DNN 模型約 17-24% 的相對識別錯誤率下降。

  典型的 LSTM 節(jié)點(diǎn)結(jié)構(gòu)由 3 個 gate 組成:input gate、forget gate、output gate 和一個 cell 組成,輸入、輸出節(jié)點(diǎn)以及 cell 同各個門之間都存在連接;inputgate、forget gate 同 cell 之間也存在連接,cell 內(nèi)部還有自連接。這樣通過控制不同門的狀態(tài),可以實(shí)現(xiàn)更好的長短時信息保存和誤差傳播。

  LSTM 可以像 DNN 一樣逐層堆積成為 DeepLSTM,為了更好地利用上下文信息,還可以使用 BLSTM 逐層堆積構(gòu)造 Deep BLSTM,其結(jié)構(gòu)如下圖所示,網(wǎng)絡(luò)中沿時間軸存在正向和反向兩個信息傳遞過程,每一個時間幀的計算都依賴于前面所有時間幀和后面所有時間幀的計算結(jié)果,對于語音信號這種時序序列,該模型充分考慮了上下文對于當(dāng)前語音幀的影響,能夠極大提高音素狀態(tài)的分類準(zhǔn)確率。

  然而由于標(biāo)準(zhǔn)的 BLSTM 是對整句語音數(shù)據(jù)進(jìn)行建模,訓(xùn)練和解碼過程存在收斂慢、延遲高、實(shí)時率低等問題,針對這些弊端我們采用了 Latency Controlled BLSTM 進(jìn)行解決,與標(biāo)準(zhǔn)的 BLSTM 使用整句語音進(jìn)行訓(xùn)練和解碼不同,Latency Control BLSTM 使用類似 truncated BPTT 的更新方式,并在 cell 中間狀態(tài)處理和數(shù)據(jù)使用上有著自己的特點(diǎn),如下圖所示,訓(xùn)練時每次使用一小段數(shù)據(jù)進(jìn)行更新,數(shù)據(jù)由中心 chunk 和右向附加 chunk 構(gòu)成,其中右向附加 chunk 只用于 cell 中間狀態(tài)的計算,誤差只在中心 chunk 上進(jìn)行傳播。

  時間軸上正向移動的網(wǎng)絡(luò),前一個數(shù)據(jù)段在中心 chunk 結(jié)束時的 cell 中間狀態(tài)被用于下一個數(shù)據(jù)段的初始狀態(tài),時間軸上反向移動的網(wǎng)絡(luò),每一個數(shù)據(jù)段開始時都將 cell 中間狀態(tài)置為0。該方法可以很大程度上加快網(wǎng)絡(luò)的收斂速度,并有助于得到更好的性能。解碼階段的數(shù)據(jù)處理與訓(xùn)練時基本相同,不同之處在于中心 chunk 和右向附加 chunk 的維度可以根據(jù)需求進(jìn)行調(diào)節(jié),并不必須與訓(xùn)練采用相同配置。

  LFR-DFSMN 模型

  FSMN 是近期被提出的一種網(wǎng)絡(luò)結(jié)構(gòu),通過在前饋全連接神經(jīng)網(wǎng)絡(luò)(Feedforward Fully-connectedNeural Networks,F(xiàn)NN)的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效地對信號的長時相關(guān)性進(jìn)行建模。

  FSMN 相比于 LCBLSTM 不僅可以更加方便的控制時延,而且往往也能獲得更好的性能,需要的計算資源也更少。但是標(biāo)準(zhǔn)的 FSMN 很難訓(xùn)練非常深層的結(jié)構(gòu),由于梯度消失問題導(dǎo)致訓(xùn)練效果不好。而深層結(jié)構(gòu)的模型目前在很多領(lǐng)域被證明具有更強(qiáng)的建模能力。因而針對此我們提出了一種改進(jìn)的 FSMN 模型,稱之為深層的 FSMN(Deep FSMN, DFSMN)。

  進(jìn)一步的我們結(jié)合低幀率(Low Frame Rate,LFR)技術(shù)構(gòu)建了一種高效的實(shí)時語音識別聲學(xué)模型,相比于去年我們上線的 LFR-LCBLSTM 聲學(xué)模型可以獲得超過 20% 的相對性能提升,同時可以獲得2-3 倍的訓(xùn)練以及解碼的加速,可以顯著的減少我們的系統(tǒng)實(shí)際應(yīng)用時所需要的計算資源。

  最早提出的 FSMN 的模型結(jié)構(gòu)如上圖(a)所示,其本質(zhì)上是一個前饋全連接神經(jīng)網(wǎng)絡(luò),通過在網(wǎng)絡(luò)的某些隱層旁添加一些記憶模塊(memory block)來對當(dāng)前時刻周邊的上下文信息進(jìn)行建模,從而使得模型可以對時序信號的長時相關(guān)性進(jìn)行建模。記憶模塊采用如上圖(b)所示的抽頭延遲結(jié)構(gòu)將當(dāng)前時刻以及之前 N 個時刻的隱層輸出通過一組系數(shù)編碼得到一個固定的表達(dá)。

  FSMN 的提出是受到數(shù)字信號處理中濾波器設(shè)計理論的啟發(fā):任何無限響應(yīng)沖擊(Infinite Impulse Response, IIR)濾波器可以采用高階的有限沖擊響應(yīng)(FiniteImpulseResponse, FIR)濾波器進(jìn)行近似。

  從濾波器的角度出發(fā),如上圖(c)所示的 RNN 模型的循環(huán)層就可以看作如上圖(d)的一階 IIR 濾波器。而 FSMN 采用的采用如上圖(b)所示的記憶模塊可以看作是一個高階的 FIR 濾波器。從而 FSMN 也可以像 RNN 一樣有效的對信號的長時相關(guān)性進(jìn)行建模,同時由于 FIR 濾波器相比于 IIR 濾波器更加穩(wěn)定,因而 FSMN 相比于 RNN 訓(xùn)練上會更加簡單和穩(wěn)定。

  根據(jù)記憶模塊編碼系數(shù)的選擇,可以分為:

  • 標(biāo)量 FSMN(sFSMN)

  • 矢量 FSMN(vFSMN)

  sFSMN 和 vFSMN 顧名思義就是分別使用標(biāo)量和矢量作為記憶模塊的編碼系數(shù)。

  以上的 FSMN 只考慮了歷史信息對當(dāng)前時刻的影響,我們可以稱之為單向的 FSMN。當(dāng)我們同時考慮歷史信息以及未來信息對當(dāng)前時刻的影響時,我們可以將單向的 FSMN 進(jìn)行擴(kuò)展得到雙向的 FSMN。

  FSMN 相比于 FNN,需要將記憶模塊的輸出作為下一個隱層的額外輸入,這樣就會引入額外的模型參數(shù)。隱層包含的節(jié)點(diǎn)越多,則引入的參數(shù)越多。研究結(jié)合矩陣低秩分解(Low-rank matrix factorization)的思路,提出了一種改進(jìn)的 FSMN 結(jié)構(gòu),稱之為簡潔的 FSMN(Compact FSMN,cFSMN)。下圖是一個第l個隱層包含記憶模塊的 cFSMN 的結(jié)構(gòu)框圖。

  對于 cFSMN,通過在網(wǎng)絡(luò)的隱層后添加一個低維度的線性投影層,并且將記憶模塊添加在這些線性投影層上。進(jìn)一步的,cFSMN 對記憶模塊的編碼公式進(jìn)行了一些改變,通過將當(dāng)前時刻的輸出顯式的添加到記憶模塊的表達(dá)中,從而只需要將記憶模塊的表達(dá)作為下一層的輸入。這樣可以有效的減少模型的參數(shù)量,加快網(wǎng)絡(luò)的訓(xùn)練。

  上圖是我們進(jìn)一步提出的 Deep-FSMN(DFSMN)的網(wǎng)絡(luò)結(jié)構(gòu)框圖,其中左邊第一個方框代表輸入層,右邊最后一個方框代表輸出層。我們通過在 cFSMN 的記憶模塊(紅色框框表示)之間添加跳轉(zhuǎn)連接(skip connection),從而使得低層記憶模塊的輸出會被直接累加到高層記憶模塊里。這樣在訓(xùn)練過程中,高層記憶模塊的梯度會直接賦值給低層的記憶模塊,從而可以克服由于網(wǎng)絡(luò)的深度造成的梯度消失問題,使得可以穩(wěn)定的訓(xùn)練深層的網(wǎng)絡(luò)。

  相比于之前的 cFSMN,DFSMN 優(yōu)勢在于,通過跳轉(zhuǎn)連接可以訓(xùn)練很深的網(wǎng)絡(luò)。對于原來的 cFSMN,由于每個隱層已經(jīng)通過矩陣的低秩分解拆分成了兩層的結(jié)構(gòu),這樣對于一個包含 4 層 cFSMN 層以及兩個 DNN 層的網(wǎng)絡(luò),總共包含的層數(shù)將達(dá)到 13 層,從而采用更多的 cFSMN 層,會使得層數(shù)更多而使得訓(xùn)練出現(xiàn)梯度消失問題,導(dǎo)致訓(xùn)練的不穩(wěn)定性。

  我們提出的 DFSMN 通過跳轉(zhuǎn)連接避免了深層網(wǎng)絡(luò)的梯度消失問題,使得訓(xùn)練深層的網(wǎng)絡(luò)變得穩(wěn)定。需要說明的是,這里的跳轉(zhuǎn)連接不僅可以加到相鄰層之間,也可以加到不相鄰層之間。跳轉(zhuǎn)連接本身可以是線性變換,也可以是非線性變換。具體的實(shí)驗(yàn)我們可以實(shí)現(xiàn)訓(xùn)練包含數(shù)十層的 DFSMN 網(wǎng)絡(luò),并且相比于 cFSMN 可以獲得顯著的性能提升。

  從最初的 FSMN 到 cFSMN 不僅可以有效的減少模型的參數(shù),而且可以獲得更好的性能。進(jìn)一步的在 cFSMN 的基礎(chǔ)上,我們提出的 DFSMN,可以更加顯著的提升模型的性能。如下表是在一個 2000 小時的英文任務(wù)上基于 BLSTM,cFSMN,DFSMN 的聲學(xué)模型性能對比。

  Model

  BLSTM

  cFSMN

  DFSMN

  WER%

  10. 9

  10. 8

  9. 4

  從上表中可以看到,在 2000 小時這樣的任務(wù)上,DFSMN 模型可以獲得比 BLSTM 聲學(xué)模型相對 14% 的錯誤率降低,顯著提高了聲學(xué)模型的性能。

  傳統(tǒng)的聲學(xué)模型,輸入的是每幀語音信號提取的聲學(xué)特征,每幀語音的時長通常為 10ms,對于每個輸入的語音幀信號會有相對應(yīng)的一個輸出目標(biāo)。最近有研究提出一種低幀率(Low Frame Rate,LFR)建模方案:通過將相鄰時刻的語音幀進(jìn)行綁定作為輸入,去預(yù)測這些語音幀的目標(biāo)輸出得到的一個平均輸出目標(biāo)。具體實(shí)驗(yàn)中可以實(shí)現(xiàn)三幀(或更多幀)拼接而不損失模型的性能。

  從而可以將輸入和輸出減少到原來的三分之一甚至更多,可以極大的提升語音識別系統(tǒng)服務(wù)時聲學(xué)得分的計算以及解碼的效率。我們結(jié)合 LFR 和以上提出的 DFSMN,構(gòu)建了基于 LFR-DFSMN 的語音識別聲學(xué)模型,經(jīng)過多組實(shí)驗(yàn)我們最終確定了采用一個包含 10 層 cFSMN 層 +2 層 DNN 的 DFSMN 作為聲學(xué)模型,輸入輸出則采用 LFR,將幀率降低到原來的三分之一。識別結(jié)果和去年我們上線的最好的 LCBLSTM 基線比較如下表所示。

  通過結(jié)合 LFR 技術(shù),我們可以獲得三倍的識別加速。從上表中可以看到,在實(shí)際工業(yè)規(guī)模應(yīng)用上,LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以獲得 20% 的錯誤率下降,展示了對大規(guī)模數(shù)據(jù)更好的建模特性。

  NN-LM 語言模型

  語言模型,顧名思義,對語言進(jìn)行建模的模型。語言表達(dá)可以看作一串字符序列,不同的字符序列組合代表不同的含義,字符的單位可以是字或者詞。語言模型的任務(wù),可以看作是給定字符序列,如何估計該序列的概率,或者說,如何估計該序列的合理性。

  P (上海的工人師傅有力量)>P(上海的工人食腐有力量)

  拿這句話做個例子。比如到底應(yīng)該是“工人師傅有力量”,還是“工人食腐有力量”,哪句話更“合適”。我們?nèi)菀着袛嘧筮呥@句的概率大一點(diǎn)。于是我們希望通過語言模型的建模,可以給出符合人類預(yù)期的概率分配。就像這句,“工人師傅”的概率,大于“工人食腐”的概率。

  基于統(tǒng)計詞頻的傳統(tǒng)N元文法模型,通過馬爾可夫假設(shè)簡化了模型結(jié)構(gòu)和計算,通過計數(shù)的方式計算,通過查找的方式使用。擁有估計簡單、性能穩(wěn)定、計算快捷的優(yōu)勢,有超過三十年的使用歷史。然而其馬爾科夫假設(shè)強(qiáng)制截斷建模長度,使得模型無法對較長的歷史建模;基于詞頻的估計方式也使得模型不夠平滑,對于低詞頻詞匯估計不足。隨著神經(jīng)網(wǎng)絡(luò)(Neural Networks,NNs)的第三次崛起,人們開始嘗試通過 NN 來進(jìn)行語言模型建模。

  一個典型的建模結(jié)構(gòu)是遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneural networks,RNNs),其遞歸的結(jié)構(gòu)理論上可以對無窮長序列進(jìn)行建模,彌補(bǔ)了N元文法對于序列長度建模的不足;同時其各層間的全向連接也保證了建模的平滑。此外為了提升模型的性能,研究者們還嘗試了通過長短時記憶(Long Short-Term Memory,LSTM)結(jié)構(gòu)來提升基本 RNN 本身建模能力的不足,進(jìn)一步提升模型性能。

  NN 用于大規(guī)模語言建模的系統(tǒng)中,需要面對一些問題,例如大詞表帶來的存儲和計算增加。實(shí)際線上系統(tǒng)的詞表往往比較大,而隨著詞表的增加,基本 RNN 結(jié)構(gòu)的存儲和計算量都會幾何級數(shù)爆炸式增長。

  為此,研究者們進(jìn)行了一些嘗試,壓縮詞典尺寸成了一個最直接的解決方案,一個經(jīng)典的方法是詞表聚類。該方法可以大幅壓縮詞表尺寸,但往往也會帶來一定的性能衰減。更直接的一個想法是直接過濾掉低頻詞匯,這樣依然會帶來一定的性能衰減,據(jù)此有一個改進(jìn)策略,我們發(fā)現(xiàn)真正制約速度性能的主要是輸出層節(jié)點(diǎn),輸入層節(jié)點(diǎn)大,借助 projection 層可以很好解決,于是輸入層采用大辭典,而僅對輸出層詞表進(jìn)行抑制,這樣不僅盡可能地降低了損失,同時過濾掉過低的詞頻,也有利于模型節(jié)點(diǎn)的充分訓(xùn)練,性能往往還會略有提升。

  詞表的壓縮可以提升建模性能,降低計算量和存儲量,但僅限于一定的量級,不可以無限制壓縮,如何繼續(xù)降低計算量依然是一個問題。一些方法被提了出來。例如 LightRNN,通過類似聚類的方式,利用 embedding 的思想,把詞表映射到一個實(shí)值矩陣上,實(shí)際輸出只需要矩陣的行加矩陣的列,計算量大概也能開個方。和節(jié)點(diǎn)數(shù)多一起造成計算量大的一個原因就是 softmax 輸出,需要計算所有的節(jié)點(diǎn)求個和,然后得到分母。若是這個分母能保持一個常數(shù),實(shí)際計算的時候就只算需要的節(jié)點(diǎn),在測試環(huán)節(jié)就快的多了。

  于是就有了正則項(xiàng)相關(guān)的方法,Variance Regularization,如果訓(xùn)練速度可以接受的話,這種方法在基本不損失模型正確性的情況下可以大幅提升前向計算速度;如果訓(xùn)練的時候也想提速,還可以考慮基于采樣,sampling 的方法,比如 NCE、Importance Sampling、Black Sampling 等,本質(zhì)上就是說,在訓(xùn)練的時候不計算全部節(jié)點(diǎn),只計算正樣本(也就是標(biāo)簽為 1 的節(jié)點(diǎn)),以及部分通過某種分布采樣的到的負(fù)樣本,避免高輸出造成的計算緩慢。速度上提升還是很明顯的。

  從阿里云獲得開發(fā)者模型定制能力

  想象一個做智能電話客服或是智能會議系統(tǒng)的開發(fā)者,需要為他的系統(tǒng)接入語音識別(將語音轉(zhuǎn)寫為文字)的能力。擺在他面前的會是這樣一個尷尬的局面:

  一個選擇是自己從零開始學(xué)做語音識別,這可能要花費(fèi)大量的時間和金錢。畢竟人工智能這種事情,各大互聯(lián)網(wǎng)巨頭投入大量的人力、物力、財力,也要花較長的時間才能積累下技術(shù);

  第二個選擇是用上述巨頭們在互聯(lián)網(wǎng)上提供的開箱即用的、one size fits all 的語音識別接口,時間是省下了,但語音轉(zhuǎn)文字的準(zhǔn)確率嘛,只能碰碰運(yùn)氣,畢竟巨頭們也很忙,沒有精力為你關(guān)注的場景進(jìn)行優(yōu)化。

  那么問題來了:有沒有一種手段能夠以最小的投入獲得業(yè)務(wù)上最佳的語音識別效果呢?答案是肯定的。

  阿里云依托達(dá)摩院業(yè)界領(lǐng)先的語音交互智能,打破傳統(tǒng)語音技術(shù)提供商的供給模式,在云計算時代讓普通開發(fā)者也能夠通過阿里云提供的語音識別云端自學(xué)習(xí)技術(shù),獲得定制優(yōu)化自己所關(guān)心的業(yè)務(wù)場景的成套手段。阿里云讓廣大的開發(fā)者站在巨頭的肩膀上,通過自主可控的自學(xué)習(xí),在短時間內(nèi)實(shí)現(xiàn)對語音識別系統(tǒng)應(yīng)用從入門到精通,并在開發(fā)者關(guān)心的場景下輕松擁有業(yè)界頂尖的語音識別準(zhǔn)確率。這就是云計算時代的語音識別技術(shù)全新的供給模式。

  與其它人工智能技術(shù)一樣,語音識別技術(shù)的關(guān)鍵在于算法、算力和數(shù)據(jù)三個方面。阿里云依托達(dá)摩院語音交互智能,近年來持續(xù)在世界前沿進(jìn)行“算法”演進(jìn),近期還將最新的研究成果 DFSMN 聲學(xué)模型開源,供全世界的研究者復(fù)現(xiàn)目前最佳的結(jié)果并進(jìn)行持續(xù)提升。

  在“算力”方面自不用說,這本身就是云計算的天然強(qiáng)項(xiàng)。基于阿里云 ODPS-PAI 平臺,我們構(gòu)建了專為語音識別應(yīng)用優(yōu)化的 CPU/GPU/FPGA/NPU 訓(xùn)練和服務(wù)混布平臺,每天服務(wù)于阿里云上巨量的語音識別請求。在“數(shù)據(jù)”方面,我們提供通過海量數(shù)據(jù)訓(xùn)練的、開箱即用的場景模型,包括電商、客服、政務(wù)、手機(jī)輸入等等。

  同時應(yīng)該看到,在具體的落地場景下往往會有一些非常特殊、領(lǐng)域相關(guān)的“說法”需要被識別,很多時候類似于“碎屑巖巖性地層”、“海相碳酸鹽巖”這種特定說法對于通用場景模型的識別率提出了挑戰(zhàn)。要獲得開發(fā)者關(guān)心的具體場景下最佳的準(zhǔn)確率,開箱即用的模型一般還需要一定的定制優(yōu)化工作才可以達(dá)到。傳統(tǒng)上,這樣的定制是通過語音技術(shù)服務(wù)提供商來完成的,在成本、周期、可控性等方面都存在明顯不足。

  阿里云提供的語音定制“自學(xué)習(xí)”平臺服務(wù),可以提供多種手段,在很短的時間內(nèi)、以較低的成本,讓開發(fā)者完全掌控模型定制優(yōu)化及上線的工作。阿里云創(chuàng)新工具平臺及服務(wù)技術(shù),依托強(qiáng)大的基礎(chǔ)設(shè)施,使得在云計算的大背景下進(jìn)行大規(guī)模定制化語音服務(wù)成為可能。而開發(fā)者完全無需關(guān)心后臺的技術(shù)和服務(wù),只需要使用阿里云提供的簡單易用的“自學(xué)習(xí)”工具,利用場景知識和數(shù)據(jù),就可以獲得該特定場景下最優(yōu)的效果,并按需要持續(xù)迭代提升。

  阿里云的智能語音自學(xué)習(xí)平臺具備以下優(yōu)勢:

  • 易:智能語音自學(xué)習(xí)平臺顛覆性地提供一鍵式自助語音優(yōu)化方案,極大地降低進(jìn)行語音智能優(yōu)化所需要的門檻,讓不懂技術(shù)的業(yè)務(wù)人員也可以來顯著提高自身業(yè)務(wù)識別準(zhǔn)確率。

  • 快:自學(xué)習(xí)平臺能夠在數(shù)分鐘之內(nèi)完成業(yè)務(wù)專屬定制模型的優(yōu)化測試上線,更能支持業(yè)務(wù)相關(guān)熱詞的實(shí)時優(yōu)化,一改傳統(tǒng)定制優(yōu)化長達(dá)數(shù)周甚至數(shù)月的漫長交付弊端。

  • 準(zhǔn):自學(xué)習(xí)平臺優(yōu)化效果在很多內(nèi)外部合作伙伴和項(xiàng)目上得到了充分驗(yàn)證,很多項(xiàng)目最終通過自學(xué)習(xí)平臺不光解決了效果可用性問題,還在項(xiàng)目中超過了競爭對手使用傳統(tǒng)優(yōu)化方式所取得的優(yōu)化效果。

  舉例來說,開發(fā)者可以使用下述多種“自學(xué)習(xí)”手段來定制自己關(guān)心領(lǐng)域的模型:

  a)業(yè)務(wù)熱詞定制

  在許多特定場所,要求快速對特定詞的識別能力進(jìn)行加強(qiáng)(注:包括兩種模式,模式一為其他詞易被識別成特定詞;模式二為特定詞易被識別成其他詞),采用實(shí)時熱詞加載技術(shù),可以在實(shí)時場景下,通過設(shè)置不同的檔位,能夠?qū)崿F(xiàn)熱詞識別能力的加強(qiáng)。

  b)類熱詞定制

  很多時候,相同的發(fā)音相同的屬性在不同上下文上會需要不同的識別效果。聯(lián)系人和地名就是典型的案例,對于不同人的好友,“張陽”和“章?lián)P”我們就必須能準(zhǔn)確地識別出相應(yīng)的名字。同樣,相隔千里的安溪跟安西如果識別錯誤會給導(dǎo)航帶來大麻煩。智能語音自學(xué)習(xí)平臺相信“每個人都值得被尊重”,提供聯(lián)系人類和地名類的定制能力,“讓天下沒有難識的路”。

  c)業(yè)務(wù)專屬模型定制

  用戶通過輸入對應(yīng)領(lǐng)域的相關(guān)文本,如行業(yè)或公司的基本介紹、客服聊天記錄、領(lǐng)域常用詞匯和專有名詞等,即可快速自行生成該行業(yè)下的定制模型,整個定制過程無需用戶人工干預(yù)。

  通過這些手段,阿里云使得開發(fā)者不必關(guān)心語音技術(shù)的算法和工程服務(wù)細(xì)節(jié),專注于他們擅長的垂直領(lǐng)域的知識和數(shù)據(jù)收集,實(shí)現(xiàn)全新的語音技術(shù)云端供給模式,造福于廣大的開發(fā)者及其業(yè)務(wù)結(jié)果。

責(zé)任編輯:張燕妮 來源: 阿里技術(shù)
相關(guān)推薦

2017-03-19 16:05:01

2018-01-23 12:03:57

阿里雙11超級工程

2017-06-16 15:16:32

2017-12-21 14:48:43

數(shù)據(jù)安全數(shù)據(jù)泄漏檢測技術(shù)

2020-12-10 11:00:37

JavaJVM命令

2024-06-13 09:21:47

2017-06-26 10:40:59

2019-04-30 14:19:24

Kafka大數(shù)據(jù)分布式流平臺

2013-08-09 17:14:36

桌面虛擬化

2022-05-07 14:31:46

物聯(lián)網(wǎng)

2018-01-16 10:49:52

區(qū)塊鏈核心技術(shù)

2020-12-24 13:52:36

人工智能自然語言處理NLP

2018-03-15 09:16:43

人臉識別屏幕指紋指紋識別

2022-05-09 08:21:29

Spring微服務(wù)Sentinel

2009-06-15 17:54:50

Java核心技術(shù)

2025-09-15 06:25:00

2009-06-26 16:01:39

EJB組織開發(fā)EJB容器EJB

2016-11-15 14:33:05

Flink大數(shù)據(jù)

2023-06-14 08:49:22

PodKubernetes

2017-03-08 10:06:11

Java技術(shù)點(diǎn)注解
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美一级淫片aaaaaaa视频| 精品国产成人在线影院| 亚洲人成网站在线观看播放| 一区二区三区免费观看视频| 国产精品扒开腿做爽爽爽软件| 亚洲第一区第一页| 成人亚洲精品777777大片| 最爽无遮挡行房视频在线| 99久久综合| 欧美精品v国产精品v日韩精品| 女同性恋一区二区| 亚洲人午夜射精精品日韩| 喷白浆一区二区| 欧美高清不卡在线| 国产aaaaaaaaa| 红杏一区二区三区| 欧美绝品在线观看成人午夜影视| 成人免费播放器| 日本中文字幕在线视频| 99精品欧美一区二区三区综合在线| 国产精品九九九| www.youjizz.com亚洲| 日韩成人影院| 日韩精品丝袜在线| 日本少妇一区二区三区| 欧美色片在线观看| 一区二区三区**美女毛片| 日韩国产欧美精品| 天堂网在线观看视频| 国产一二精品视频| 国产精品精品视频一区二区三区| 国产无遮挡aaa片爽爽| 国产精品不卡| 在线观看免费高清视频97| 91精品国产自产| 亚洲不卡视频| 91精品国产综合久久国产大片| 无遮挡又爽又刺激的视频| hd国产人妖ts另类视频| 亚洲视频一二三区| 亚洲人一区二区| 黄色在线观看网| 91网站在线播放| 国产亚洲福利社区| 亚洲av无码一区二区三区dv| 久久国产麻豆精品| 日韩av快播网址| 国产又大又黄视频| 999亚洲国产精| 国自在线精品视频| 久久午夜鲁丝片午夜精品| 欧美大片一区| 欧美黑人极品猛少妇色xxxxx| 国产精品免费人成网站酒店| 国产大片一区| 久久久av电影| 欧美高清视频一区二区三区| 91精品综合| 九九精品视频在线观看| 老女人性淫交视频| 欧美天天在线| 亚洲 日韩 国产第一| 日本少妇吞精囗交| 国产精品一级| 国产精品h在线观看| 在线观看免费视频a| 美女视频一区在线观看| 国产剧情日韩欧美| 国产乱淫片视频| 国产成人免费xxxxxxxx| 国产亚洲精品久久飘花| 欧洲伦理片一区 二区 三区| 久久九九影视网| 亚洲图片都市激情| 顶级网黄在线播放| 亚洲国产精品综合小说图片区| 麻豆tv在线播放| 日韩大片欧美大片| 欧美日本在线播放| 天堂中文视频在线| 国产精品视频一区二区三区| 欧美大黄免费观看| 亚洲制服丝袜在线播放| 欧美日韩高清| 欧美成人久久久| 探花视频在线观看| 久久av老司机精品网站导航| 成人av片网址| 四虎影视精品成人| 中文字幕一区二区三区在线不卡 | 久久久欧美精品| 日韩精品手机在线| 青草av.久久免费一区| 99re在线播放| 免费国产在线观看| 亚洲精品欧美综合四区| www黄色日本| 在线欧美激情| 亚洲精品中文字幕女同| 中国一级片在线观看| 亚洲日韩视频| 成人有码在线播放| 天堂√在线中文官网在线| 中文字幕中文字幕在线一区 | 亚洲成人自拍| www欧美xxxx| 欧美日韩亚洲国产综合| 97香蕉碰碰人妻国产欧美 | 祥仔av免费一区二区三区四区| 日韩免费福利电影在线观看| 亚洲午夜久久久久久久国产| 一区免费视频| 91青草视频久久| 黄色网址在线播放| 五月婷婷激情综合网| 九九九九九国产| 精品国产一区二区三区四区| 国外成人在线视频| www.com欧美| 国产精品久久毛片av大全日韩| 国产原创中文在线观看 | 久艹在线观看视频| 久久夜色精品| 久久久精彩视频| 欧美xxx黑人xxx水蜜桃| 在线观看91av| 国产大屁股喷水视频在线观看| 国产日韩精品视频一区二区三区| 亚洲中国色老太| 日本蜜桃在线观看| 在线精品视频一区二区| 亚洲av无码国产精品久久| 国产精品观看| 99理论电影网| 在线网址91| 91精品国产色综合久久不卡电影| 538精品视频| 日韩高清不卡一区| 欧美在线播放一区| 日韩精品麻豆| 国产亚洲精品美女久久久久| 日本视频免费观看| 久久精品综合网| 久久久久久久久久久免费视频| 欧美黄色网视频| 韩日欧美一区二区| 日韩在线视频观看免费| 亚洲福利视频导航| 三级视频网站在线观看| 尹人成人综合网| 国产亚洲情侣一区二区无| 精灵使的剑舞无删减版在线观看| 欧美成人bangbros| 国产性生活网站| 大美女一区二区三区| 无码人妻少妇伦在线电影| 给我免费播放日韩视频| 国外成人在线播放| 美女毛片在线看| 91福利视频久久久久| 精品国产aaa| 韩国成人福利片在线播放| 黄色一级视频播放| 成人线上播放| 欧美又大粗又爽又黄大片视频| 激情小说 在线视频| 欧美三级蜜桃2在线观看| 男人晚上看的视频| 国产成人免费视频| 两根大肉大捧一进一出好爽视频| 女人av一区| 成人羞羞国产免费| 免费看电影在线| 亚洲欧美一区二区三区情侣bbw| 91黑人精品一区二区三区| 国产精品传媒视频| 中文字幕人妻一区| 久久一本综合频道| 综合操久久久| 欧美成人一区在线观看| 国产精品成人va在线观看| 国产在线看片| 精品视频久久久久久久| 91福利在线观看视频| 亚洲综合免费观看高清完整版| 女同毛片一区二区三区| 韩国女主播成人在线| 国产在线播放观看| 成人看的羞羞网站| 国产精品制服诱惑| а√天堂资源国产精品| 欧美疯狂性受xxxxx另类| 国产女人在线观看| 欧美成人精品福利| 国产精品国产精品国产| 亚洲一区二区精品视频| 呻吟揉丰满对白91乃国产区| 成人高清视频免费观看| 国模私拍视频在线观看| 99精品国产福利在线观看免费| 亚洲啪啪av| 欧美三级午夜理伦三级在线观看| 国产专区欧美专区| 吉吉日韩欧美| 欧美精品18videos性欧| 日本视频在线观看| 亚洲美女www午夜| 亚洲精品一级片| 欧美三级电影精品| 欧美一级片免费在线观看| 成人欧美一区二区三区| 国产小视频自拍| 99国产欧美久久久精品| 波多野结衣在线免费观看| 日韩精品免费专区| 中文字幕无码精品亚洲35| 亚洲午夜精品一区二区国产| 水蜜桃一区二区三区| 亚洲区小说区| 精品国产一二| 超碰精品在线观看| 99视频免费观看| 日本不卡二区高清三区| 国产一二三区在线观看| 国产亚洲精品久久久久久| 少妇人妻精品一区二区三区| 欧美精品国产精品| 国产午夜无码视频在线观看 | 亚洲男人的天堂在线播放| 亚洲国产精品无码久久| 日韩午夜在线观看视频| 一区二区不卡视频在线观看| 欧美亚洲国产怡红院影院| 亚洲天堂av片| 欧美日韩一二三四五区| 国产精品美女久久久久av爽| 亚洲国产精品久久久久婷婷884| 欧美黄色免费看| 亚洲精品视频在线| 国产精品三区在线观看| 亚洲视频一二三| 91麻豆免费视频网站| 亚洲视频精选在线| 国产老头老太做爰视频| 亚洲手机成人高清视频| 国产十六处破外女视频| 一区二区三区精品视频在线| 精品99久久久久成人网站免费 | 不卡高清视频专区| 妖精视频一区二区| 99国产精品久久久| 97人妻精品一区二区三区免| 久久综合中文字幕| 日本激情小视频| 中文字幕av不卡| 永久免费看片视频教学| 亚洲人一二三区| 青娱乐91视频| 亚洲18色成人| 亚洲va在线观看| 欧美日韩一区国产| 99久久精品日本一区二区免费| 日韩一二三区不卡| 成人毛片在线精品国产| 精品视频一区在线视频| 成年人在线观看| 久久久av网站| 国产高清视频色在线www| 欧洲精品久久久| 欧美网站免费| 99精彩视频在线观看免费| 国产一区丝袜| 日韩福利视频| 欧美一区二区三区久久精品| 狠狠干 狠狠操| 免费高清不卡av| 熟妇高潮一区二区| 国产午夜亚洲精品羞羞网站| 国产麻豆视频在线观看| 黄网动漫久久久| 国产一区二区在线播放视频| 亚洲成人网av| 91九色在线porn| 久久免费视频在线观看| 色天使综合视频| 亚洲一区二区三区在线免费观看| 乱亲女h秽乱长久久久| 亚欧精品在线| 99xxxx成人网| 欧美一级xxxx| 91免费精品国自产拍在线不卡| 亚洲天堂最新地址| 亚洲午夜在线电影| 奴色虐av一区二区三区| 日韩精品综合一本久道在线视频| 天堂网www中文在线| 久久五月情影视| 伊人久久国产| av电影成人| 色婷婷色综合| 91精品91久久久中77777老牛| 久久精品国产成人一区二区三区| 久久人人妻人人人人妻性色av| 国产精品久久久久久久久动漫| 奇米影视第四色777| 欧美精品在线一区二区三区| 欧洲伦理片一区 二区 三区| 久久国产加勒比精品无码| 亚洲综合在线电影| 高清视频一区二区三区| 色喇叭免费久久综合| 91黄色小网站| 成人精品免费看| 玖玖爱这里只有精品| 欧美中文字幕不卡| 亚洲 欧美 自拍偷拍| 欧美多人爱爱视频网站| 日本午夜免费一区二区| 日本不卡二区| 久久亚洲美女| 少妇特黄一区二区三区| 亚洲午夜在线视频| 99热这里只有精品66| 中文字幕日韩欧美在线| 天天免费亚洲黑人免费| 久久精品magnetxturnbtih| 欧美激情1区| 91丝袜超薄交口足| 国产精品日产欧美久久久久| 日本午夜视频在线观看| 欧美精品一区二区三区在线| caoporn97在线视频| 国产美女被下药99| 欧美中文一区二区| 精品www久久久久奶水| 26uuu国产电影一区二区| 国产真实夫妇交换视频| 日韩欧美高清一区| 91香蕉在线观看| 亚洲综合社区网| 欧美精品大片| 国产a√精品区二区三区四区| 亚洲免费在线视频一区 二区| 国产精品久久欧美久久一区| 精品国产一区二区三区在线观看| 成人免费在线观看视频| 亚洲韩国在线| 精品综合久久久久久8888| 色偷偷www8888| 日韩美女主播在线视频一区二区三区| www在线观看播放免费视频日本| 亚洲精品欧美一区二区三区| 欧美人成网站| 国产免费一区二区三区最新6| 亚洲成人7777| 欧美成人免费| 国产精品视频最多的网站| 93在线视频精品免费观看| 日本一二三区在线| 一区二区在线观看不卡| 囯产精品一品二区三区| 91高清视频免费| 国产一区三区在线播放| 日本黄色福利视频| 一区二区三区国产豹纹内裤在线| 亚洲奶汁xxxx哺乳期| 91高清免费在线观看| 日韩免费久久| 中国老熟女重囗味hdxx| 五月婷婷久久丁香| 久草福利在线视频| 91精品国产自产在线| 综合精品久久| 噜噜噜在线视频| 欧美午夜电影网| 在线欧美三级| 欧美福利精品| 激情综合色综合久久综合| 久久久久亚洲av无码专区| 日韩精品在线免费| 国产精品久久久久久久久免费高清 | 中文字幕一区二区在线观看| 亚洲av无码一区二区三区dv| 欧美在线视频免费| 四虎成人精品永久免费av九九| 奇米777在线| 疯狂蹂躏欧美一区二区精品| 888av在线| 国产精品久久7| 青青草国产成人99久久| 欧美国产日韩综合| 在线电影欧美日韩一区二区私密| 日韩精品一区二区三区中文字幕| 日韩欧美视频网站| 中文字幕视频一区| 日韩在线视频免费| 91免费国产视频| 视频在线观看91| 91精品国产高潮对白| 深夜精品寂寞黄网站在线观看|