硅谷熱議:最快語音轉(zhuǎn)文字模型
最強(qiáng)語音轉(zhuǎn)文字模型,正在硅谷被熱議。
直接把“快、 準(zhǔn)、全”三個(gè)字拉到了新高度。
來自AI語音獨(dú)角獸公司ElevenLabs,剛剛發(fā)布了Scribe v2 Realtime實(shí)時(shí)語音轉(zhuǎn)文本模型,網(wǎng)友表示:Next-Level。

何出此言?還得看它這組王炸數(shù)據(jù)——
150毫秒的超低延遲,93.5%的高準(zhǔn)確率,還覆蓋了90多種語言。
要知道,人類眨一次眼的平均時(shí)長在100-400毫秒……這就意味著,你說完一句話眨下眼,文字就已經(jīng)同步到屏幕上了。

小測(cè)一下
不僅延遲低,準(zhǔn)確率也破新高。
據(jù)官方數(shù)據(jù),Scribe v2 Realtime在針對(duì)前30種常用語言的FLEURS基準(zhǔn)測(cè)試?yán)铮瑴?zhǔn)確率飆到93.5%,在一眾同賽道模型中表現(xiàn)突出。

就算環(huán)境吵鬧,方言講話、或者說話內(nèi)容里夾著一堆專業(yè)術(shù)語,它也能精準(zhǔn)抓住每一個(gè)關(guān)鍵詞,甚至能辨別你的笑聲是大笑還是苦笑(doge)。

適配能力也比較全面。在音頻格式方面,像PCM(8-48kHz)、μ-law 編碼等常用類型都能支持。語音活動(dòng)檢測(cè)功能可以精準(zhǔn)檢測(cè)語音起止,手動(dòng)提交控制能讓使用者自主決定何時(shí)最終確定轉(zhuǎn)錄內(nèi)容,便于實(shí)現(xiàn)定制化的音頻流處理和更高精度的微調(diào)。
還有90多種語言隨意切換,從常見的主流語言到相對(duì)小眾的語種,基本都能涵蓋,對(duì)于有跨國需求的用戶來說,不用再為了不同語言切換不同工具。
看上去是挺厲害,咱也小測(cè)了一下!
這里提供了一段相聲里的繞口令片段,可以看出延遲確實(shí)比較低,而且過程中還能對(duì)實(shí)時(shí)轉(zhuǎn)錄的文字進(jìn)行調(diào)整。
但對(duì)于中文里一些生活化的表達(dá)拿捏得還不是很到位,比如“五月單五”這個(gè)說法。但整體的準(zhǔn)確率還是比較高的。

其實(shí),在Scribe v2 Realtime推出前,實(shí)時(shí)語音轉(zhuǎn)文本賽道已歷經(jīng)多輪技術(shù)迭代,但長期存在痛點(diǎn)集群。
早期階段,該領(lǐng)域以傳統(tǒng)統(tǒng)計(jì)模型為主,但識(shí)別準(zhǔn)確率低,在帶背景噪音的場(chǎng)景中錯(cuò)誤率常超30%,且延遲普遍在1秒以上,難以滿足會(huì)議記錄、實(shí)時(shí)客服等場(chǎng)景的需求。
隨著深度學(xué)習(xí)技術(shù)滲透,模型雖然提升了準(zhǔn)確率,但多語言支持能力薄弱,主流模型僅覆蓋20-30種語言,且對(duì)小眾語言或復(fù)雜口音的適配性極差。
所以,此前行業(yè)內(nèi)存在速度與精度不可兼得的困境。這一矛盾直至Transformer架構(gòu)在語音領(lǐng)域應(yīng)用后才逐步緩解。
現(xiàn)在,Scribe v2 Realtime實(shí)現(xiàn)了毫秒級(jí)延遲+90%以上準(zhǔn)確率的突破。
雖然官方還沒有發(fā)布明確的技術(shù)報(bào)告,但在AI語音這條賽道上,ElevenLabs卷出了新水平。
實(shí)際上,這家公司也以此為特色,圈內(nèi)小有名氣。
全力押注語音
ElevenLabs成立于2022年,是一家聚焦AI語音技術(shù)的科技企業(yè),于2022年在倫敦正式成立。
其創(chuàng)始團(tuán)隊(duì)核心成員包括前谷歌機(jī)器學(xué)習(xí)工程師Piotr D?bkowski與前Palantir策略師Mati Staniszewski。

成立后,公司在商業(yè)層面實(shí)現(xiàn)快速突破,僅20個(gè)月就突破1億美元營收,后續(xù)10個(gè)月內(nèi)進(jìn)一步增長至2億美元。
在今年1月完成的1.8億美元C輪融資后,其估值達(dá)到33億美元。
創(chuàng)始人Mati Staniszewski表示,公司創(chuàng)立之初,AI領(lǐng)域的方向多得讓人眼花繚亂,而他們一開始就堅(jiān)定地押注在語音上。目前,公司擁有全球Top100 AI語音方向研究員。
ElevenLabs并不把自己看作一個(gè)250人的大團(tuán)隊(duì),而是20個(gè)5-10人的小團(tuán)隊(duì),且團(tuán)隊(duì)內(nèi)部不設(shè)頭銜,任何人都可成為關(guān)鍵決策者,靈活調(diào)動(dòng),高效運(yùn)作。
該公司之前推出的Eleven v3文本轉(zhuǎn)語音模型,支持70多種語言,還能進(jìn)行多人對(duì)話聊天,因?yàn)樽匀弧⑸鷦?dòng)的語言表現(xiàn)力已經(jīng)大獲好評(píng)。
如今,在語音實(shí)時(shí)轉(zhuǎn)錄這條賽道上,Scribe v2 Realtime又成了新的天花板。


























