一文看懂NLP落地難在哪兒
原創【51CTO.com原創稿件】近年來,自然語言處理技術逐漸成為應用范圍最為廣泛的人工智能技術之一。尤其是在深度學習浪潮的推動下,AI的這一分支取得了長足進步。日常生活中,我們經常接觸的搜索引擎、個性化推薦、智能音箱、機器的實時翻譯等場景,都滲透著自然語言處理技術的應用。不過總體而言,NLP在商業化上其實受限頗多,相關產品基本屬于“可用”,但離實際意義上的“好用”還有較長的距離。
放眼市場,很多智能交互系統針對的往往是單一領域里某個單一任務,因此應用非常受限,要出現爆款產品還需突破技術藩籬。此外,自然語言處理技術要實現突破性進展,模型的迭代和訓練都非常燒錢,在應用早期基本屬于頭部玩家的游戲,很難出現有代表性的標桿企業。本文將從自然語言本身、多模態的學習、訓練數據的獲取、工業化設計的要求四個方面解析NLP技術的落地難點,希望能夠對突破當前瓶頸有所啟發。
難點之一:自然語言是不斷進化的
“自然語言處理”解決的是人機交流的問題,通俗來說包括兩個部分,自然語言理解(NLU)和自然語言生成(NLG)。常用的自然語言處理的方法包括分詞標注、文本分類、關鍵詞分析、敏感用語識別、詞頻統計、觀點歸納,情感分析等。究其實質,這些方法都是在文本挖掘中進行特征提取,從而推進對文本的理解。
為了使計算機理解自然語言所構建的模型被稱為語言模型。常見的自然語言模型有詞袋模型、N-Gram模型和神經網絡語言模型。詞袋模型(bag of words)將每個詞視作互相獨立的符號,但忽略詞序信息,顯然對語義的理解會失之粗略;N-Gram語言模型雖然考慮了詞序,但受到數據稀疏問題的影響,無法處理集外詞(out of vocabulary words);神經網絡語言模型基于分布式表示,雖然能夠提高模型泛化能力,但模型訓練時間長,而且可解釋性不夠。
一定程度上,各種自然語言模型的局限性可以說是自然語言本身的一些特性導致的。自然語言可以說是現存人類使用過的最龐雜的符號系統,這一系統還隨著社會進步不斷進化,展現出了十分鮮明的個性。
多樣性:基于人類的創造力,語言作為一個開放的集合不斷吸收引入新的表達方式。生活中比較常見的就是舊詞新意現象。比如“硬核”,本來指的是朋克音樂中的一個分支,而如今在使用中基本被認為是“很酷、很彪悍、很剛”的意思。網絡用語中,這種創新性得到了很大釋放。“真情實感”的拼音梗“zgsq”,“與你無關”的諧音梗“雨女無瓜”。這些詞語充分擴展了語言的表意空間,但帶有極大的偶然性和隨意性,很難找到規律也缺乏足夠的數據支持,對于自然語言理解來說就是一大難度。
歧義性:語言中存在大量一詞多義的現象,如果不聯系上下文或者結合說話雙方的語境就很容易造成歧義。看這樣一句話:Marriage is an institution in which a man loses his bachelor's degree and the woman gets her master's ! 這句話有意思的點在于,其中三個單詞都有雙關義。institution既可以表示“學院”又可以表示“制度”,bachelor 既指“學士”,也指“單身”。master既指“碩士”,又指“主人”。在這個層面上看,“學院、學士、碩士”是一個體系的用詞,““制度、單身、主人”又是另一個體系。比較通順的翻譯是:婚姻是一種制度,男人不再是單身,而女人有了“主人” 。但對機器來說,要理解這種一詞多義其實是一大挑戰。
社會性:人類的社會生產和生活深刻反映在語言中,不同地區的社會形態和地域特點也產生了形態各異的語言體系。因此成長背景不同、社會經歷不同、知識體系不同的人所運用的語言是有其差異性的。比如7-11,有些人覺得是數字,有些人覺得是日期,有些人覺得是便利店。語言的使用不僅因人而異,在不同的場合,同一個人也會切換不同的風格。比如公開演講和朋友聚會時用詞肯定有所區別。不考慮社會性的自然語言理解很可能差之毫厘、謬以千里。
主觀性:在中國的傳統文化里,“意在言外”、“弦外之音”也是很常見的表達。語言在說者口中是一個意思,但聽者可能會有很多角度和層次的解讀。在人們日常對話交流中,這種主觀性比比皆是,有時候必須結合上下文來洞察個中區別,否則就容易踩到“雷區”。比如有個鄰居跟李阿姨說:“你家小明真刻苦,每天晚上十二點,還能聽見他練琴呢。”顯然,言外之意就是小明練琴影響鄰居休息了。
正是由于自然語言的多樣性、歧義性、社會性、主觀性等特點,自然語言呈現出錯綜復雜的圖景。目前來看,現有的語義表示方案只能通過特定任務下的數據進行學習,通用性和遷移性都遠遠不足。面對這一問題,需要研究一個相對通用的、泛化能力較強的語義模型。設計這類模型的前提是要解決無監督語義學習的問題。目前NLP領域表現比較搶眼的模型有谷歌的BERT、Facebook的RoBERTa等。
難點之二:多模態的語義理解
基于多模態信息融合的自然語言處理是NLP領域的一大課題,也是很多研發團隊主攻的方向。多模態比較通俗的理解是:多種感官、多種信息來源相融合。因為人類本身就是通過“看”、“聽”、“聞”、“觸”等感知方式相結合來理解世界的,如果機器能更“聰明”地像人一樣利用多維度信息,同時結合圖像、音頻、視頻來理解用戶意圖,那么可能更有利于解決實際場景中的需要。
基于多模態的自然語言處理技術難度主要集中在三點:其一,語義鴻溝是普遍存在的,單模態尚且如此,多模態要融合時無疑難上加難;其二,多模態數據間存在特征異構性,跨模態相關算法要有質的飛躍;其三,建立多模態的數據集面臨極大地挑戰。
目前市面上大部分打著“多模態AI交互”旗號的產品,實際上還不是真正的多模態交互產品。操作中,不同來源的信息輸入到設備處理中心后依舊是各自分離的,實質上還是不同的算法啟動不同的開關。即使這個機器能“看”又能“聽”,實際上兩個功能彼此間割裂的,信息并不發生交互。
為了真正實現多模態的協同,近年來,“多模態深度學習”技術開始成為業界熱點,也就是
指建立可以完成多模態學習任務的神經網絡模型。通過這一技術達成模態轉化、模態對齊、模態融合等等,讓智能體能夠理解多模態信號,能夠將視覺、聽覺、傳感信號綜合起來統一“思考”。
難點之三:訓練數據的匱乏
本身數據的匱乏就是NLP領域里一個永恒的問題,缺乏標注數據、樣本存在大量噪聲、數據存在偏差都是很常見的現象。在AI研發中,算力是基礎,算法基本開源,數據自然而然就成為了各家研究機構和企業角力的核心。尤其是當你需要一些特定的數據時,僅僅采集數據的代價就可能超出預估。
另外,在自然語言處理領域,標注數據的規模遠遠跟不上應用需求,人工標注成本極高。數據標注,即對數據集,通過貼標簽、做記號、標顏色或劃重點的方式,來標注出其中目標數據的相同點、不同點或類別。有了標注數據,算法才能在基礎上進行訓練,數據標注的質量越高,學習結果越精確,NLP邁入實用階段的可能性越大。但是數據標注本就是屬于做“冷板凳”的活兒,工作量大且非常枯燥,愿意做的人本來就少。而且在人工操作下,標注的質量確實也無法保證。
在這種情況下,成品數據庫開始變成很多人和企業的選擇。成品數據庫的優勢是顯而易見的,成本低、效率高。數據庫并不是定制化的采集,完成后可以反復出售,因此價格肯定不會很高。再者,數據庫是拿來即用的,大大節省了研發周期,節約了人力、財力。但成品數據庫也有比較明顯的不足,那就是適應性差。作為現成的工具,數據庫是不能改的,當你的應用場景發生了變化或者有更高的需求時,成品數據庫肯定就不適配了。因此,對于起步階段的產品和公司來說,成品數據庫是非常實用的,但要進階的話,肯定需要定制化的數據補充。
難點之四:實驗室和市場之間的溝壑
NLP技術從實驗室到市場有多遠?相對學術界的訓練模型,商用模型落地時考慮的因素通常更復雜一點,另外在產品設計和產品體驗方面也需要多加權衡。
首先要明確的是,優化產品模型永無止境。因為訓練模型的關注指標和用戶想要的結果之間可能存在著一定差距。所以在實際操作過程中,不管研發階段效果多么無懈可擊,仍需要根據用戶反饋不斷調參,或者補充訓練數據,或者結合其他算法,來提升模型的可用性。即使在上線以后,也要根據運營數據和用戶行為進行模型的調優迭代。
其此,選擇落地場景時要看到“突圍”的可能。我們可以參照一下AI界發展迅猛的人臉識別技術。這一領域的產品在目前的市場上應用普及度相當高,精度也有了一定的保證,覆蓋行業也在逐步拓寬。但最初在商業化方面,人臉識別是以“安防”為突破口,在這一行業將產品反復打磨,逐漸成熟后才開始“開疆辟土”。NLP技術除了繼續磨練硬功底以外,也需要找到類似這樣的經典場景,在單點擊破后再多點開花。
再者,產品設計要更貼近用戶需求。這個需求包括實用需求和審美需求。NLP技術要大規模落地必須要讓產品更接近于人們日常生活的常態。但一般來說,生活中的交流往往偏口語化,邏輯跳躍,語義多變,要建模進行分析難度比較大,加之場景開放性大,需要足夠的常識背景輔助理解,所以在產品開發中必須針對這一點下功夫。另外,界面設計也是一個影響落地的重要因素。當功能表現差不多時,如果UI更勝一籌,用戶體驗更佳,自然也可以建立起市場競爭力。
路漫漫其修遠兮,吾將上下而求索
自然語言被普遍認為是人類智慧和文明的集成,自然語言處理也因此成為皇冠上的明珠。為了不讓明珠蒙塵,我們需要跨越的問題還有很多:語義消歧、遷移學習、文摘提取、領域自適應、任務導向型人機對話……技術的延展是沒有邊界的,當感知智能和認知智能繼續前行,當圖、文、聲、象交叉融合,人機無障礙交流的群像自然會徐徐鋪開,延伸到繁花與荊棘交纏的無盡未來。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

























