【WOT2018】AI門檻不斷降低 AI工具人人可用
原創【51CTO.com原創稿件】2018年11月30日-12月1日,WOT2018全球人工智能技術峰會在北京·粵財JW萬豪酒店盛大召開。60+國內外人工智能一線精英大咖與千余名業界人士齊聚現場,分享人工智能的平臺工具、算法模型、語音視覺等技術內容,探討人工智能如何賦予行業新的活力。兩天會議涵蓋通用技術、應用領域、行業賦能三大章節,開設13大技術專場,如機器學習、數據處理、AI平臺與工具、推薦搜索、業務實踐、優化硬件等,堪稱人工智能技術盛會。
在《AI平臺和工具》分論壇,ThoughtWorks智能服務團隊技術總監白發川、百度深度學習技術平臺部總監馬艷軍和偶數科技AI負責人劉大偉,三位專家分享了各種深度學習的框架與工具,如TensorFlow、PaddlePaddle等應用及技巧。
持續智能——打造規模化的AI服務
ThoughtWorks智能服務團隊技術總監白發川在《持續智能——打造規模化的AI服務》主題演講中提到,持續集成、持續交付、持續部署可以讓軟件在快速迭代的同時保持著較高的軟件質量。隨著機器學習的普及,越來越多的服務更加的個性化、定制化,“持續智能”定義了一套對此類服務進行快速迭代和發布的方法。
智能的定義大致可以分為三個等級:一是為響應當前運營需求而不得不開展的一系列工作;二是把AI變成一種基礎服務,融入到業務場景中;三是把AI變成個性化服務,可以組合產生新的業務場景。其中,第三個級別是較為理想的狀態,通過人工智能發現新的業務和價值點,達到更好的用戶體驗。
整體來看,目前人工智能在企業落地的過程中仍然面臨諸多挑戰。首先是規?;膯栴},AI模型的邊界難以衡量,也很難復用現有模型的構建過程。其次是工程實踐的三大難題:難于追蹤,難于重現,難于部署。然后是數據問題,包括數據或模擬數據量不足,數據治理不足,數據安全隱患等諸多問題。很多開發者發現,對于一個機器模型,數據帶來的挑戰遠遠大于調整神經網絡參數或選用算法帶來的難度。
ThoughtWorks智能服務團隊技術總監白發川
人工智能在業務系統或生態環境中落地實施,大致可以分為三個階段。一是做PoCs[鳶瑋1] (Projections onto convex sets),評估并驗證模型、服務或方案是否可行,完成單個模型的發布和上線。第二個階段開始解決規?;膯栴},因為經過優化和訓練后的模型,才可用于生產。第三個階段進行跨業務系統的AI服務集成。
在PoCs階段,需要引入數據中臺的概念,使用數據治理、血緣分析、可訪問性和多語言數據存儲構建現代數據體系結構。傳統的數據倉庫架構只能解決智能的一個維度,也就是支撐運營,而在機器學習場景下,非結構化和半結構化的數據需要大規模ETL動作,則要使用到數據中臺架構。
在第二階段,因為從開發到發布訓練再到實施,整個過程過于手動,需要一個產品化的機器學習架構。通過引入優秀實踐,例如CI/CD,TDD,Pipeline等技術方法使模型從創建到發布的過程[鳶瑋2] 可被復用,跟蹤和重現。
在第三階段,需要搭建跨業務的機器學習架構,通過端到端的機器學習流水線構建平臺,更大限度的共享企業的AI服務、數據和算法,達到跨業務線的智能服務整合。
可復用的模型構建過程
- 和數據平臺結合,利用數據平臺的能力作為數據支撐,更好的發揮數據平臺的價值;
- 拆分服務構建環節,智能服務開發流程化,快速響應業務需求;
- 利用元數據管理方式,提供統一的標準格式,場景可以多人協同配合開發;
- 基礎設施共享化,模型的訓練和發布與數據平臺有效綁定,服務的構建自動化;
- 統一的元數據管理系統,模型的全生命周期可管理;
- 通用AI能力平臺化,降低人員要求,提升協作效率。
數據中臺
要想實現持續智能,讓AI模型像流水線一樣可以持續發布,需要先解決以下幾層問題:一是數據中臺,可以將數據整合、數據加工、數據處理、數據發布的過程形成一整套流水線。二是要有AI基礎設施平臺,可以選擇所需要的算法、框架和服務,以及模型發布所需要的運行環境,并實現流水化。三是數據和AI能力的匯聚層,解決數據和AI基礎平臺的銜接問題,例如模型的數據從哪來,模型在哪發布,在哪存儲等等。這三層能力構建好,就能實現持續發布、持續迭代和持續上線,也就是常說的AI流水線。
持續智能架構的構建步驟
- 從硬編碼到自適應模型;
- 使用大規模數據訓練特定模型;
- 構建可擴展的系統;
- 創造交互式AI探索開發工具;
- 協同設計算法、軟件和產品。
企業級機器學習目標
- 大規模數據集下的模型訓練;
- 模型分析和比較工具;
- 端到端的模型workflow;
- 可規?;臋C器學習模型生態系統;
- 可復用的算法和服務;
- 實驗管理。
企業級機器學習方案
- 分布式訓練工具;
- 性能報告流程;
- 可視化的構建過程;
- Python Jupyter, R, Sklearn, TensorFlow, PyTorch, SparkML, ONNX等。
可選的工具
白發川列舉了企業級機器學習一個模型、多個模型以及跨業務線和部門的案例,并列舉了機器學習的框架及工具。他強調,在考慮AI規模化落地的過程中,首先要考慮如何提高底層AI能力,然后再去構建上層的AI模型和業務場景,如果先考慮解決業務場景問題,往往會在AI規?;倪^程中處處碰壁。
掃描下方二維碼查看詳細課程
PaddlePaddle深度學習框架
百度深度學習技術平臺部總監馬艷軍在演講中分析了深度學習技術的發展歷程和未來趨勢,以及深度學習框架的發展現狀。結合百度在深度學習技術應用的情況,為參會者帶來了國內開源開放的深度學習框架PaddlePaddle的進展,介紹PaddlePaddle的技術領先性,分享了PaddlePaddle為各行各業進行AI賦能的經驗和成果。
百度使用深度學習技術可以追溯到2012年,短短一年時間就將其應用于百度的搜索和推薦業務,并帶來業務的顯著提升。2015年百度上線了完全基于深度學習的翻譯引擎。隨著深度學習技術大火,應用場景越來越多,并且已經開始工具化,也就是所謂的深度學習框架,例如TensorFlow以及PaddlePaddle先后開源,而PaddlePaddle是百度內部長期研發的深度學習框架。
百度深度學習技術平臺部總監馬艷軍
實際上,深度學習框架的開源從很大程度上降低了技術的準入門檻,但開發者仍然需要特定的知識背景和硬件資源支持。要深入研究這一系統還是過于復雜,因此又誕生了一系列的工具。例如針對深度學習調參的難題,百度開放了網絡結構自動化設計工具AutoDL,讓開發者無需經過特殊訓練即可完成。此外,百度還發布了更簡單的定制化AI模型應用平臺——EasyDL,它是一個零算法基礎的快速應用平臺,無需代碼,無需任何專業背景即可輕松定制模型,與云端結合,使用戶無任何后顧之憂。
以深度學習框架為核心的“操作系統生態”
馬艷軍提到,在AI場景下,深度學習框架與操作系統類似,它介于用戶程序和硬件資源之間,通過內核為用戶程序提供資源調度,通過接口為用戶程序提供開發便利。深度學習框架要解決的是如何把底層的硬件性能發揮到更高水平,向上提供API,讓企業實現自己的算法。當然,深度學習框架之上也會開放很多算法、可視化工具、安裝和部署工具等,企業或個人可以直接開發和使用這些模型,搭建自己的AI程序。
PaddlePaddle與其他深度學習框架不同的是,一是更注重模型以及API的兼容性,在深度學習的安裝環境適配方面作了深度優化和驗證,讓開發者能真正用起來;二是更加便于二次開發,降低了企業的應用成本;三是性能更加穩定,并且更重視對上層視覺、語言處理、情感分析、對話系統等場景應用的支持,而不只是底層工具性的應用。此外,PaddlePaddle配套的工具和組件也非常豐富,包括AutoDL、VisualDL、EasyDL等等。
此外,PaddlePaddle官方公開的模型數量豐富多樣,且都是百度長期驗證過的模型,效果持續、穩定。而對于大規模的數據場景,PaddlePaddle的并行能力也是一大強項。在部署方面,百度開放了大量的特有模型,包括推薦模型、視覺模型、NLP模型等。
馬艷軍表示,百度做了很多跟AI生態相關的工作,包括開放數據、評估標準以及平臺,舉辦一系列的專家課程,目的就是降低深度學習的門檻,讓AI技術為行業賦能,提高行業生產力。
讓人人都會使用AI
偶數科技AI負責人劉大偉從人工智能行業發展現狀出發,列舉了行業發展的機遇和挑戰,進而介紹人工智能建模系統的優勢及便利性。另外,以偶數科技的反洗錢金融項目為例,對如何“讓普通人輕松擁抱AI,助力行業實踐”進行了深入講解。
劉大偉表示,人工智能技術在語音識別和圖像識別領域取得了飛速進展,AI技術已經滲透到多個領域,例如AI模型能夠通過視網膜診斷糖尿病,AI能夠預測工業生產線上的設備狀態,通過AI動態探測系統,來保護像東北虎等野生動物。
偶數科技AI負責人劉大偉
偶數科技應用AI技術在反洗錢領域已經取得了成功案例。據悉,美國大型征信機構已經開始利用AI模型來計算FICO評分系統,從而鎖定非法交易。在中國每年有兩千億的洗錢交易發生,破壞了金融的穩定性,我國也出臺了反洗錢相關的法律和監管政策,因此每個銀行都有責任和義務去監管銀行內發生的每筆交易,找出洗錢行為,上報央行統一處理。
偶數科技反洗錢解決方案底層是數據源,包括交易流水,客戶信息,洗錢模式樣本,訓練模型等。中間兩層是OushuDB和LittleBoy人工智能平臺,以及分布式存儲組件。上層經過數據清洗,數據轉換和交叉驗證,得到有意義的洗錢相關的數據。偶數科技通過AI建模,提供了多個可行的模型方案,減少推送的可疑案件量和人工排查工作量可達上百倍。
可行模型方案
- 現有方法:查全率100%,查準率約1%;
- 偶數模型A:查全率100%,查準率51.43%;
- 偶數模型B:查全率86.11%,查準率92.08%。
在Oushu Lava AI Cloud上承載著OushuDB數倉,以及LittleBoy人工智能平臺,既可以在公有云上管理整個集群,也可以部署在用戶自己的私有云中。反洗錢解決方案從數據、建模、發布到接入銀行的系統,整個流程聽起來很復雜,但其實它很簡單,甚至不需要學習專業的AI知識。例如,在LittleBoy的AI工作室里,有很多現成的組件,用戶只需通過最短半個小時的培訓,了解配置節點的方法,就能通過拖拽操作將組件連接成不同的工作流,甚至是構建復雜應用。
五步訓練分類模型
除此之外,偶數科技找到了更為簡便的方法,增加了另一種建模方式,通過五步的引導式界面,不需要多少AI知識就可以將AI模型搭建起來。
- 頭一步:訓練數據,把所有集群、數據庫、數據表中的數據通過樹形結構展現;
- 第二步:選取特征及標簽,網絡會自動識別哪些Feature更加有用,因此不需要做太多的特征工程;
- 第三步:評估模型;
- 第四步:配置算法,系統默認使用AutoML自動調整算法, 它會自動的去探索所需要的神經網絡的網絡結構,而且也會自動地去匹配一套超參組合,因此也無需配置,如果你是AI工程師,也可以自己填寫參數;
- 第五步:點擊啟動,開始訓練,訓練過程中可以實時監控模型收斂狀態。
模型訓練完成后,只需點擊發布,模型的發布以及服務都將在系統中自動完成。
此外,偶數科技還提供通用的REST API調用工具,用戶只要把這個接口集成到自己的應用中,就能馬上獲得AI能力,非常適合那些已有的不能在短期內更新的系統,通過調用API,這些系統將馬上變成人工智能系統。
掃描下方二維碼查看詳細課程
以上內容是51CTO記者根據WOT2018全球人工智能技術峰會的《AI平臺和工具》分論壇演講內容整理,更多關于WOT的內容請關注請關注51cto.com。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】














































