2023開放原子開發者大會:螞蟻AI開源引關注,5大開源項目獲認可
12月16日,在開放原子開源基金會主辦的“2023開放原子開發者大會”上,螞蟻集團主導開源的圖數據庫TuGraph、時序數據庫CeresDB、隱私計算框架隱語SecretFlow、前端框架OpenSumi、數據域大模型開源框架DB-GPT入選“2023快速成長開源項目”。

(圖:TuGraph、CeresDB、隱語SecretFlow、OpenSumi、DB-GPT入選“2023快速成長開源項目”)
據了解,螞蟻以開源關鍵基礎軟件為核心戰略。本次入選的五個項目,表明了螞蟻在關鍵基礎軟件領域開源的投入獲認可,大模型跨界開源項目被關注,也為行業探索大模型應用帶來了啟發。
以CeresDB為例,這是一種存儲和管理時間序列數據的分布式數據庫,為時間序列數據提供高性能讀寫、高壓縮比低成本存儲、可視化查詢等功能,適用于物聯網 IoT、運維監控、金融分析等場景。CeresDB開源項目負責人任春韶表示,“希望通過開源幫助開發者解決時間序列數據存儲的水平擴展與高可用的痛點,助力海量數據場景的開發效率。”目前該項目內核HoraeDB已捐獻到 Apache開源基金會。
AI及大模型浪潮,為科技創新帶來了機遇與挑戰。對于開源來說,也蘊藏了新的生機。比如在基礎軟件開發領域,大模型與數據庫的結合產生了新的火花。
今年6月,螞蟻集團發起了數據庫領域大模型框架DB-GPT。結合大模型與數據庫,DB-GPT可以系統構建企業知識庫、生成式報表分析系統(GBI)、日常數據處理與報表等多種應用。DB-GPT開源項目負責人陳發強表示,“基于大模型和數據庫,企業及開發者可以用更少的代碼搭建自己的專屬應用。我們希望DB-GPT構建大模型領域的基礎設施,讓圍繞數據庫構建大模型應用更簡單、更方便”。據了解,DB-GPT從個人項目出發, 半年時間成長為近萬星的開源社區,受到了行業和開發者認可。
本次大會還探討了一些硬核技術痛點難點。AI和大模型的爆發帶來了算力焦慮,對系統的效率提出了更苛刻的要求。圍繞大模型的應用開發,螞蟻集團AI 基礎設施負責人張科分享了螞蟻的AI工程實踐。他表示,螞蟻通過系統的智能化,解決了系統的效率優化問題,全面覆蓋了訓練推理引擎框架,在線服務,GPU集群調度與虛擬化,工程智能等多個領域的效率提升。目前這套體系中的分布式訓練系統服務 DLRover、顯存和傳輸優化庫 GLake已開源。
張科還介紹,螞蟻建設了萬卡以上異構集群,千卡以上訓練算力效率(HFU)超過60%,有效訓練時長占比95%以上,RLHF訓練在同等模型效果下訓練吞吐性能相較于業界方案提升3.59倍,推理性能相較于業界方案提升約2倍,處于業界先進水平。“目前這套技術能力已經應用于螞蟻百靈大模型,將帶來更加綠色高效的算力”,張科強調。

(圖:螞蟻集團張科分享AI工程化實踐)
本次會上,螞蟻集團還主辦了“信息和數據安全前沿論道”分論壇,國內外專家圍繞大模型隱私保護、數據安全、量子密碼等展開了討論。由螞蟻集團主導開源的“銅鎖”項目,成立了項目管理委員會,將致力于密碼學研究,以及商業密碼的行業應用推廣及生態共建。





















