精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

還在為AI數據發愁?張文濤和鄂維南院士團隊推出Data-centric AI系統

人工智能 新聞
張文濤和鄂維南院士團隊提出了以數據為中心的 AI 系統 DataFlow。

1. 基本介紹

近年來,大模型發展主要由大型科技公司主導,其領先的核心在于規模龐大且高質量的數據資源。然而,這些公司通常并不公開其原始數據及數據處理工具,使得學術界在大模型訓練數據的構建與優化方面難以追趕,受制甚深。

盡管近年來開源了大量數據集,學術界在大模型數據準備方面仍面臨諸多挑戰。目前,大模型訓練數據的清洗與構建仍主要依賴各個研究團隊 “閉門造車”,缺乏系統化、高效的工具支持。現有的數據處理工具如 Hadoop 和 Spark 等,支持的操作算子大多偏向傳統方法,尚未有效集成基于最新大語言模型(LLMs)的智能算子,對于構建先進大模型的訓練數據支持有限。 

為此,張文濤和鄂維南院士團隊提出了以數據為中心的 AI 系統 DataFlow。它系統實現了 100 余個基于規則、本地大模型或大模型 API 的數據治理算子(Operators),并在此基礎上構建 8 條預設數據處理流水線(Pipeline),包括:大規模嘈雜數據(如 PDF 文檔、純文本、低質量問答數據、爬蟲數據等)的清洗、擴增與評估;帶有思維鏈的強推理數據合成;RAG 數據提取與合成等等主流數據治理需求。該系統可供用戶靈活組織現有算子,開發新算子,修改現有流水線,組裝定制化流水線,以滿足多樣的數據治理任務。

圖片

目前 DataFlow 全面支持文本模態的數據治理,可供大語言模型(LLM)的預訓練(Pre-training)、有監督微調(Supervised Finetuning)、強化學習微調(Reinforcement Finetuning )使用。經過治理的數據可以有效提升大語言模型在通用領域的推理能力和檢索能力,與醫療、金融、法律等特定領域的性能。此外,多模態版本的 DataFlow 正在如火如荼開發中,會在不久的將來與大家見面。

  • 官方文檔:https://opendcai.github.io/DataFlow-Doc
  • Github 官方倉庫:https://github.com/OpenDCAI/DataFlow

2.設計理念

圖片

DataFlow 框架的數據處理邏輯主要分為算子層 (operator) 和流水線層 (pipeline)。其次,DataFlow 通過數據管理類(storage)實現讀寫管理,大模型后端類(LLMServing)支持算子調用大模型,進而實現對數據的復雜過濾、擴增和評分。此外,我們還設計了 Agent for DataFlow 模塊。使用大模型 Agent 實現多種智能數據治理功能:(1) 根據用戶描述自動編排算子構成新 Pipeline (2) 根據用戶描述自動編寫新算子 (3) Agent 自動解決數據分析任務。

2.1 框架設計

  • 數據管理:DataFlow 現階段主要支持大模型文本數據處理,為提高易用性,DataFlow 內核使用 pandas 的 DataFrame 數據表作為載體實現讀寫數據。
  • 大模型后端:目前 DataFlow 支持兩種后端,包括:

    (1)使用 vLLM 或 SGLang 作為本地推理后端,在本地 GPU 部署大模型作為推理服務。支持算子決策。

    (2)使用 request 方式向大模型服務商的 API(如 ChatGPT,Deepseek)發起請求,并支持多進程并發請求。

2.2 功能設計

  • DataFlow 算子是基本數據處理單元,通常基于規則、深度學習模型或大語言模型(LLM)實現處理邏輯。
  • DataFlow Pipeline 是對多個 DataFlow 算子的有序編排,旨在完成一個完整的數據處理任務。DataFlow 目前提供了 8 條完整流水線以供參考,用戶可以自定義修改。
  • DataFlow Agent 是一個基于多智能體協同的自動化任務處理系統,覆蓋 “任務拆解 → 工具注冊 → 調度執行 → 結果驗證 → 報告生成” 完整流程,致力于復雜任務的智能化管理與執行。

2.3 DataFlow 具體示例:

  • 評估算子示例:我們主要通過 “通用評估算子” 和 “專有評估算子” 進行評估。以通用算子為例,主要包含文本結構、多樣性和復雜性、安全性、流暢性和可理解性、教育價值、內容準確性和有效性等維度。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/f50mqhmb/

  • 數據處理流水線示例:我們提供多條推薦使用的數據處理流水線,數據處理及評估結果如下。

  (1)通用文本數據處理流水線

圖片

主要由去重、改寫和過濾算子等組建,能夠實現刪除冗余字符、提取有效信息的處理效果。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/textpipeline/

如下圖實驗結果顯示,清洗后的數據在多個評估維度都有提升。

圖片

(2)強推理數據合成流水線

圖片

主要包括以下三方面算子,能夠支持數據合成及多維度數據評估。

1. 問題處理:過濾非數學問題、合成新問題、驗證問題正確性、進行難度評分和類別分類。

2. 答案生成與處理:根據問題的標準答案或模型生成的答案進行處理,包括格式過濾、長度過濾和正確性驗證等。

3. 數據去重:對生成的問答數據進行去重,確保數據集的質量。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/reasoningpipeline/

如下圖實驗結果顯示,合成數據在多個評估維度都有提升。

圖片

(3)Text2SQL 數據合成流水線

圖片

主要由以下幾個步驟組成:

1. 數據過濾:篩選無效 SQL 和問題描述不一致的數據;

2. 難度分類:基于 SQL 語法復雜度和執行通過率劃分難度等級;

3. Schema 處理:提取和格式化數據庫 Schema 信息;

4. 知識生成:構建自然語言問題到 SQL 查詢所需的額外知識;

5. 問題優化:標準化問題表述;

6. 提示詞生成:構建用于訓練的高質量問答數據。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/text2sqlpipeline/

如下圖實驗結果顯示,處理后數據在多個評估維度上都有提升。

圖片

(4)Agentic RAG 數據處理流程

圖片

主要由以下算子構成:

1. 片段遴選:選取過濾有意義文本;

2. 構造問答對:基于現有片段中的信息,構建問答對。該問答對需要原文本支持;

3. 問題質量評估:對問答對和原文本的質量進行評估與分類,便于構建 RAG 知識庫;

4. 問題橫向合并:可以合并多個問答對的內容,提高問題復雜性與跨度;

5. 問題縱向合并:將多個問題合并為需要多次檢索的問答對。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/agenticrag_pipeline/

如下圖實驗結果顯示,合成數據訓練模型在多個評估維度都有提升。

圖片

(5)Agent 自動數據處理流程

Agent 主要由以下六個模塊組成,可以添加算子并且編排已有算子,以實現自動的數據處理流水線。

1. Planning Agent:任務分解,定義任務鏈;

2. Task Dispatcher:分配任務;

3. Execution Agent:生成工具,處理任務;

4. Tool Register:注冊工具;

5. Evaluation Agent:調試與驗證;

6. Analysis Agent:總結并生成報告。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/agent/agent_for_data/

效果如下:

3. 使用方式

3.1 基于代碼使用

代碼倉庫

  • 目前 DataFlow 已經部署在 PyPi,可以通過 pip install open-DataFlow 輕松一鍵安裝。
  • DataFlow 借鑒了 PyTorch 的風格的算子組織與調用方式,算子聲明通過__init__函數實現,算子運行通過 run 函數實現。接口簡明清晰,易于上手。

圖片

Github 官方倉庫:https://github.com/OpenDCAI/DataFlow

使用文檔

我們還提供了詳細的教程文檔,也歡迎開源社區提出有趣的見解,一起豐富完善文檔內容,讓 DataFlow 更加新手友好,利于上手。

圖片

官方文檔:https://opendcai.github.io/DataFlow-Doc

3.2 基于前端使用

無代碼拖拽式 Pipeline 搭建:滿足需要針對業務場景個性化定制 / 微調 pipeline 的需求。

圖片

一鍵調用數據準備 Pipeline:提供已跑通的行業 / 特定場景的最佳實踐模版。

圖片

Agent 自動化 Pipeline 設計:通過多輪對話理解并分析客戶需求,給出合理的數據過濾、數據合成、pipeline 調整等建議,確認后可一鍵配置。

圖片

目開源

  • 官方文檔:https://opendcai.github.io/DataFlow-Doc
  • Github 官方倉庫:https://github.com/OpenDCAI/DataFlow
責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-08-27 12:13:05

人工智能MLOps

2022-10-26 08:16:58

jar包依賴關系Maven

2024-03-04 11:19:25

AI人工智能倪光南

2015-12-29 13:53:14

BeeCloud云計算支付

2024-07-09 18:36:12

2018-03-09 06:17:00

WiFi網絡無線

2020-12-16 09:18:38

數據科學數據大數據

2023-10-12 08:59:52

Docker AI生成式 AI

2023-10-12 15:32:36

2025-09-19 09:34:37

2024-07-09 13:52:34

2019-10-09 16:49:57

AI在線教育人工智能

2018-11-11 11:16:38

AI天貓比價

2018-11-12 00:19:32

2023-05-06 09:34:15

MetaAI

2023-06-19 09:01:17

2023-08-02 10:45:43

點贊
收藏

51CTO技術棧公眾號

中文字幕丰满乱子伦无码专区| 国产精品自拍合集| av无码精品一区二区三区宅噜噜| 亚洲欧美综合| 亚洲国产精品高清久久久| 黄色片视频在线播放| 黄网站app在线观看| 国产精品自拍av| 欧美最猛黑人xxxx黑人猛叫黄| 毛片aaaaaa| 极品束缚调教一区二区网站 | 亚洲欧美在线一区| 少妇一级淫免费播放| 2021天堂中文幕一二区在线观| 久久精品亚洲精品国产欧美kt∨ | 日韩av网站在线免费观看| 欧美色手机在线观看| 妞干网视频在线观看| 色的视频在线免费看| 99国产精品久久久久久久久久久| 国产日韩欧美日韩大片| av黄色在线播放| 激情婷婷欧美| 久久久www成人免费精品| 国产精品1000部啪视频| 北条麻妃在线一区二区免费播放| 欧美日韩一区中文字幕| 欧美日韩在线不卡视频| av影院在线免费观看| 中文字幕一区二区三区精华液| 欧美综合视频在线观看| 亚洲成色999久久网站| 播放灌醉水嫩大学生国内精品| 超碰最新在线| 国产精品久久久爽爽爽麻豆色哟哟| 九九九久久久| 日韩中文字幕免费在线观看| 国产在线精品一区在线观看麻豆| 国产精品v片在线观看不卡| 日本黄色片视频| 亚洲午夜精品久久久久久app| 久久精品国亚洲| 一本一本久久a久久| 欧美热在线视频精品999| 日韩成人在线电影网| 日韩综合第一页| 成人直播在线观看| 欧美不卡在线视频| 岛国大片在线免费观看| 日本精品在线观看| 欧美一卡二卡三卡四卡| 日韩a一级欧美一级| 人人精品久久| 欧美高清视频一二三区| 嫩草视频免费在线观看| 国产精品免费精品自在线观看| 欧美妇女性影城| 欧美xxxxxbbbbb| 国产在线一区不卡| 日韩一卡二卡三卡国产欧美| 秋霞午夜鲁丝一区二区| 日本高清精品| 亚洲精品按摩视频| 偷拍女澡堂一区二区三区| 国产日韩视频在线| 深夜福利日韩在线看| 永久免费看片直接| 欧美激情偷拍| 国语自产精品视频在线看一大j8| 日韩欧美三级在线观看| 久久综合亚州| 国产一区二区在线免费视频| 99久久婷婷国产一区二区三区| 国产一区二区三区四区五区美女| 99视频网站| 日韩三级电影网| 国产精品嫩草久久久久| 欧美 国产 精品| 国产精品一区视频| 亚洲综合免费视频| 国产69精品久久99不卡| 久久99国产精品99久久| a视频网址在线观看| 亚洲人成网站影音先锋播放| 欧洲精品一区二区三区久久| 大胆人体一区二区| 欧美日高清视频| 中文字幕视频观看| 欧美人与拘性视交免费看| 久久精品最新地址| 日韩欧美一级视频| 美女视频黄 久久| 99免费在线视频观看| 国产综合视频一区二区三区免费| 中文字幕中文在线不卡住| 国产精品igao激情视频| 成人免费短视频| 91精品欧美久久久久久动漫| 国产三级视频网站| 91精品秘密在线观看| 91大神在线播放精品| 91麻豆一区二区| 91视视频在线观看入口直接观看www | 91免费在线视频观看| 自拍偷拍视频在线| 超碰国产一区| 精品处破学生在线二十三| 毛片aaaaaa| 国产精品人人爽人人做我的可爱| 国产视频观看一区| 国产有码在线| 午夜久久久影院| 色黄视频免费看| 成人在线电影在线观看视频| 久久频这里精品99香蕉| 97人妻人人澡人人爽人人精品| 三级理论午夜在线观看| 亚洲人成人一区二区三区| 国产日韩欧美中文| 麻豆国产在线播放| 偷窥少妇高潮呻吟av久久免费| www.成年人| 九九精品在线| 97国产在线视频| 成人av一区二区三区在线观看| 日本一区二区三区dvd视频在线| 丝袜人妻一区二区三区| 国产 日韩 欧美| 丝袜美腿亚洲一区二区| 999视频在线| 91年精品国产| 免费高清在线观看免费| 欧美成人午夜77777| 欧美精品www在线观看| 国产成人精品免费看视频| 国产精品女主播av| 天天干天天操天天玩| av影片在线一区| 国产极品jizzhd欧美| 日本大臀精品| 欧美性xxxx极品高清hd直播 | av综合网站| 欧美大片免费观看| www.久久久久久久久久| 一区二区三区四区国产精品| 在线视频观看一区二区| 99久久婷婷| 91麻豆国产精品| 国产写真视频在线观看| 欧美一区二区视频在线观看2020| 亚洲一级生活片| 国产乱国产乱300精品| 欧美性受黑人性爽| 日韩中文字幕一区二区高清99| 九九热这里只有精品6| 性欧美8khd高清极品| 亚洲一级片在线观看| 大尺度做爰床戏呻吟舒畅| 亚洲日本久久| 久久久综合香蕉尹人综合网| 成人av三级| 最新国产成人av网站网址麻豆| 91九色蝌蚪91por成人| 一区二区不卡在线视频 午夜欧美不卡在| 婷婷激情综合五月天| 亚洲一级淫片| 好吊色欧美一区二区三区| 性欧美freesex顶级少妇| 亚洲欧美三级在线| 怡春院在线视频| 亚洲欧美日韩一区二区 | 久久影视电视剧免费网站清宫辞电视 | 国产成人综合精品| 91在线导航| 日韩欧美视频一区| 国产三级av片| 中文字幕欧美日韩一区| 中文字幕第三区| 日韩一级精品| 亚洲一区不卡在线| 91麻豆精品国产91久久久久推荐资源| 91精品国产免费久久久久久| 国产高清一区在线观看| 91精品国产入口| 成人免费区一区二区三区| 国产精品女同一区二区三区| 国产高潮视频在线观看| 美国三级日本三级久久99 | 天天色天天综合| 成人av网站在线| 色综合天天色综合| 亚洲小说欧美另类婷婷| 欧美午夜欧美| 无人区乱码一区二区三区| 日本欧美中文字幕| 性欧美1819sex性高清大胸| 亚洲欧美精品中文字幕在线| 国产成年妇视频| 欧美综合久久久| 69精品久久久| 国产精品麻豆网站| 熟女人妻在线视频| 国产精品一区二区无线| 国产av人人夜夜澡人人爽| 亚洲天堂久久| 国产日韩视频在线播放| 国产99久久| 国产日韩一区二区| 国产麻豆精品| 国产精品久久久av| 中文字幕二区三区| 91精品国产自产在线丝袜啪| 97国产精品视频人人做人人爱| 三区四区电影在线观看| 精品一区二区亚洲| 亚洲精品911| 欧美一区二区三区在线看| 亚洲欧美另类在线视频| 亚洲丰满少妇videoshd| 亚洲国产精品免费在线观看| 国产精品色在线| 国产肥白大熟妇bbbb视频| 成人黄色av网站在线| 天堂av8在线| 毛片av一区二区| 熟女人妇 成熟妇女系列视频| 99精品热6080yy久久| 久久久久久久香蕉| 在线成人直播| 中文字幕久久综合| 日韩欧美自拍| 亚洲精品一区二区毛豆| 欧美久久精品一级c片| 欧美在线一二三区| 中日韩免视频上线全都免费| 久久精品中文字幕一区二区三区 | 国产精品xxxav免费视频| 亚洲国产成人久久综合一区| 欧美日韩一区二区视频在线观看| av日韩一区| 成人国产精品一区| 亚洲一区导航| 亚洲自拍偷拍第一页| av在线国产精品| 91情侣偷在线精品国产| 国产精选久久| 国产精品12| 另类春色校园亚洲| 久久亚裔精品欧美| 天堂综合网久久| 欧美精品一区二区三区久久| 亚洲丝袜啪啪| 亚洲成人第一| 国产精品麻豆久久| 毛片在线视频观看| 激情欧美丁香| 国产日韩一区二区在线| 日韩成人伦理电影在线观看| 亚洲欧美日本一区二区三区| 黄页视频在线91| 精产国品一区二区三区| 成人免费视频视频| 特级西西人体wwwww| 日本一区二区三区四区| www.av免费| 午夜精品视频一区| 中文字幕手机在线视频| 欧美日韩精品福利| 亚洲伦理在线观看| 亚洲精选在线观看| 91在线视频| 欧美激情视频网| 厕沟全景美女厕沟精品| 91精品国产综合久久男男| 综合激情五月婷婷| 女同一区二区| 91精品国产成人观看| 男女视频网站在线观看| 丝袜a∨在线一区二区三区不卡| 亚洲精品久久久久久宅男| 国产91丝袜在线播放九色| 国产精品九九九九九| 亚洲欧美自拍偷拍色图| www.日本精品| 欧美日本乱大交xxxxx| 老司机午夜福利视频| 亚洲性线免费观看视频成熟| av免费在线网站| 热草久综合在线| 狂野欧美xxxx韩国少妇| 美脚丝袜一区二区三区在线观看| 欧美电影三区| 黄色一级片播放| 精久久久久久久久久久| 奇米四色中文综合久久| 免费视频网站在线观看入口| 欧美日韩亚州综合| 亚洲欧美日韩动漫| 欧美超级免费视 在线| 偷拍精品精品一区二区三区| 亚洲影院污污.| 欧美亚洲国产激情| 精品这里只有精品| 国产精品综合一区二区| 日本一卡二卡在线播放| 精品动漫一区二区| 99久久精品国产成人一区二区| 亚洲人成77777在线观看网| 欧美性猛片xxxxx免费中国| 国产精品久久久久久久7电影| 成人中文字幕视频| 中文字幕第50页| 免费不卡在线观看| www.自拍偷拍| 五月开心婷婷久久| 精品人妻一区二区三区蜜桃| 深夜福利国产精品| 天然素人一区二区视频| 久久久久久久有限公司| 韩日精品在线| 久久亚洲成人精品| av一区二区三| 日韩中文字幕免费看| 免费成人美女女| 青青草原成人| 老司机一区二区三区| 朝桐光av一区二区三区| 亚洲第一av色| 日本加勒比一区| 欧美国产日韩在线| 日韩欧美久久| 国产欧美123| 国产精品一区二区三区99| 91传媒免费观看| 91精品欧美综合在线观看最新| 日本激情在线观看| 国产原创欧美精品| 99久久精品费精品国产| 中文字幕22页| 亚洲三级理论片| 国产高清在线免费| 久久99精品视频一区97| 中文字幕视频精品一区二区三区| 日本一二三区视频在线| 国产一区二区精品久久91| 东方av正在进入| 欧美一区二区三区男人的天堂| 国产在线更新| 91国产在线播放| 激情久久婷婷| 人妻丰满熟妇av无码久久洗澡| 福利一区福利二区微拍刺激| 西西人体44www大胆无码| 国产91精品在线播放| 国产在视频线精品视频www666| 日本www.色| 中文字幕在线观看不卡| 国产黄色小视频在线观看| 欧美精品九九久久| 日韩精选在线| 日本888xxxx| 亚洲欧美日韩一区二区| 日韩永久免费视频| 国产不卡一区二区在线播放| 激情婷婷综合| 欧美又黄又嫩大片a级| 一区二区三区免费| 日韩精品视频无播放器在线看 | 中文字幕av免费专区久久| 夜夜嗨av禁果av粉嫩avhd| 超碰精品一区二区三区乱码| 99久久香蕉| 国产v亚洲v天堂无码久久久| 婷婷激情久久| 欧亚精品中文字幕| 伊人成综合网yiren22| 日韩av一卡二卡三卡| 亚洲一区二区三区在线| 黄色片在线免费观看| 91久久精品国产91久久| 一本一本久久| 五月婷婷六月香| 亚洲国产日韩欧美在线99| 粉嫩av一区二区三区四区五区 | 九九九在线视频| 亚洲摸下面视频| 日本久久伊人| 色一情一乱一伦一区二区三区日本| 最新成人av在线| 青青青草原在线| 亚洲精品免费网站| 老妇喷水一区二区三区| 青娱乐国产精品| 亚洲美女黄色片| 视频精品一区二区三区| 黄色国产精品视频| 亚洲美女精品一区| 91在线网址| 久久久福利视频| 粉嫩高潮美女一区二区三区|