精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節Seed首次開源代碼模型,拿下同規模多個SOTA,提出用小模型管理數據范式

人工智能 新聞
ModelScope團隊提出可同時完成圖像理解、生成和編輯的統一模型Nexus-Gen,在圖像質量和編輯能力上達GPT-4o同等水平,并將成果全方位開源,望引發開發者討論,促進All-to-All模型領域發展。

字節Seed首次開源代碼模型!

Seed-Coder,8B規模,超越Qwen3,拿下多個SOTA。

它證明“只需極少人工參與,LLM就能自行管理代碼訓練數據”

通過自身生成和篩選高質量訓練數據,可大幅提升模型代碼生成能力。

這可以被視為對DeepSeek-R1模型自我生成和篩選訓練數據策略的擴展。

一共包含三個版本:

  • Base
  • Instruct
  • Reasoning

其中,Instruct在編程方面表現出色,拿下兩個測試基準SOTA。

推理版本,在IOI 2024上超越了QwQ-32B和DeepSeek-R1。

模型上下文長度32K,使用6T tokens訓練,并采用寬松的MIT開源協議,完整代碼已發布在Hugging Face。

用模型管理訓練數據

Seed-Coder的前身是doubao-coder,采用Llama 3結構,參數量為8.2B,6層,隱藏層大小為4096,采用分組查詢注意力(GQA)機制。

最關鍵的工作是數據的處理,Seed團隊提出了一種“模型中心”的數據處理方式,使用模型來策劃數據。

具體來說,模型會從GitHub和網絡檔案爬取原始代碼數據,經過幾個處理步驟后輸出最終的預訓練數據。

Seed-Coder的過濾數據分為四個類別:

  • 文件級代碼:來自GitHub的單個代碼文件,經過處理后保留了高質量的代碼內容。
  • 倉庫級代碼:基于倉庫結構的代碼文件,保留了項目結構信息,使模型能學習到代碼間的關系。
  • Commit數據:GitHub提交的快照,包括提交信息、倉庫元數據、相關文件和代碼補丁,包括來自14萬個高質量倉庫的7400萬次提交;
  • 代碼相關網絡數據:從網絡存檔中提取的包含代碼塊或高度代碼相關的文檔。

先看看代碼的處理,在預處理階段,系統在倉庫和文件兩個層級實施去重,SHA256哈希進行精確去重,并通過MinHash算法進行近似去重。

這種雙層策略產生了兩種變體的代碼語料庫——文件級變體用于短上下文窗口訓練,倉庫級變體保留了項目結構以支持更連貫的長上下文學習。

隨后,系統使用Tree-sitter等語法解析器檢查剩余文件,丟棄那些包含語法錯誤的文件。這個預處理階段總共減少了大約98%的原始數據量。

在質量過濾階段,Seed-Coder使用一個經過22萬+份代碼文檔特殊訓練的評分模型來過濾低質量代碼文件。

評分模型以DeepSeek-V2-Chat為基礎,評價指標包含四個關鍵方面:

  • 可讀性:包含合理數量的注釋,遵循一致的命名規范,并遵循通用的格式和結構規范;
  • 模塊性:結構合理,避免功能過于復雜或冗長,通過模塊化實現邏輯功能清晰分離;
  • 清晰度:減少冗余,(如過多的函數調用、大段注釋代碼或調試打印語句),每個代碼塊的意圖表達清晰;
  • 可重用性:沒有語法和邏輯錯誤、避免過多硬編碼數據、設計便于與其他項目集成、功能完整且有意義。

評分模型被要求給出一個從0到10的總體評分,并提供詳細解釋,之后將分數重新縮放到[0,1]范圍,并使用1.3B參數的預訓練Llama 2模型,通過回歸頭進行一個epoch的微調作為質量評分器。

最終基于這種評分方法,Seed團隊過濾掉了得分最低的約10%文件,得到了支持89種編程語言、包含約1萬億個獨特token的語料庫。

再來是Commit的部分,Seed-Coder從14萬個高質量GitHub倉庫中收集了7400萬個提交記錄。這些倉庫的篩選標準包括:至少100顆星、10個fork、100次提交和100天的維護活動。

每個提交記錄都包含豐富的元數據,如提交消息、代碼補丁、合并狀態以及提交前的代碼快照。

為了在預訓練中有效利用這些數據,Seed-Coder將每個提交樣本格式化為一個代碼變更預測任務。給定一個提交消息及其相關上下文,模型需要預測被修改的文件路徑以及相應的代碼變更。

在進行去重和預處理后,Seed-Coder獲得了約1000億token的提交數據語料庫用于預訓練。

對于從網絡獲取的數據,Seed-Coder也提出了一個專門的提取框架。

在預處理階段,框架對大規模網絡檔案進行高效預處理,并識別出兩類原始數據:

  • 第一類是HTML中帶有明確代碼標簽(如)的網頁,這些可以通過標準規則直接提取;
  • 第二類是沒有明確代碼標簽但可能包含代碼或相關知識的數據,這類數據由于其體量和復雜性帶來了提取挑戰。

與GitHub數據處理類似,研究團隊實施了精確和近似去重技術,并開發了啟發式規則來在預處理階段剔除明顯的低質量文檔(例如少于10個詞的文檔)。

在質量過濾階段,框架采用兩個互補策略來確保數據質量:首先是識別代碼相關性,然后評估已識別內容的內在質量。

在代碼相關性識別步驟中,研究團隊首先從Common Crawl數據中抽取了1000萬個網頁樣本,將具有代碼特征的頁面標記出來,建立評估數據集。

這個數據集中70%用作訓練集,用于訓練fastText模型來自動識別代碼相關內容,剩余30%作為驗證集來評估模型效果。

在質量評估步驟中,系統使用LLM對已識別的代碼相關內容進行評分,評分標準采用0-10分制,評估內容的規范性、完整性和價值。

但在實際評估過程中,研究者發現不同類型網站的得分出現了系統性偏差:

文檔網站、技術博客等由于格式規范、結構清晰,普遍獲得較高分數;而技術論壇、問答平臺等網站,雖然往往包含有價值的技術討論和解決方案,但因其非正式的格式而得分較低。

為了解決這種評分偏差,研究團隊對評分系統進行了優化——首先將網站按其內容形式和功能進行分類,然后為每類網站制定專門的評分標準和篩選閾值。

通過這套經過優化的雙重過濾機制,系統最終構建了一個約1.2萬億tokens的網絡數據語料庫。

基于前面的四個數據類別,Seed-Coder的預訓練分為了兩個階段。

其中,第一個階段為常規預訓練,使用的是文件級代碼和代碼相關網絡數據,目的是構建模型的基礎能力。

第二個階段是持續預訓練,使用所有四個類別的數據,并額外引入了高質量數據集和長上下文數據集,以增強性能并進行對齊,同時刺激模型理解長上下文數據的能力。

除了常規的next-token預測目標外,Seed-Coder還采用了Fill-in-the-Middle(FIM)和Suffix-Prefix-Middle(SPM)訓練,分別增強上下文感知完成和中間內容能力。

基于基礎模型,Seed團隊還開發了Seed-Coder的兩個特殊變體——

  • 指令模型(-Instruct):目的是增強模型的指令遵循能力,其訓練分為監督微調(SFT)第二階段和直接偏好優化(DPO)兩個階段;
  • 推理模型(-Reasoning):目的是提升模型在復雜編程任務中的多步推理能力,采用長鏈條思維(LongCoT)強化學習訓練。首先使用從編程競賽問題和高質量模型生成的解決方案進行預熱訓練,然后通過GRPO框架實施強化學習訓練。

這兩個變體的設立,進一步擴展了Seed-Coder的實用性。

字節Seed最近更開放了

除了開源Seed-Coder外,字節Seed近期多個動作也都聚焦在了降門檻、開源開放方面。

比如在基礎模型方面,發布了視頻生成和推理模型。

視頻生成模型Seaweed,70億參數原生支持1280x720分辨率、任意寬高比和時長視頻生成,效果超越140億參數模型。

它強調了成本方面的優勢,使用665000 H100 GPU小時完成訓練,中小團隊可部署,僅需40GB顯存單GPU就可生成分辨率達1280x720的視頻。

深度思考模型Seed-Thinking-v1.5,更輕量級、更少激活參數,在數學、代碼等推理任務重超越DeepSeek-R1。

同時團隊公開技術報告,介紹其中秘訣,通過數據、RL算法和RL基礎設施三方面提升推理表現。

在智能體方面,與清華聯手推出了電腦操作智能體UI-TARS,超越GPT-4o等,且免費商用

它在Qwen-VL基礎上而來,能一步步自動完成跨任務的復雜操作,并兼容各種系統。目前GitHub上星標已超過5.8k。

此外還推出了Multi-SWE-bench:用于問題解決的多語言基準。它跨越7種編程語言,包含1632個高質量實例。

……

與此同時,字節Seed內部也在不斷調整。消息稱,LLM 之下的3個團隊,Pre-train(預訓練)、Post-train(后訓練) 和Horizon如今轉為直接向Seed負責人吳永輝匯報。字節AI Lab中探索機器人&具身智能、AI for Science和AI安全可解釋性的三個方向,也已并入Seed。

今年年初,字節正式設立代號為“Seed Edge”的研究項目,核心目標是做比預訓練和大模型迭代更長期、更基礎的AGI前沿研究,項目成員擁有寬松的研究環境、獨立計算資源,并實行更長期的考核方式。擬定五大研究方向也完全面向下一代AI研究、原始性創新,或者是范式上的更迭。

而透過字節的動向,如今AI圈子的新風向也更明朗了。

開源、開放、原始性創新、AI普惠……

言而總之,還得是感謝DeepSeek了?(doge)

項目地址:
https://bytedance-seed-coder.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-05 09:02:00

2025-01-03 15:39:02

2025-06-17 09:07:24

2025-08-25 08:45:00

模型代碼開源

2025-04-27 08:30:00

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-07-29 09:03:00

2025-07-02 14:39:29

開源模型AI

2023-07-17 11:02:36

模型開源

2023-01-03 16:54:27

字節跳動深度學習

2025-02-18 09:27:20

2024-01-16 17:17:30

模型訓練

2022-11-22 10:07:32

研究模型

2025-08-21 10:14:18

2023-04-28 15:53:55

框架模型

2025-10-31 08:50:00

AI模型開源

2025-04-21 08:20:00

視覺模型訓練

2024-01-19 12:51:00

AI數據
點贊
收藏

51CTO技術棧公眾號

欧美成人精品激情在线视频| 日本高清免费在线视频| 久蕉在线视频| 久久精品国产网站| 久久久久久久久爱| 中字幕一区二区三区乱码| 男人亚洲天堂| 午夜精品一区二区三区电影天堂| 日韩欧美精品一区二区| 国产成人精品白浆久久69| 国产精品一页| 欧美精品免费看| 男人天堂av电影| 亚洲精品观看| 欧美亚洲禁片免费| 成年人午夜视频在线观看| gogogo高清在线观看免费完整版| 国产成a人亚洲| 国产盗摄xxxx视频xxx69| 欧美成欧美va| 欧美电影《轻佻寡妇》| 日韩av在线精品| 成人免费黄色av| 一区二区视频免费完整版观看| 一卡二卡三卡日韩欧美| 亚洲欧美日韩另类精品一区二区三区 | 88在线观看91蜜桃国自产| 国模吧无码一区二区三区| 成人影院在线看| 国产精品无遮挡| 欧美精品123| 欧洲精品久久一区二区| 国产米奇在线777精品观看| 国产z一区二区三区| 日韩av一区二区在线播放| 中文字幕午夜精品一区二区三区| 在线精品国产成人综合| 久久久久久久久久久久| 爽爽窝窝午夜精品一区二区| 精品女同一区二区| 国产伦精品一区二区三区妓女下载| 国产成人77亚洲精品www| 一本色道久久综合亚洲精品按摩| 久久视频这里有精品| 女囚岛在线观看| 亚洲一区二区四区蜜桃| 国产成人三级视频| 岛国成人毛片| 亚洲欧美另类久久久精品2019| 在线成人av电影| 日本中文字幕视频在线| 中文字幕日韩av资源站| 黄瓜视频免费观看在线观看www| 成人免费高清在线播放| 欧美高清在线一区二区| 亚洲一区高清| 18+视频在线观看| 夜夜爽夜夜爽精品视频| 成年人网站国产| 国产夫妻在线播放| 欧美视频一区二区三区…| 国产免费成人在线| 3d性欧美动漫精品xxxx软件| 在线免费精品视频| wwwwwxxxx日本| gogo大尺度成人免费视频| 日韩一区二区精品| 国产一线在线观看| 亚洲精品一级二级三级| 亚洲色图50p| 三级黄色录像视频| 国内一区二区三区| 日本在线观看天堂男亚洲| 国产91精品看黄网站在线观看| 日韩极品在线观看| 国产精品啪视频| 精品国产va久久久久久久| 国产.欧美.日韩| 美媛馆国产精品一区二区| av在线电影免费观看| 亚洲日本护士毛茸茸| 给我免费播放片在线观看| 人人鲁人人莫人人爱精品| 欧美日韩在线直播| 男男受被啪到高潮自述| 日韩激情毛片| 日韩在线一区二区三区免费视频| 麻豆视频在线免费看| 亚洲福利精品| 国产精品日韩在线| 国产成人麻豆精品午夜在线| 91尤物视频在线观看| 日韩精品大片| 欧洲中文在线| 欧美亚洲国产一区二区三区va | 国产在线不卡一区二区三区| 亚洲国产精品专区久久| 国产第一页精品| 在线观看日韩av电影| 国产精品青草久久久久福利99| 超碰人人人人人人| 久久久久国产精品免费免费搜索| 日本成人性视频| 六月婷婷综合| 欧美成人乱码一区二区三区| 91麻豆精品国产91久久综合| 国内自拍一区| 91精品在线播放| 精品美女视频在线观看免费软件 | 久久久免费高清电视剧观看| 亚洲 欧美 成人| 精品午夜一区二区三区在线观看 | 国产伦理在线观看| 精品理论电影| 8x拔播拔播x8国产精品| 99产精品成人啪免费网站| 久久久久久夜精品精品免费| 成人免费a级片| 99综合久久| 最近2019中文字幕mv免费看 | 蜜桃网站成人| 欧美大胆的人体xxxx| 欧美日本在线播放| 久久亚洲无码视频| 国产毛片一区| 国产一区二区三区色淫影院| a免费在线观看| 欧美精品电影在线播放| 扒开jk护士狂揉免费| 在线免费高清一区二区三区| 999国内精品视频在线| 日本电影全部在线观看网站视频 | 男女男精品视频站| 亚洲伊人春色| 欧美孕妇毛茸茸xxxx| 人人妻人人澡人人爽精品日本 | 色婷婷综合久久久久中文字幕1| 二区视频在线观看| 成人福利视频在线| 国产成a人亚洲精v品在线观看| 精品一区二区三区视频在线播放 | 欧美精品一区男女天堂| 久草资源在线视频| 国产69精品一区二区亚洲孕妇| 亚洲av首页在线| 试看120秒一区二区三区| 久久国产精品久久久| 99热这里只有精| 亚洲免费观看高清完整版在线| 成人黄色一级大片| 91精品国产91久久综合| 亚洲一区二区三区视频播放| av中文字幕在线播放| 欧美一级xxx| 国产一级生活片| 成+人+亚洲+综合天堂| 欧日韩免费视频| 色爱av综合网| 国产成人精品一区二区| 1pondo在线播放免费| 欧美日韩久久久| 一区二区国产精品精华液| 韩国一区二区视频| 国产精品久久久久7777| 欧美一区 二区| 国产极品精品在线观看| 一本一道波多野毛片中文在线 | 亚洲国产综合av| 狠狠色综合网| 欧美极品日韩| 欧美成人毛片| 欧美片一区二区三区| 天堂av手机版| 欧美性欧美巨大黑白大战| 亚洲欧美另类日本| 国产91综合网| 无码人妻丰满熟妇区五十路百度| 色综合咪咪久久网| aaa级精品久久久国产片| 精品众筹模特私拍视频| 日韩国产在线看| 亚洲天堂手机版| 亚洲五月六月丁香激情| 手机免费看av| 国产一区二区成人久久免费影院 | 69av视频在线| 久久久www成人免费毛片麻豆 | 日韩黄色片视频| 日本欧美国产| 狠狠久久综合婷婷不卡| 欧美亚洲人成在线| 性色av一区二区三区免费| 1769在线观看| 亚洲精品www久久久久久广东| 免费精品一区二区| 亚洲一级二级三级在线免费观看| 久久精品视频18| 国产91对白在线观看九色| 国产福利一区视频| 国产综合网站| 亚洲一区二区精品在线| 久久精品66| 91亚洲精品一区| 欧美最新精品| 性欧美长视频免费观看不卡| 国产视频中文字幕在线观看| 亚洲人成网站免费播放| 亚洲第一成年人网站| 欧美三级中文字| aaa人片在线| 一个色综合网站| www.97视频| 国产日韩欧美综合在线| a级片在线观看视频| 久久99国产精品久久99| 亚洲性生活网站| 免费亚洲一区| 丁香花在线影院观看在线播放| 久久精品亚洲人成影院 | 亚洲色图欧美另类| 精品无人区卡一卡二卡三乱码免费卡| 尤物av无码色av无码| 欧美日本在线| 黄色一级视频播放| 97精品97| 亚洲区一区二区三区| 自拍视频一区| 蜜桃在线一区二区三区精品| 欧美激情极品| 国产伦一区二区三区色一情 | 欧美精品一区二区三区在线四季| 97久久综合精品久久久综合| 亚洲伊人成综合成人网| 天堂久久一区| 国产中文字幕亚洲| 日韩三区四区| 国产在线视频欧美| 人人玩人人添人人澡欧美| 国产精品一区二区三区在线播放 | 国产不卡在线观看视频| 久久亚洲捆绑美女| 无码人妻精品一区二区三应用大全| www.日韩在线| 一本加勒比波多野结衣| 成人黄色av电影| 好男人香蕉影院| eeuss鲁片一区二区三区在线观看| jjzz黄色片| 成人av午夜电影| 女同性恋一区二区三区| 99国产精品久久久久久久久久久| 在线观看国产免费视频| 26uuu精品一区二区| 欧美做受xxxxxⅹ性视频| 国产亚洲欧美色| 国产一级淫片久久久片a级| 1区2区3区国产精品| 国产极品国产极品| 亚洲高清不卡在线| 丰满人妻老熟妇伦人精品| 91国偷自产一区二区三区成为亚洲经典| 一级片在线观看免费| 欧美亚洲国产怡红院影院| 国产精品国产av| 精品免费国产二区三区| 天堂中文在线视频| 亚洲图片欧美午夜| 欧美a在线看| 久久久久久成人精品| 亚洲天堂电影| 国产精品偷伦视频免费观看国产| 精品国产伦一区二区三区观看说明 | 色阁综合伊人av| 四虎影视成人| 热草久综合在线| 日本成人一区二区| 国产精品嫩草在线观看| 国产在线日韩精品| 粉嫩av一区二区三区天美传媒 | 91国内精品久久| 国产精品久久久久久久久免费高清 | 国产性猛交╳xxx乱大交| 欧美性一区二区| www.五月激情| 亚洲系列中文字幕| 欧美人与性动交α欧美精品济南到| 97**国产露脸精品国产| 成人国产精选| 国内精品视频在线播放| 成人免费电影网址| 18禁裸男晨勃露j毛免费观看 | 国产精品久久久久久久久影视| 国产精品毛片无码| 久久久神马电影| 欧美91视频| caoporn超碰97| 成人综合婷婷国产精品久久免费| 国产小视频自拍| 亚洲va欧美va天堂v国产综合| 在线免费看av片| 日韩精品免费在线视频| 伊人春色在线观看| 国产成人亚洲综合| 欧美黄色网视频| 欧美一级爱爱视频| 美女一区二区视频| 久久偷拍免费视频| 亚洲乱码精品一二三四区日韩在线| 国产免费av一区| 精品粉嫩超白一线天av| 免费在线视频欧美| 国产成人精品久久| 日韩大片在线免费观看| 免费看黄色a级片| 蜜臀av国产精品久久久久| 青青草成人免费视频| 夜夜亚洲天天久久| 国产精品视频a| 中文字幕亚洲国产| 日韩视频网站在线观看| 精品国产一区二区三区麻豆小说 | 色综合久久久久网| 欧美一级在线免费观看| 欧美精品一区二区免费| 欧美日韩视频免费看| 日韩高清av电影| 免费看黄裸体一级大秀欧美| 喷水视频在线观看| 亚洲不卡在线观看| 国产91绿帽单男绿奴| 欧美肥老妇视频| 欧美高清hd| 国内精品国产三级国产99| 黄色日韩网站视频| 色老板免费视频| 欧美一区二区三区在线观看| 麻豆传媒视频在线观看| 国产日本欧美视频| 91日韩免费| 亚洲一区日韩精品| 国产精品乱码人人做人人爱 | 亚洲男人天堂2019| 日本蜜桃在线观看视频| 精品乱码一区二区三区| 日韩一级免费| 久久精品国产亚洲av麻豆| 欧美性猛交xxxx黑人| 国内在线精品| 国产欧美va欧美va香蕉在| 手机在线电影一区| 五月天开心婷婷| 亚洲免费在线播放| 亚洲xxxx天美| 韩国精品美女www爽爽爽视频| 理论片一区二区在线| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 久久免费看少妇高潮| 亚洲av无码不卡| 日韩在线免费观看视频| 电影一区中文字幕| 亚洲理论电影在线观看| 99久久精品国产导航| 国产成人一级片| 中文字幕日韩精品在线| 国产美女亚洲精品7777| 欧美日韩不卡在线视频| 久久免费国产精品| 国产一区二区三区中文字幕| 欧美成人h版在线观看| 青青草这里只有精品| 四季av一区二区| 亚洲日本在线视频观看| 天天舔天天干天天操| 国产精品激情av在线播放| 夜间精品视频| 中出视频在线观看| 欧美天堂一区二区三区| 1区2区3区在线视频| 欧美日韩国产精品一区二区| 另类综合日韩欧美亚洲| 久久久久亚洲AV| 亚洲欧美一区二区三区情侣bbw | 成人性生活毛片| 亚洲激情在线视频| 国产福利一区二区三区在线播放| www.激情网| 日本一区二区三区在线不卡| 国产99视频在线| 欧亚精品在线观看| 亚洲无中文字幕| 伊人网伊人影院| 日韩免费在线观看| 免费观看一级欧美片| 艳母动漫在线观看| 久久久影视传媒| 亚洲男女视频在线观看| 国产精品免费一区| 亚洲美洲欧洲综合国产一区| 美女网站视频色| 日韩经典中文字幕|