精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

人工智能 新聞
研究人員對比了“反思策略(Reflection)”和“N次推斷策略(BoN)”兩種策略。在Reflection策略中,通過利用SandboxFusion的反饋上下文對答案進行N次精煉,復現了自我精煉策略 [Madaan et al., 2024]。而在BoN策略中,僅進行N次推斷以獲得結果。

豆包代碼大模型,不小心給曝光了!

在字節開源的代碼大模型評估基準FullStack Bench里面,出現了此前字節未披露過的Doubao-Coder。

不過目前還只是Preview版,還并沒有上線。

它在多種編程語言上的性能表現如下,可以看到在閉源模型中排名第五。

圖片

今年6月,字節還發布了AI編程助手豆包MarsCode。據傳即由Doubao-Coder模型支撐。

目前,豆包MarsCode每月為用戶貢獻百萬量級代碼。

而回到這個評估基準,據介紹FullStack Bench是目前最全面的代碼評估數據集。

團隊還同步開源了可隨時測評代碼大模型的沙盒執行環境SandBox Fusion,單服務器即可部署,也可直接在線體驗

全新代碼大模型評估基準FullStack Bench

既然如此,那就先來了解一下這個最新評估基準。

有一說一,現在代碼大模型越來越卷,評估AI編程水平的“考卷”也被迫升級~

代碼評估基準可以幫助代碼大模型不斷優化。不過,當前的主流基準越來越難以反映代碼大模型的真實水平了。

主要體現在題目類型相對單調,覆蓋的應用領域和編程語言少,模型即便在考試中拿了高分,現實中可能還是難以應對復雜的編程問題。

為了更真實地評估AI編程水平,字節豆包大模型團隊聯合M-A-P社區,開源了全新代碼大模型評估基準FullStack Bench

圖片

這是一個專注于全棧編程和多語言編程的代碼評估數據集,它首次囊括了編程全棧技術中超過11類真實場景,覆蓋16種編程語言,包含3374個問題。

FullStack Bench的應用領域抽取自全球最大的程序員技術問答社區Stack Overflow,相比HumanEval等基準覆蓋的編程領域擴大了一倍以上。

此前業界基準難以反映真實世界代碼開發的多樣性和復雜性。

例如,HumanEval和MBPP中近80%數據只聚焦于基礎編程和高級編程問題;DS-1000中超過95%數據集中于數據分析和機器學習,且僅對Python語言進行評測;xCodeEval雖覆蓋多項任務,但基本局限于高級編程和數學領域;McEval和MDEval擴展了支持的編程語言,但應用領域仍局限于基礎編程和高級編程,未涉及更廣泛的場景。

為模擬全棧開發的實際應用場景,字節豆包大模型和M-A-P研究團隊分析了全球最大的程序員技術問答社區Stack Overflow上的問題分布,從中提煉出常見的真實編程應用領域。

團隊從Stack Overflow上隨機抽取了50萬個問題,并使用大模型為每個問題標注應用領域類型。

研究團隊篩選出占總問題數前88.1%的主要應用領域,其余領域歸類為“其他”。再通過對領域分布做適當調整來保證魯棒性,最終形成了FullStack Bench關注的超過11種應用場景及分布比例。

圖片

FullStack Bench包含3374個問題(中文及英文問題各占一半),每個問題均包括題目描述、參考解決方案、單元測試用例及標簽,總計15168個單元測試。

為保證評估準確性,每個問題內容均由相關領域的編程專家設計,并經AI和人工驗證進行質量復核。例如,數據分析相關問題,由數據工程專家提出并把關配套內容。

圖片

在初始數據集構建后,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

FullStack Bench數據構成情況如下圖所示。

圖片

為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具——SandboxFusion,用于評估來自不同語言的不同編程任務。

除了FullStack Bench,SandboxFusion還兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言。開發者在單服務器上即可輕松部署SandboxFusion,也可直接在GitHub上進行體驗。

圖片

評測結果:解決難題,閉源模型仍優于開源模型

發布評測基準及沙盒的同時,研究團隊也基于FullStack Bench測評了全球20余款代碼大模型及語言大模型的編程表現。

模型包括Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama等開源模型,以及GPT-4o、OpenAI-o1、Doubao-Coder-Preview等閉源模型。對于開源模型,根據模型大小,分為五個組別:1B+、6B+、13B+、20B+和70B+。

跨領域表現:數學編程領域差異最大

得益于強大的推理能力,OpenAI o1-preview不出所料地領先。

不過,一些開源模型也有不錯的表現。如DeepSeekCoderv2-Instruct,在AP(高級編程)、OS(操作系統)和其他類別中得到高分,拉開了與其他開源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct在其各自開源組別中拔得頭籌,并超越了一些更高參數級別的模型。

圖片

為了全面評估現有大語言模型在不同場景下的表現,研究團隊可視化了模型在FullStack Bench各領域的表現。

在BP(基礎編程)、AP(高級編程)、MA(數學編程)、ML(機器學習)和MM(多媒體)等領域中,模型表現差異顯著,其中以MA領域的差距最大

MA最佳表現者為OpenAI o1-preview(得分80.42),而最差的是CodeLlama-34B-Instruct(得分14.34)。數學編程要求模型同時具備數學和編程能力,那些在高度專業化代碼語料庫上訓練的模型,在MA領域往往表現較差。

這一結果進一步證明,FullStack Bench能夠更全面地評估模型的綜合編程能力。

圖片

跨語言表現:C++、C和Ruby上存較大差異

研究團隊對不同模型在多種編程語言上的性能表現進行了分析。

大多數模型在Bash編程任務中表現良好。然而,在C++、C和Ruby的表現上存在較大差異,這表明模型設計者可能在訓練語料庫中對這些語言進行了選擇性采樣。部分1B+的小型模型在D、R和Scala語言上的表現較差,其通過率低于10%,這表明它們的多語言處理能力都較弱。

圖片

由于SandboxFusion提供了來自編譯器的反饋,研究人員評估了模型在部分編程語言上的編譯通過率。實驗結果表明,編譯通過率與測試通過率之間存在正相關關系,但編譯通過并不意味著測試一定通過。同時,研究還探討了中英文表達對模型性能的影響。

解決難題,閉源模型普遍優于開源模型

不同模型在不同難度問題上的表現存在明顯差異??傮w而言,1B+模型和CodeLlama系列在所有難度級別上的表現均不盡如人意。其余模型在解決簡單問題時表現相似,但在中等難度問題上存在一定差距。對于難度較大的問題,閉源模型普遍優于開源模型。

圖片

使用SandboxFusion,可提升模型表現

研究人員對比了“反思策略(Reflection)”和“N次推斷策略(BoN)”兩種策略。在Reflection策略中,通過利用SandboxFusion的反饋上下文對答案進行N次精煉,復現了自我精煉策略 [Madaan et al., 2024]。而在BoN策略中,僅進行N次推斷以獲得結果。

結果如圖所示,“Reflection”策略明顯優于“BoN”,這表明SandboxFusion提供的反饋上下文具有較高的有效性。

圖片

了解這篇研究的詳情,可見文內Arxiv鏈接,或關注「豆包大模型團隊」公眾號,查閱更詳細解讀。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-05 15:22:19

2013-07-31 16:56:08

系統級編程語言語言性能語言

2025-02-19 13:50:00

明星編程軟件

2011-05-05 10:58:13

應用商店App StoreBlackBerry

2012-11-23 13:09:38

PHP性能

2025-01-22 16:57:32

字節跳動豆包大模型

2025-04-10 14:30:12

2024-10-17 14:05:34

2024-02-27 13:38:16

微軟OpenAI模型

2023-05-16 20:47:38

2025-03-05 08:40:00

2014-03-21 10:45:33

FacebookHack

2025-08-12 09:14:00

2024-04-19 07:55:57

Llama 3模型人工智能開源

2023-09-19 13:48:31

AI數據

2025-03-13 06:34:49

2024-04-08 13:29:52

2024-05-15 10:59:40

火山引擎豆包扣子

2023-06-19 19:26:54

模型開源
點贊
收藏

51CTO技術棧公眾號

青青草国产成人a∨下载安卓| 在线中文字幕视频观看| 99久久精品免费看国产小宝寻花 | www.一区| 日韩一区在线看| 91免费版网站在线观看| 国产无码精品久久久| 久久av影视| 91精品国产欧美一区二区成人 | 中文字幕亚洲在线| 日本女人性视频| 日本在线高清| 亚洲欧洲av在线| 精品国产一区二区三| 亚洲熟妇av乱码在线观看| 欧美在线看片| 夜夜嗨av一区二区三区免费区| 亚洲一区二区在线视频观看| 岛国av免费在线观看| 中文欧美字幕免费| 久久99精品久久久久久青青日本 | 久青草国产97香蕉在线视频| 精品熟女一区二区三区| 成人在线观看免费网站| 91麻豆福利精品推荐| 国产在线精品一区免费香蕉| 日韩女优在线观看| 成人爽a毛片免费啪啪红桃视频| 一本久久综合亚洲鲁鲁五月天| 精品嫩模一区二区三区| 狠狠色伊人亚洲综合网站l| 国产精品综合二区| 国产精品免费看久久久香蕉| 香蕉免费毛片视频| 91精品国产成人观看| 亚洲欧洲av一区二区| 国产伦理在线观看| 日韩精品第二页| 日韩欧美主播在线| 人妻少妇精品久久| 在线中文字幕-区二区三区四区| 欧美国产精品中文字幕| 精品视频导航| 刘亦菲久久免费一区二区| 久久av中文字幕片| 国产精品久久久久久久久久ktv| 日韩免费一二三区| 欧美精品观看| 亚洲精品在线免费观看视频| 隔壁人妻偷人bd中字| a√资源在线| 久久久久高清精品| 欧美日韩国产三区| 欧美日韩国产中文字幕在线| 成人av网站大全| 97se亚洲综合在线| 国产人妖一区二区| 狠狠色狠狠色综合系列| 91精品久久久久久久久久久久久久 | 一区二区精品在线| 大胆av不用播放器在线播放| 久久久蜜桃精品| 欧美1o一11sex性hdhd| 天堂视频中文在线| 97久久超碰国产精品电影| 超碰97在线资源| 亚洲爱爱综合网| 懂色av一区二区夜夜嗨| www国产亚洲精品| 蜜桃视频污在线观看| 成人综合婷婷国产精品久久蜜臀 | 成人av资源在线| 成人羞羞视频免费| xxxx.国产| 日本一二区不卡| 中文字幕欧美日韩va免费视频| 在哪里可以看毛片| 欧美日韩精品在线一区| www.日韩欧美| 免费在线观看一级片| 正在播放日韩欧美一页| 欧美激情精品久久久| 国产做受高潮漫动| 日日骚欧美日韩| 国产伦精品一区二区三区精品视频| 一区二区美女视频| 国产成人高清在线| 精品亚洲欧美日韩| chinese偷拍一区二区三区| 一区在线观看免费| 男人插女人视频在线观看| 亚洲同志男男gay1069网站| 欧洲亚洲国产日韩| √天堂资源在线| 国产超碰精品| 欧美日韩成人一区| 师生出轨h灌满了1v1| 国产精品久久久久久久久久白浆| 日韩精品在线观看一区二区| 日本综合在线观看| 欧美日韩亚洲一区三区| 日本国产高清不卡| 久久久精品视频在线| 亚洲影院免费| 成人a免费视频| 欧美熟妇另类久久久久久不卡| 久久人人爽爽爽人久久久| 亚洲图色在线| 国产中文在线播放| 欧美老人xxxx18| 精品久久久久久中文字幕2017| 韩国理伦片久久电影网| 亚洲国产高清福利视频| 曰本三级日本三级日本三级| 日本天堂一区| 久久激情视频久久| 久久久久久久久久影院| 国模一区二区三区白浆| 欧美一区二区三区四区五区六区| 超碰免费在线播放| 色噜噜狠狠色综合中国| 91人妻一区二区| 日韩欧美自拍| 浅井舞香一区二区| 亚洲风情第一页| 国产精品色婷婷| 中国丰满人妻videoshd| 久久久久久久久成人| 亚洲午夜未满十八勿入免费观看全集 | 久久亚洲天堂网| 国产精品自拍毛片| 图片区小说区区亚洲五月| 蜜桃视频在线观看视频| 亚洲自拍偷拍综合| 捷克做爰xxxⅹ性视频| 欧美精品色图| 日本韩国欧美精品大片卡二| 蜜桃91麻豆精品一二三区| 中文字幕日韩一区| 黄色手机在线视频| av亚洲在线观看| 欧美综合第一页| 欧洲精品久久一区二区| 亚洲精品写真福利| 婷婷激情综合五月天| 日韩av免费大片| 国产成人一区二区在线| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 亚洲高清在线观看视频| 亚洲免费视频中文字幕| 五月天激情播播| 久久精品国产www456c0m| 国产精品爱久久久久久久| 性xxxx视频播放免费| 天天影视涩香欲综合网| 国产精品无码在线| 国产精品视区| 欧美性色黄大片人与善| 亚洲播播91| 在线看日韩欧美| 中文在线字幕免费观| 国产精品视频第一区| 日本不卡一区二区在线观看| 久久婷婷蜜乳一本欲蜜臀| 国产精品欧美一区二区三区奶水| 在线视频1区2区| 欧美日韩国产小视频在线观看| 国产又粗又长免费视频| 狠狠网亚洲精品| 欧美交换配乱吟粗大25p| 亚洲天堂av资源在线观看| 国内精品国产三级国产在线专| 亚洲国产精品二区| 亚洲成人www| 中文字幕一区二区三区人妻不卡| 午夜亚洲视频| 天堂社区 天堂综合网 天堂资源最新版 | 日韩三级精品| 久久久久久亚洲精品中文字幕| 免费看国产片在线观看| 疯狂欧美牲乱大交777| 国产精品国产三级国产专业不| 日本成人在线视频网站| 国产日本欧美在线| 国产精品xxx在线观看| 欧美中文字幕视频| av大片在线观看| 日韩视频一区在线观看| 国产成人精品一区二三区| 日本一区二区三区免费乱视频 | 国产精品嫩草影视| 亚洲精华国产欧美| 日日夜夜精品网站| 麻豆一二三区精品蜜桃| 69久久夜色精品国产69乱青草| 黄网在线免费| 日韩一级精品视频在线观看| 国产九色在线播放九色| 国产精品你懂的| 精品国产乱码久久久久夜深人妻| 日韩精品视频网站| 警花观音坐莲激情销魂小说| 久久久亚洲欧洲日产| 国产美女久久久| 国产在线88av| 精品国产网站地址| 五月婷婷丁香六月| 777色狠狠一区二区三区| 在线观看精品国产| 亚洲视频一二区| 中文字幕人妻一区二区| 国产精品一区二区三区乱码| 日韩久久一级片| 亚洲欧美文学| 水蜜桃一区二区| 日韩超碰人人爽人人做人人添| 91精品视频网站| 桃色一区二区| 欧美精品福利在线| 三级外国片在线观看视频| 日韩av影视综合网| av综合在线观看| 欧美午夜精品一区二区蜜桃| 日本少妇在线观看| 综合久久给合久久狠狠狠97色| 99久久久久久久久久| 国产成人精品免费看| 日本中文字幕精品—区二区| 噜噜噜91成人网| 精品国偷自产一区二区三区| 欧美成免费一区二区视频| 欧美高清视频一区二区三区在线观看| 国产精品一区二区美女视频免费看| 日韩网站免费观看| 三级在线视频| 亚洲国产精品福利| 精品国产黄色片| 欧美日韩一级二级三级| 中文字幕av影院| 欧美日韩国产色视频| 国产一卡二卡在线| 亚洲一区二区三区中文字幕在线| 三级黄色片在线观看| 国产日韩av一区二区| 中文字幕 亚洲一区| 成人永久aaa| 中文字幕99页| 懂色av一区二区三区免费观看| 亚洲第一区第二区第三区| 久久99久久久久久久久久久| 久久久久久久久久久久91| 久久一区国产| 国产真实乱子伦| 亚洲三级免费| 免费无遮挡无码永久视频| 99精品视频免费| 少妇特黄a一区二区三区| 免费久久精品| 欧洲一区二区在线观看| 国产成人精品免费视| 免费亚洲一区二区| 蜜臀久久99精品久久一区二区| 久久综合九色综合久99| 九九综合久久| 色就是色欧美| 91成人免费| 日本香蕉视频在线观看| 亚洲午夜av| 精品国产一二三四区| 久久精品亚洲| 天天干天天干天天干天天干天天干| 免费在线成人网| 国产黑丝在线视频| 成人免费高清视频| 久久久亚洲av波多野结衣| 中文字幕av一区二区三区高| 青青青视频在线免费观看| 亚洲免费看黄网站| 国产一级一片免费播放放a| 精品久久久久久久久久ntr影视| 国产专区第一页| 欧美日韩一卡二卡三卡| 国产xxxxxx| 亚洲国产精品中文| 91精彩在线视频| 欧美国产日韩一区二区| 女人让男人操自己视频在线观看| 国产ts人妖一区二区三区| 福利一区二区免费视频| 91福利视频导航| 蜜臀av免费一区二区三区| 中文字幕一区二区中文字幕| 欧美片第1页综合| 国产主播在线看| 国内成人自拍视频| 日本xxx在线播放| 亚洲日本在线天堂| 波多野结衣国产| 欧美一二三区精品| 日本中文字幕电影在线观看| 精品国产区一区二区三区在线观看| 免费男女羞羞的视频网站在线观看| 国产精品69久久| 综合久久成人| 性欧美精品一区二区三区在线播放 | 六月丁香综合在线视频| 中文在线观看免费视频| 国产精品素人一区二区| 国产大片中文字幕| 欧美裸体bbwbbwbbw| 偷拍自拍在线| 欧美激情a在线| av成人在线播放| 国产福利久久精品| 日韩中文首页| 成人在线免费在线观看| 国产成人精品免费网站| 亚洲精品国产精品乱码在线观看| 亚洲大型综合色站| 91久久久久久久久久久久| 日韩精品在线看| 大黄网站在线观看| 91人成网站www| 欧美亚洲国产激情| 九色在线视频观看| 国产成人亚洲综合色影视| 亚洲一二三精品| 欧美色视频日本版| 国精产品一品二品国精品69xx | 午夜视频在线免费观看| 97在线视频一区| 日本伊人久久| 在线成人性视频| 日韩电影免费在线观看网站| 一本加勒比波多野结衣| 亚洲自拍偷拍麻豆| japanese国产| 久久精品视频中文字幕| 精品日本视频| 日韩av一区二区三区在线观看| 国产成人av| 欧美一级在线看| 成人v精品蜜桃久久一区| 好吊色视频在线观看| 欧美猛男男办公室激情| melody高清在线观看| 国产成人久久久精品一区| 婷婷五月色综合香五月| 欧美 日韩 国产一区| www.成人网.com| 97人人澡人人爽人人模亚洲| 精品国产污网站| 韩国日本一区| 国产 高清 精品 在线 a| 午夜精品剧场| 熟妇高潮一区二区| 亚洲成人精品影院| 日夜干在线视频| 日韩免费av一区二区| 欧美色图在线播放| 日韩欧美国产片| 中文字幕在线一区免费| 国产精品系列视频| 欧美乱人伦中文字幕在线| 日韩在线成人| 免费在线观看视频a| av资源网一区| 4438国产精品一区二区| 亚洲香蕉av在线一区二区三区| 97人人做人人爽香蕉精品| 亚洲人成77777| 国内成人精品2018免费看| 久久久无码一区二区三区| 亚洲国产精品一区二区三区| 成人免费网站视频| 亚洲精品国产系列| 国产综合色精品一区二区三区| 成年人av电影| 亚洲精品国产综合久久| 日韩在线影院| 成人手机视频在线| 成人自拍视频在线观看| 黄色片中文字幕| 久久精品国产99国产精品澳门| 一区二区三区四区视频免费观看| 国产特级淫片高清视频| 国产丝袜欧美中文另类| 国产裸体无遮挡| 国外成人在线播放| av一区二区高清| 性色av浪潮av| 色悠久久久久综合欧美99| 日本中文字幕在线2020| av噜噜色噜噜久久| 天堂av在线一区| 国产精品成人免费观看| 国产午夜精品理论片a级探花| 少妇精品视频在线观看| 青青草国产精品视频| 国产精品久久精品日日|