精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CodeAgent 2.0 時代開啟|GitTaskBench,顛覆性定義代碼智能體實戰交付新標準

人工智能 新聞
為突破現有評測局限,中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者,與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合,首次提出并開源了 repo-level 的測評新范式 GitTaskBench。

你是否也好奇過:現在的模型在各類榜單分數都那么高,實際體驗卻不符預期?

我們也看過各種 AI Coding 領域的評測,發現大多停留在了 「代碼生成」與「封閉題目」的考核,卻忽視了環境配置、依賴處理、跨倉庫資源利用等開發者必經的真實需求 —— 當下眾多 Benchmark 僅通過題目,已難以衡量 Code Agent 的實際效果。

為突破現有評測局限,中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者,與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合,首次提出并開源了 repo-level 的測評新范式 GitTaskBench:

1)真正考察 Agent 從 倉庫理解 → 環境配置 → 增量開發 / 代碼修復 → 項目級交付 的全鏈路能力,指引了迭代新范式

2)首次把「框架 × 模型」的「經濟收益」納入評測指標,給學界、業界以及創業者都帶來了很好的思路啟發

  • 論文標題:GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
  • 論文地址:https://arxiv.org/pdf/2508.18993
  • GitHub 鏈接:https://github.com/QuantaAlpha/GitTaskBench

GitTaskBench 分布一覽

其開源版覆蓋了 7 大模態 × 7 個領域 × 24 個子領域及 54 個真實任務:

對應后端倉庫 18 個,包含平均 204 個文件、1,274.78 個函數、52.63k 行代碼,文件彼此引用依賴平均為 1242.72 次。

且每個任務都綁定了完整 GitHub 倉庫 + 自然語言指令 + 明確輸入輸出格式 + 任務特定的自動化評測。

以下圖片統計了 GitTaskBench 的領域與模態分布,包括相應的數量。

倉庫級的端到端評測的構建

首先從能力角度,GitTaskBench 對 Code Agent 進行了三個維度的分析:

1. 整體編碼掌控:讀文檔、解依賴、生成 / 修改 / 調試代碼

2. 任務導向執行:多輪推理與工具使用,產物必須貼合任務交付,利用代碼倉庫但不局限于倉庫

3. 自主環境配置:不借助預置鏡像,獨立裝環境 / 解依賴

下圖是從倉庫收集到任務測評的全流程概覽

整體主要經過四個階段:

1. 「倉庫遴選」:結合文獻綜述、LLM 輔助檢索和專家咨詢,先定任務范圍;再從 Python 倉庫里,挑出 ?≥50、近五年活躍、依賴可用且易配置的候選。人工核驗 Stars、Forks、許可證、提交歷史,確保資源靠譜。

2. 「完備性驗證」:包括必要依賴文件、配置文件、所需數據集和預訓練模型。嚴格按文檔跑通,確保 100% 人類可復現;若遇到資源門檻 / 外鏈阻斷,將必要信息放進到 README,充分保證自包含所有必要信息。

3. 「執行框架設計」:統一清晰的任務定義、輸入 / 輸出規范;Agent 接收倉庫 + 任務提示,需完成倉庫理解 → 代碼生成 / 修改 → 環境安裝 → 代碼執行的多階段流程。

4. 「自動化評測」:我們實現了一套由人工驗證的定制化測試腳本驅動的評測指標體系。所有任務只需一條命令自動評測,可直接產出各任務對應的成功 / 失敗狀態 + 詳細原因,并可進行指標統計。

實在的經濟可行性分析

其次,GitTaskBench 還首次提出了「性價比」的概念,結合以下指標:

  • ECR(Execution Completion Rate):能否成功執行倉庫并以合規格式輸出(存在、非空、格式可解析)
  • TPR(Task Pass Rate):按任務領域標準判定是否達到成功閾值(如語音增強 PESQ ≥2.0 / SNR ≥15dB;圖像類 SSIM/FID 閾值等),不過線即失敗。
  • α 值(Alpha Practical Value):該值為 Agent 在執行任務的平均凈收益 —— 把完成度 (T)、市場價 (MV)、質量系數 (Q) 和成本 (C) 融合,回答「這活交給這個 Agent 值不值」的切實問題,具體公式:

  • n 表示任務數量;
  • T 為任務成功的二元標記(與 ECR 定義一致,成功為 1,失敗為 0);
  • MV 表示人工完成該任務的市場價值估計;
  • Q 為質量系數(0 至 1 之間),表示智能體輸出與人工執行同一倉庫所得結果的接近程度;
  • C 為智能體的總運行成本(此處近似為 API 費用)。

這很好地反映了 Agent 方案在各領域的經濟可行性,通過量化任務自動化與可擴展性帶來的成本節省、效率提升及潛在市場收益,真正地評估了 Agent 落地的實際價值。

結果一覽:框架與模型的耦合

在適配了主流框架與模型之后,我們實驗發現:

  • OpenHands 整體最強,+ Claude 3.7 拿到最高成績:ECR 72.22% / TPR 48.15%。
  • 性價比之王? GPT-4.1 在成功率次優的同時,成本僅為 Claude 的 1/10 ~ 1/30(OpenHands 設定下),在 SWE-Agent 中也以更低成本拿到亞軍表現。
  • 開源可用性:Qwen3-32B(think 模式) 能以更少 token 達到 Claude 3.5 的約 60% 水平。
  • 任務偏好:純文本 / 辦公文檔類穩定,多模態、模型推理密集型更難(如圖像修復需多依賴與權重配置)。

更細致地分析,各任務領域下不同框架 + 模型的性能表現:

此外,能力之上的現實價值也值得關注:

雖然在人類市場價值(MV)本身較高的倉庫(如 視頻類 VideoPose3D 、語音類 FunASR 、時序生理信號類 NeuroKit 場景)中,只要 Agent 順利完成任務,就能獲得最大的正向 alpha 收益。

但對于低 MV 的圖像處理等任務(MV≈$5–10),一旦智能體的平均執行成本超過 $1-2,往往會導致 alpha 為負。

這一規律凸顯了:在商業潛力有限的任務中,控制運行成本對于確保經濟可行性至關重要。

其中,對于不同模型:

  • DeepSeek V3 在大多數倉庫中提供了最高的整體收益與最佳的性價比;
  • GPT-4.1 在不同場景下表現更加穩定與穩健,很少出現大幅性能下降的情況;
  • Claude 3.5 的收益分布最為分散,在信息抽取任務上表現突出,但在計算量較大的視覺類任務中對成本較為敏感。

總結

由此可見,現實中我們對「框架 × 模型」的選擇,應從效果、成本、API 調用上進行三元權衡,例如:Claude 系列在代碼類任務表現出色,但在很多場景下 GPT-4.1 更省錢且穩健,而開源模型可在特定倉庫上取得更好的綜合 α。

在以下更廣泛應用場景,我們也可以直接用 GitTaskBench 來助力:

  • Agent infra:做基座對比、工作流改進(環境管理 / 依賴修復 / 入口識別 / 執行規劃)的回歸測試場。
  • 應用落地評審:以 ECR/TPR/α 同時衡量「能不能交付」與「劃不劃算」,給 PoC / 上線決策提供可解釋的三維證據。
  • 任務設計素材庫:跨圖像 / 語音 / 生理信號 / 辦公文件 / 爬蟲等七模態任務,可直接復用作為企業內評測用例。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-04-07 15:51:35

2013-08-28 10:39:45

視覺設計顛覆性思維設計

2025-08-06 07:00:00

CIOIT路線圖企業

2022-07-01 05:47:19

PyCharm插件開發

2023-02-02 11:17:44

數據中心運營商集群

2018-01-04 14:50:56

2015-12-29 14:43:41

混合云云交付模式云的預測

2013-08-20 10:05:39

Windows Azu微軟創投云平臺

2013-03-27 15:58:36

思科硅光子技術SDN

2011-10-17 14:10:54

云計算服務器

2013-05-27 10:46:05

移動互聯網自動化物聯網

2013-02-26 13:21:33

SDN網絡世界軟件定義網絡

2014-11-27 17:10:46

身份認證認知指紋生物識別

2015-06-29 10:28:39

Home交互設計蘋果

2025-07-14 08:50:00

語言模型AI論文

2013-11-27 10:35:14

大數據+云顛覆科技

2019-02-21 00:06:57

物聯網IOT技術

2022-01-10 09:25:22

智能家電HCA物聯網

2020-05-06 11:07:47

人工智能營銷行業AI
點贊
收藏

51CTO技術棧公眾號

四虎永久免费网站| 91po在线观看91精品国产性色| 精品999在线| 韩国av网站在线| 成人免费视频视频在线观看免费 | 91porn在线观看| 精品一二三四区| 77777亚洲午夜久久多人| av2014天堂网| 国产综合色激情| 亚洲国产成人高清精品| 色播亚洲婷婷| 神宫寺奈绪一区二区三区| 日韩av一级电影| 欧美精品videosex性欧美| 99精品欧美一区二区| 亚洲超碰在线观看| 欧美熟乱第一页| 人人干视频在线| 成人ww免费完整版在线观看| 久久久久久久久久久久久夜| 97视频中文字幕| 中文字幕欧美人妻精品| 在线日韩欧美| 久久综合久中文字幕青草| 日韩乱码人妻无码中文字幕久久| 日韩高清一区| 欧美日韩精品一区二区三区蜜桃| 黄页免费在线观看视频| 国产精品久久久久久福利| 久久夜色精品一区| 国产精品日韩欧美一区二区三区 | 筱崎爱全乳无删减在线观看 | 久久久精品区| 欧美日韩一区在线| 日韩 欧美 高清| aaa在线播放视频| 亚洲色图在线播放| 亚洲图片在线观看| 国产资源在线播放| 久久久久久亚洲综合| 国产一区国产精品| 亚洲国产精品一| 国产精品一级二级三级| 成人免费在线视频网站| 日本妇乱大交xxxxx| 另类国产ts人妖高潮视频| 韩国欧美亚洲国产| 九热这里只有精品| 亚洲午夜久久久久久尤物| 欧美成人精品三级在线观看| 成人信息集中地| 91亚洲人成网污www| 自拍偷拍免费精品| 国产又粗又长又硬| 久久一区二区中文字幕| 最新国产精品亚洲| 999精品久久久| 久久蜜桃av| 久久久精品亚洲| 国产真实乱在线更新| 久久精品久久久| 久久国产精品久久久| 久草资源在线视频| 在线播放亚洲| 人人澡人人澡人人看欧美| 国产精品久久久久久久妇| 国产精品美女久久久| 日本韩国在线不卡| 最近中文字幕在线视频| 麻豆精品新av中文字幕| 国产日本欧美一区二区三区| 国产精品熟女久久久久久| 国产麻豆精品久久一二三| 国产成人精品免费视频大全最热| 乱精品一区字幕二区| 99久久精品免费看国产免费软件| 女人一区二区三区| 成人三级黄色免费网站| 亚洲欧洲精品天堂一级| 日韩黄色片在线| 中文在线8资源库| 欧美视频一区二区三区| 久久精品一二三四| 欧美美女在线直播| 在线成人激情视频| 极品盗摄国产盗摄合集| 国产欧美日韩一级| 99久久精品99国产精品| 7777精品伊人久久久大香线蕉完整版| 国产精品久久久久久9999| 日韩精品一区二区三区中文| 亚洲国产精品va在线| 最近中文字幕免费视频| 久久中文字幕av| 欧美精品久久久久久久久| 人妻 日韩精品 中文字幕| 老司机精品视频导航| 成人三级视频在线观看一区二区| 嫩草精品影院| 综合中文字幕亚洲| 给我免费播放片在线观看| 成人做爰视频www网站小优视频| 欧美精品久久天天躁| japanese在线观看| 欧美wwwww| 午夜精品久久久久久久男人的天堂| 区一区二在线观看| 国产高清无密码一区二区三区| 麻豆蜜桃91| 最新国产在线拍揄自揄视频| 色综合婷婷久久| 国产九九九视频| 精品国产欧美日韩| 欧美精品久久久久久久久久| 国产精品xxxxxx| av在线不卡网| 亚洲日本在线天堂| 久久久性生活视频| 疯狂欧洲av久久成人av电影| 亚洲欧美另类在线观看| 精品一区在线视频| 国产一区二区影院| 日韩av高清在线播放| 91黄页在线观看| 欧美一级欧美一级在线播放| 成人在线观看免费高清| 国产精品三上| 国语精品中文字幕| 亚洲第一图区| 欧美一区中文字幕| 国产一二三av| 日韩不卡一二三区| 六月婷婷久久| 日本午夜大片a在线观看| 日韩女优电影在线观看| 亚洲波多野结衣| 久久激情五月激情| 天堂社区 天堂综合网 天堂资源最新版| 欧美日韩国产观看视频| 亚洲第一区在线| 国产精品日日夜夜| 成人午夜激情片| 欧美日韩福利在线| 一区二区三区四区精品视频| 久久不射电影网| 99精品在线看| 亚洲精品国久久99热| 99视频在线观看视频| 午夜影院欧美| 亚洲mm色国产网站| 色在线视频网| 精品国产制服丝袜高跟| 久久免费视频精品| 成人一区二区三区在线观看| 日本手机在线视频| 加勒比色老久久爱综合网| 亚洲3p在线观看| 日韩大胆视频| 色婷婷精品大在线视频| 我不卡一区二区| 免费人成精品欧美精品| 亚洲一区二区四区| 99视频有精品高清视频| 国产精品jk白丝蜜臀av小说 | 韩国无码一区二区三区精品| 91久久午夜| 久久亚洲午夜电影| 成人自拍av| 精品国产欧美一区二区五十路| 6—12呦国产精品| 亚洲男人的天堂在线aⅴ视频| 成年人性生活视频| 黄色成人在线网站| 欧美激情专区| 视频91a欧美| 欧美激情在线狂野欧美精品| 天天色天天操天天射| 日本高清不卡在线观看| 天堂网中文在线观看| 高清在线不卡av| 91av在线免费播放| 成人写真视频| 福利视频久久| 婷婷综合六月| 久久国产精彩视频| 全色精品综合影院| 欧美军同video69gay| 91精品国产高潮对白| 久久精品亚洲精品国产欧美| 中文字幕丰满乱码| 一区在线播放| 国产精品久久久久7777按摩| 欧美精品一区在线发布| 欧美三级电影网址| 免费97视频在线精品国自产拍| 三级网站在线看| 欧美色图第一页| 日本在线观看中文字幕| 国产精品乱码一区二区三区软件 | 日韩三级网址| 日韩**中文字幕毛片| 粗大黑人巨茎大战欧美成人| 日韩精品在线观| av小说天堂网| 欧美性xxxxx极品少妇| 精品一区二区三区四| 国产精品毛片无遮挡高清| 日本道中文字幕| 精品一区二区免费视频| 一女被多男玩喷潮视频| 伊人情人综合网| 色综合久久久久久久久五月| 风间由美一区二区av101| 国产精品偷伦视频免费观看国产 | 99精品福利视频| 亚洲欧美99| 一区二区三区四区在线看| 92看片淫黄大片欧美看国产片| 国产免费拔擦拔擦8x高清在线人 | 亚洲另类在线观看| 一区二区三区91| 亚洲一区电影在线观看| 久久久www成人免费无遮挡大片| 91精品人妻一区二区三区蜜桃2| 青青草国产成人av片免费| 无码人妻丰满熟妇区96| 极品av少妇一区二区| 男同互操gay射视频在线看| 精品盗摄女厕tp美女嘘嘘| 国产在线欧美日韩| jizz国产精品| www.久久草| 亚洲大奶少妇| 亚洲一区二区免费| 欧美一级做a| 国产精品私拍pans大尺度在线| 蜜桃成人精品| 国产99久久久欧美黑人 | 亚洲国内精品| 国产xxxx振车| 在线成人欧美| 人妻少妇精品久久| 尹人成人综合网| 国产一区二区三区小说| 欧美日本不卡| 日韩欧美猛交xxxxx无码| 欧美99久久| 丰满人妻一区二区三区53号| 欧美一区影院| 欧美a级免费视频| 国产精品mm| 日本xxxxxxxxxx75| 国产欧美91| 不卡影院一区二区| 日韩精品国产精品| 亚洲第一狼人区| 精品在线一区二区三区| 亚欧美一区二区三区| 国产精品一区二区久久精品爱涩| wwwxxx色| 成人av网站免费| 成人免费av片| 中文字幕精品一区二区三区精品 | 韩国免费在线视频| 在线观看国产成人av片| 日本www在线| 欧美老女人性生活| 国产精品xx| 国产精品视频资源| 国产亚洲久久| 精品国产_亚洲人成在线| 在线看成人短视频| 亚洲欧美日韩国产成人综合一二三区 | 青春草在线免费视频| 国内偷自视频区视频综合| gay欧美网站| 国产精品自拍偷拍| 日韩精品一区二区三区中文在线| 国产一区二区久久久| 久久不见久久见免费视频7| 亚洲日本精品| 欧美日韩伊人| 老头吃奶性行交视频| 精品一区二区三区香蕉蜜桃| 精品1卡二卡三卡四卡老狼| 久久综合色8888| 成年人二级毛片| 婷婷激情综合网| 在线观看国产小视频| 日韩免费观看高清完整版| 秋霞av在线| 欧美猛男性生活免费| 在线男人天堂| 亚洲一区二区三区香蕉| 免费观看不卡av| 特大黑人娇小亚洲女mp4| 丝袜亚洲另类丝袜在线| 精品人妻一区二区乱码| 久久精品网站免费观看| 久久久久香蕉视频| 欧美在线免费观看亚洲| 风流少妇一区二区三区91| 在线播放日韩精品| 麻豆网站免费在线观看| 国产日韩欧美在线观看| 日韩三级av| 国产高清不卡无码视频| 青娱乐精品视频在线| 青青草成人免费视频| 亚洲美女一区二区三区| 中文字幕av第一页| 精品电影一区二区| 黄网站免费在线播放| 国产成一区二区| 久久资源综合| 日本a级片在线观看| 欧美96一区二区免费视频| 国产又黄又粗又猛又爽的视频| 亚洲欧洲性图库| 性高潮视频在线观看| 日韩成人在线视频网站| 羞羞的视频在线看| 成人情趣片在线观看免费| 国产一区二区三区四区| 久艹视频在线免费观看| 国产一本一道久久香蕉| 久草福利资源在线| 在线亚洲一区观看| 日本在线一二三| 国产69精品久久久久9999| 久久一级大片| 美女视频一区二区| 另类小说第一页| 久久人人97超碰com| 日本网站在线免费观看| 精品精品国产高清a毛片牛牛| 成年人黄视频在线观看| 91视频免费网站| 91精品婷婷色在线观看| www.久久av.com| 中文字幕亚洲不卡| 91亚洲精品国偷拍自产在线观看| 亚洲一区www| av免费在线一区| 婷婷亚洲婷婷综合色香五月| 日韩和欧美的一区| 黄色片网站免费| 欧美日韩你懂的| 中文字幕在线免费| 国产精品视频自拍| 希岛爱理av一区二区三区| 久久久久久综合网| 亚洲男人的天堂在线观看| 午夜精品久久久久久久91蜜桃| 欧美精品手机在线| 97se亚洲| 免费观看精品视频| 国产夜色精品一区二区av| 亚洲av综合一区| 久久精品在线视频| 精品国产三区在线| bt天堂新版中文在线地址| 成人动漫精品一区二区| 在线观看国产亚洲| 亚洲区一区二区| 久草综合在线| 狠狠噜天天噜日日噜| 9i在线看片成人免费| 麻豆精品久久久久久久99蜜桃| 在线观看日韩视频| 91麻豆精品国产综合久久久 | 日韩影院一区| 久久福利资源站| 久久国产精品波多野结衣av| 亚洲国产精品国自产拍av秋霞| 依依综合在线| 中文字幕中文字幕在线中心一区| 国产电影精品久久禁18| 成人在线免费看视频| 在线观看日韩视频| 91欧美极品| 成人在线观看a| 亚洲欧美色一区| 无码国产精品高潮久久99| 国产精品亚洲精品| 红桃视频国产一区| 黄色片网站免费| 欧美成人乱码一区二区三区| 欧美成人资源| 国产内射老熟女aaaa| 久久蜜桃av一区精品变态类天堂| 国产精品久久久久久久免费| 久久久视频在线| 99精品全国免费观看视频软件| 91传媒理伦片在线观看| 欧美日韩一卡二卡| 1区2区3区在线| 中国成人在线视频| xfplay精品久久|