精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

超70%代碼基準(zhǔn)沒(méi)有質(zhì)量保證！港科大最新「指南」全面調(diào)研10年274個(gè)評(píng)測(cè)集

作者：新智元 2025-03-18 09:56:42

人工智能新聞

近年來(lái)，代碼評(píng)測(cè)集數(shù)量激增，但質(zhì)量參差不齊。為規(guī)范其開(kāi)發(fā)，香港科技大學(xué)聯(lián)合多所高校研究了過(guò)去十年的274個(gè)代碼評(píng)測(cè)集，發(fā)現(xiàn)諸多問(wèn)題，如數(shù)據(jù)重復(fù)、測(cè)試用例錯(cuò)誤、隱私信息未刪除等。基于此，他們推出了《代碼評(píng)測(cè)集發(fā)展指南55項(xiàng)》（How2Bench），涵蓋設(shè)計(jì)、構(gòu)建、評(píng)測(cè)、分析、發(fā)布五大階段，旨在提升代碼評(píng)測(cè)集的質(zhì)量與可靠性。

近年來(lái)，大模型層出不窮，令人目不暇接。為更好理解大模型的能力，許多評(píng)測(cè)集（Benchmarks）應(yīng)運(yùn)而生。

然而，這些評(píng)測(cè)集的質(zhì)量常常受到質(zhì)疑：標(biāo)準(zhǔn)答案出錯(cuò)、指令模糊或錯(cuò)誤、題目重復(fù)、數(shù)據(jù)泄漏等。

那么，代碼評(píng)測(cè)集的現(xiàn)狀究竟如何？

為了回答這個(gè)問(wèn)題，由香港科技大學(xué)牽頭，聯(lián)合香港中文大學(xué)、中山大學(xué)等多所機(jī)構(gòu)，耗費(fèi)近一年時(shí)間，深入調(diào)研了過(guò)去10年間的274個(gè)代碼評(píng)測(cè)集，推出了一份《代碼評(píng)測(cè)集發(fā)展指南55項(xiàng)》（英文名：How2Bench，下稱《指南》）。

論文鏈接：https://arxiv.org/pdf/2501.10711

該指南涵蓋代碼評(píng)測(cè)集設(shè)計(jì)、構(gòu)建、評(píng)測(cè)、分析、發(fā)布五大階段，共包含55條檢查項(xiàng)。

研究團(tuán)隊(duì)指出，代碼評(píng)測(cè)集的質(zhì)量不容樂(lè)觀：

即使是上千引的代碼評(píng)測(cè)集，也存在題目重復(fù)、測(cè)試用例錯(cuò)誤、標(biāo)準(zhǔn)答案錯(cuò)誤、未刪除的隱私信息等問(wèn)題；
近70%的代碼評(píng)測(cè)集沒(méi)有采取數(shù)據(jù)質(zhì)量保證措施；
超90%的以測(cè)試用例為通過(guò)依據(jù)的代碼評(píng)測(cè)集沒(méi)有考慮代碼覆蓋率；
超過(guò)一半的代碼評(píng)測(cè)集不提供可復(fù)現(xiàn)信息，如實(shí)驗(yàn)參數(shù)設(shè)置、提示詞等；
超過(guò)10%的代碼評(píng)測(cè)集不開(kāi)源或僅部分開(kāi)源；
超18%的代碼評(píng)測(cè)集會(huì)作為后續(xù)評(píng)測(cè)集的源頭繼續(xù)擴(kuò)大其影響（如圖6），意味著代碼評(píng)測(cè)集中的漏洞會(huì)持續(xù)傳遞，影響后續(xù)評(píng)測(cè)集的質(zhì)量與可靠性。

研究過(guò)程

圖1 研究過(guò)程大綱

研究團(tuán)隊(duì)將研究過(guò)程分為四個(gè)步驟：指南構(gòu)建、文獻(xiàn)綜述、焦點(diǎn)案例分析、問(wèn)卷調(diào)查。

指南構(gòu)建：研究團(tuán)隊(duì)首先起草了初步的指南，之后通過(guò)頭腦風(fēng)暴、查閱文獻(xiàn)和對(duì)模型開(kāi)發(fā)人員、模型評(píng)測(cè)人員的走訪，對(duì)初版指南進(jìn)行增刪修改，最終敲定了這份包含55條檢查項(xiàng)的構(gòu)建《指南》How2Bench；
文獻(xiàn)綜述：為探究代碼評(píng)測(cè)集的現(xiàn)狀，研究團(tuán)隊(duì)根據(jù)發(fā)表年份（2014–2024年）、發(fā)表刊物（軟件工程頂會(huì)、人工智能頂會(huì)及前沿arXiv）、任務(wù)（代碼相關(guān)），進(jìn)行滾雪球式收集，最終收錄274個(gè)代碼相關(guān)評(píng)測(cè)集（包含為深度學(xué)習(xí)/大模型設(shè)計(jì)的評(píng)測(cè)集）；
焦點(diǎn)案例分析：針對(duì)Top 5的代碼任務(wù)，研究團(tuán)隊(duì)選取了前五個(gè)最高引的代碼評(píng)測(cè)集及一個(gè)最新的代碼評(píng)測(cè)集作為焦點(diǎn)案例進(jìn)行重點(diǎn)剖析，摘錄其中的不足之處，引以為戒；
問(wèn)卷調(diào)查：最后，研究團(tuán)隊(duì)探尋從業(yè)者意識(shí)上的不足，及意識(shí)與行為之間的差距，研究哪些不良操作是由「沒(méi)有意識(shí)到其重要性」而導(dǎo)致，哪些是由于時(shí)間、精力、人力成本所限制而導(dǎo)致。

代碼評(píng)測(cè)集開(kāi)發(fā)的生命周期

研究團(tuán)隊(duì)將代碼評(píng)測(cè)集的開(kāi)發(fā)過(guò)程分為五個(gè)階段（如圖2）：設(shè)計(jì)、構(gòu)建、測(cè)評(píng)、分析、發(fā)布。

圖2 代碼基準(zhǔn)開(kāi)發(fā)的生命周期

設(shè)計(jì)（Design）：在構(gòu)建評(píng)測(cè)集之前，要先考慮該評(píng)測(cè)集所要評(píng)測(cè)的范圍、所要考察的模型能力、是否彌補(bǔ)了相關(guān)評(píng)測(cè)集的空白、以及評(píng)測(cè)集所設(shè)計(jì)的輸入輸出是否符合真實(shí)應(yīng)用場(chǎng)景。嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè)設(shè)計(jì)可以避免；
構(gòu)造（Construction）：確定了評(píng)測(cè)集的動(dòng)機(jī)和設(shè)計(jì)之后，開(kāi)始構(gòu)建評(píng)測(cè)集。代碼評(píng)測(cè)集中的數(shù)據(jù)通常從開(kāi)源平臺(tái)、社區(qū)等（例如 GitHub、LeetCode 和 StackOverflow）收集，經(jīng)過(guò)篩選（例如去掉低質(zhì)量數(shù)據(jù)）、清洗（例如刪除重復(fù)數(shù)據(jù)、降噪）、整理（例如將測(cè)試數(shù)據(jù)與所測(cè)代碼配對(duì)）等預(yù)處理方法。該階段還伴隨判定方式（oracle）的構(gòu)建，例如準(zhǔn)備測(cè)試用例等。
評(píng)估（Evaluation）：評(píng)測(cè)集建立好后，在模型評(píng)估時(shí)也有不少問(wèn)題：在什么環(huán)境下、用什么實(shí)驗(yàn)設(shè)置（如溫度、重復(fù)次數(shù)、采樣次數(shù)、上下文設(shè)置、提示詞方式）進(jìn)行評(píng)測(cè)？在幾個(gè)模型上評(píng)測(cè)？評(píng)測(cè)結(jié)果是否具有偶然性？是否可復(fù)現(xiàn)？實(shí)驗(yàn)過(guò)程是否完整記錄？諸如此類(lèi)設(shè)置在評(píng)估過(guò)程中也是不規(guī)范的重災(zāi)之地。
分析（Analysis）：評(píng)測(cè)得到實(shí)驗(yàn)結(jié)果后，對(duì)實(shí)驗(yàn)結(jié)果的分析、啟發(fā)與反思也是重要的步驟。此階段涉及比較每個(gè)模型的表現(xiàn)，以找出表現(xiàn)異常的模型；使用適當(dāng)?shù)囊曈X(jué)輔助工具（例如條形圖和表格），以便于更清晰地觀察模型之間、不同設(shè)置下、與相關(guān)評(píng)測(cè)集、或上游下游任務(wù)表現(xiàn)的相關(guān)性。
發(fā)布（Release）：最后是發(fā)布評(píng)測(cè)集。這一階段需要對(duì)評(píng)測(cè)集所用的材料（如評(píng)測(cè)數(shù)據(jù)、評(píng)估方式（如測(cè)試用例）、運(yùn)行環(huán)境（如docker）、可運(yùn)行代碼或代碼實(shí)例等）進(jìn)行整理與打包，以提高評(píng)測(cè)的可復(fù)現(xiàn)性；提供許可證（license），以明確使用權(quán)限及方式；提供清晰的文檔，以指導(dǎo)用戶有效地利用基準(zhǔn)測(cè)試；提供實(shí)驗(yàn)日志，以提高評(píng)測(cè)的可靠性與透明性。

綜述一覽

研究團(tuán)隊(duì)可視化了所深入研究的274個(gè)代碼評(píng)測(cè)集，展示了它們的時(shí)間分布（圖3）、引用量分布（圖4）、代碼任務(wù)分布（圖5）等。

圖3 代碼評(píng)測(cè)集時(shí)間分布

圖4 代碼評(píng)測(cè)集引用量分布

圖5 代碼任務(wù)分布圖

研究團(tuán)隊(duì)還對(duì)代碼評(píng)測(cè)集的繼承關(guān)系進(jìn)行分析。如圖6所示，HumanEval、MBPP、Spider、CodeSearchNet被下游代碼評(píng)測(cè)集繼承得較為頻繁。

另外，值得注意的是，18%的代碼評(píng)測(cè)集（50/274)被后續(xù)評(píng)測(cè)集繼承、擴(kuò)展。這也意味著上游代碼評(píng)測(cè)集的質(zhì)量不僅影響自身的評(píng)估可靠性，還將持續(xù)影響下游代碼評(píng)測(cè)集。

圖6 代碼評(píng)測(cè)集之間的繼承關(guān)系

評(píng)測(cè)集「設(shè)計(jì)」階段現(xiàn)狀——偏科嚴(yán)重

針對(duì)「設(shè)計(jì)」階段，研究團(tuán)隊(duì)提出了4條檢查項(xiàng)?！吨改稀分赋?，在構(gòu)建之前，從業(yè)者應(yīng)先做好調(diào)研，以確保提出新的評(píng)測(cè)集的必要性和重要性（如，是否已存在大量相似的評(píng)測(cè)集）；明確定義評(píng)測(cè)集所評(píng)估的模型能力范圍（如，評(píng)測(cè)的是代碼續(xù)寫(xiě)能力、理解能力，或是其他）；思考清楚待評(píng)估的能力是否符合真實(shí)應(yīng)用場(chǎng)景（如，輸入是否符合實(shí)際；輸出形式是否真的為實(shí)際應(yīng)用場(chǎng)景所需）。

綜述發(fā)現(xiàn)，現(xiàn)有的代碼評(píng)測(cè)集偏科嚴(yán)重：

編程語(yǔ)言：58%（158/274）的評(píng)測(cè)集評(píng)估了Python，39%（107/274）評(píng)估了Java，23%（63/274）評(píng)估了C++，其他編程語(yǔ)言則很少被評(píng)估。有31種編程語(yǔ)言僅被一個(gè)代碼評(píng)測(cè)集覆蓋。具體分布如圖7所示。

圖7 編程語(yǔ)言分布

自然語(yǔ)言：相似的，自然語(yǔ)言也能觀察到相似的偏科現(xiàn)象——英語(yǔ)絕對(duì)領(lǐng)先，占據(jù)70%（192/274），中文僅有2%（6/274）。
函數(shù)級(jí)的代碼評(píng)測(cè)集占主導(dǎo)（71.8%），項(xiàng)目級(jí)（15.1%）、類(lèi)級(jí)（2.6%）僅占少數(shù)。

代碼評(píng)測(cè)集是否真的在評(píng)測(cè)所預(yù)期的「代碼能力」？

研究團(tuán)隊(duì)指出，在焦點(diǎn)研究的評(píng)測(cè)集中，10%的評(píng)測(cè)集沒(méi)有寫(xiě)明所評(píng)估的模型能力，或出現(xiàn)預(yù)期評(píng)估的能力與實(shí)際評(píng)估的能力不相符的例子。

例如，被廣泛使用的MBPP（Most-basic Python Problems）致力于評(píng)估評(píng)估模型最基礎(chǔ)的Python 編程能力（measure the ability of these models to synthesize short Python programs from natural language descriptions），然而，其中有一道題是實(shí)現(xiàn)一個(gè)狗的年齡與人類(lèi)年齡的對(duì)照轉(zhuǎn)換（如圖8）。

圖8 所評(píng)估能力與實(shí)際評(píng)估能力不符的例子

評(píng)測(cè)集「構(gòu)建」階段現(xiàn)狀——數(shù)據(jù)質(zhì)量的重災(zāi)區(qū)

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「構(gòu)建」階段提出了19條檢查項(xiàng)?！吨改稀分赋觯瑥臄?shù)據(jù)收集、清洗、降噪、去重，質(zhì)量審查（如人工篩查、代碼運(yùn)行）、數(shù)據(jù)污染緩解，到最后構(gòu)建完整輸入輸出對(duì)、匹配評(píng)估方案（oracle）等，都要盡量做到「有跡可循、有記錄可查、有質(zhì)量保障，構(gòu)建過(guò)程公開(kāi)、透明、可復(fù)現(xiàn)」等規(guī)范，保證代碼評(píng)測(cè)集構(gòu)建的可靠性。

綜述發(fā)現(xiàn)，現(xiàn)有的代碼評(píng)測(cè)集構(gòu)建過(guò)程「質(zhì)量堪憂」：

62%的代碼評(píng)測(cè)集沒(méi)有去重，或在文中沒(méi)有提及；
近80%的代碼評(píng)測(cè)集沒(méi)有處理數(shù)據(jù)泄漏，即模型可能學(xué)習(xí)過(guò)評(píng)測(cè)用到的代碼數(shù)據(jù)而導(dǎo)致評(píng)估結(jié)果被高估；
近七成評(píng)測(cè)集未經(jīng)任何質(zhì)量保障手段，如人工檢查、代碼編譯或執(zhí)行等；
在需要用測(cè)試用例判斷是否通過(guò)的代碼評(píng)測(cè)集中，僅8.7%評(píng)測(cè)集考慮了代碼覆蓋率。

構(gòu)建時(shí)的數(shù)據(jù)「質(zhì)量保障」，你會(huì)做嗎？

在構(gòu)建評(píng)測(cè)集時(shí)，確保數(shù)據(jù)質(zhì)量至關(guān)重要。

然而，研究團(tuán)隊(duì)展示的統(tǒng)計(jì)數(shù)據(jù)（如圖9）令人失望：67.9% 的評(píng)測(cè)集沒(méi)有采取任何數(shù)據(jù)質(zhì)量保證措施。

在做了質(zhì)量保障的代碼評(píng)測(cè)集中，人工檢查占多數(shù)（22.6%）；代碼執(zhí)行僅占2.2%；使用大模型進(jìn)行驗(yàn)證占1.5%；其他方法還包括：代碼倉(cāng)庫(kù)下載量、點(diǎn)贊數(shù)等。

圖9 數(shù)據(jù)質(zhì)量保障方式分布

研究團(tuán)隊(duì)在文中給出了一些反例，例如評(píng)測(cè)集中存在重復(fù)問(wèn)題（如圖10）、標(biāo)準(zhǔn)答案不正確（如圖11）、測(cè)試數(shù)據(jù)錯(cuò)誤（如圖12）等。

圖10 數(shù)據(jù)重復(fù)的例子（id為71的題目和id為141的題目重復(fù)）

圖11 標(biāo)準(zhǔn)答案不可運(yùn)行的例子（函數(shù)swap 未定義）

圖12 測(cè)試用例錯(cuò)誤的例子（第7、8行預(yù)期輸出應(yīng)為2）

評(píng)測(cè)集「評(píng)估」階段現(xiàn)狀——評(píng)估過(guò)程不透明，「復(fù)現(xiàn)」成困難

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「評(píng)估」階段提出了12條檢查項(xiàng)?！吨改稀分赋?，實(shí)驗(yàn)設(shè)計(jì)應(yīng)具有代表性和完整性；實(shí)驗(yàn)過(guò)程要記錄，以提高可復(fù)現(xiàn)性；評(píng)估過(guò)程中應(yīng)考慮偶然因素（如大模型所天然具有的隨機(jī)性）對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)的風(fēng)險(xiǎn)，并盡量避免。

研究團(tuán)隊(duì)先將代碼評(píng)測(cè)集中針對(duì)大模型的評(píng)測(cè)集篩選出來(lái)（67%=183/274），對(duì)這部分評(píng)測(cè)集的評(píng)估過(guò)程進(jìn)行統(tǒng)計(jì)。

經(jīng)過(guò)觀察，研究團(tuán)隊(duì)指出，在代碼評(píng)測(cè)集的評(píng)估階段，主要存在的問(wèn)題包括：評(píng)估過(guò)程不透明，評(píng)估存在隨機(jī)性，且可復(fù)現(xiàn)性堪憂：

34%的代碼評(píng)測(cè)集僅在不到三個(gè)大模型上進(jìn)行評(píng)估，有21個(gè)僅在一個(gè)大模型上進(jìn)行評(píng)估，實(shí)驗(yàn)結(jié)果的泛化性難以保證；
94.9%的評(píng)測(cè)集僅用零樣本（zero-shot）評(píng)測(cè)了一次，實(shí)驗(yàn)結(jié)果存在偶然性；
僅有34.5%的評(píng)測(cè)集在評(píng)估過(guò)程中有重復(fù)實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果存在隨機(jī)性；
超過(guò)半數(shù)的評(píng)測(cè)集不提供評(píng)估所用的提示詞（prompts）、上下文樣本等；僅有3.6%的評(píng)測(cè)集說(shuō)明了評(píng)測(cè)環(huán)境（如軟硬件設(shè)備），嚴(yán)重阻礙可復(fù)現(xiàn)性；

圖13 評(píng)估階段評(píng)測(cè)的大模型數(shù)量分布

評(píng)測(cè)集「分析」階段現(xiàn)狀——分析維度「格局打開(kāi)」

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「分析」階段提出了10條檢查項(xiàng)。《指南》指出，分析實(shí)驗(yàn)結(jié)果時(shí)應(yīng)盡可能考慮多角度、多維度。

借鑒經(jīng)典度量學(xué)理論中的評(píng)估指標(biāo)，綜合考慮代碼評(píng)測(cè)集的難度（評(píng)測(cè)集是否過(guò)于簡(jiǎn)單以至于模型表現(xiàn)過(guò)好，或過(guò)于困難以至于所有模型均一籌莫展）、區(qū)分度（評(píng)測(cè)集應(yīng)能區(qū)分不同模型的能力）、穩(wěn)定性等。還可以橫向?qū)Ρ韧?lèi)代碼評(píng)測(cè)集在其他編程語(yǔ)言、相關(guān)任務(wù)、上下游任務(wù)中的表現(xiàn)，分析其是否具有相關(guān)性。

最后，在實(shí)驗(yàn)分析展示階段，圖示盡量恰當(dāng)（如，用折線圖表示趨勢(shì)、柱狀圖表示數(shù)值對(duì)比、餅狀圖表示比例等），數(shù)字盡量清晰。

研究團(tuán)隊(duì)經(jīng)過(guò)對(duì)焦點(diǎn)案例的深入分析指出，30%代碼評(píng)測(cè)集在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)未能對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析，并提供合理解釋；存在實(shí)驗(yàn)結(jié)果圖示中數(shù)字不可分辨（如圖14）等情況。

圖14 實(shí)驗(yàn)結(jié)果圖示中數(shù)字不可分辨的例子

評(píng)測(cè)集「發(fā)布」階段現(xiàn)狀——「公開(kāi)透明」仍需努力

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「發(fā)布」階段提出了10條檢查項(xiàng)?！吨改稀分赋?，代碼評(píng)測(cè)集發(fā)布時(shí)，應(yīng)設(shè)置好許可證（license）以明確使用權(quán)限及方式；提供評(píng)測(cè)所需的完整素材，包括評(píng)測(cè)數(shù)據(jù)、評(píng)估方式（如測(cè)試用例）、運(yùn)行環(huán)境（如docker）、可運(yùn)行代碼或代碼實(shí)例等；準(zhǔn)備使用文檔，以提高用戶友好性；提供評(píng)測(cè)運(yùn)行時(shí)日志，以提高評(píng)測(cè)的可靠性與透明性，便于其他從業(yè)人員使用。

研究團(tuán)隊(duì)發(fā)現(xiàn)，近20%的代碼評(píng)測(cè)集沒(méi)有設(shè)置許可證，這使得代碼數(shù)據(jù)的權(quán)限不清晰；超過(guò)半數(shù)的評(píng)測(cè)集不提供可復(fù)現(xiàn)的提示詞，阻礙可復(fù)現(xiàn)性。

團(tuán)隊(duì)還指出，在公布的代碼評(píng)測(cè)集中要注意刪除隱私、敏感信息（如API密鑰、個(gè)人郵箱、密碼等），避免隱私泄漏（如圖15）。

圖15 包含隱私信息的例子（包含API key）

「問(wèn)卷調(diào)查」剖析，發(fā)現(xiàn)問(wèn)題——對(duì)「可復(fù)現(xiàn)」不重視

最后，研究團(tuán)隊(duì)進(jìn)行了問(wèn)卷調(diào)查，共發(fā)出50份問(wèn)卷，其中49份有效。

團(tuán)隊(duì)要求受訪者：（1）來(lái)自于AI或軟件工程（SE）領(lǐng)域，且（2）至少正式發(fā)表過(guò)一篇論文。其中，有近一半的受訪者曾參與構(gòu)建過(guò)代碼評(píng)測(cè)集。

圖16 受訪者的地區(qū)分布

首先，所有受訪者都同意「一份評(píng)測(cè)集構(gòu)建指南對(duì)代碼評(píng)測(cè)集的構(gòu)建能起到很大幫助」；《指南》中85%（47/55）的檢查項(xiàng)都得到超八成受訪者的認(rèn)同。

有趣的事，凡是曾經(jīng)參與過(guò)代碼評(píng)測(cè)集構(gòu)建的受訪者，對(duì)檢查項(xiàng)的認(rèn)可度都非常高，55條中有53條得到了所有參與過(guò)評(píng)測(cè)集構(gòu)建的受訪者的認(rèn)同。

然而，研究團(tuán)隊(duì)也從問(wèn)卷調(diào)查中，識(shí)別到從業(yè)者意識(shí)上的不足：

超過(guò)15% 的受訪者沒(méi)有意識(shí)到評(píng)測(cè)集中的數(shù)據(jù)應(yīng)具有代表性；
16% 的受訪者沒(méi)有意識(shí)到數(shù)據(jù)要降噪或去重；
超過(guò)4成的受訪者認(rèn)為記錄實(shí)驗(yàn)環(huán)境不重要，如硬件設(shè)備、型號(hào)，軟件版本，使用的模型框架或庫(kù)等。

受訪者意識(shí)上的「缺失」正好解釋了研究團(tuán)隊(duì)在綜述中的觀察——數(shù)據(jù)質(zhì)量堪憂、可復(fù)現(xiàn)性差、公開(kāi)透明性差。

最后，研究團(tuán)隊(duì)將綜述及指南整理成一份40頁(yè)的研究論文，并附上完整的《指南》，希望能喚起大模型從業(yè)者對(duì)代碼評(píng)測(cè)集質(zhì)量的注意，對(duì)評(píng)測(cè)集可靠性、可復(fù)現(xiàn)性的重視。

總結(jié)

該研究做出了如下貢獻(xiàn)：

開(kāi)創(chuàng)性：推出了首個(gè)全面的、可操作的的代碼評(píng)測(cè)集構(gòu)建指南，共包含55條檢測(cè)項(xiàng)，涵蓋代碼評(píng)測(cè)集發(fā)展的設(shè)計(jì)、構(gòu)建、評(píng)測(cè)、分析、發(fā)布等五個(gè)階段，為創(chuàng)造一個(gè)更可靠、更透明的研究環(huán)境邁出第一步；
實(shí)用性：《指南》可作為從業(yè)者在開(kāi)發(fā)代碼相關(guān)評(píng)測(cè)集之前/之間的指南，也可作為評(píng)估現(xiàn)有評(píng)測(cè)集的一份清單。為方便使用，研究團(tuán)隊(duì)在論文的最后四頁(yè)提供了《指南》的PDF版本；
通用性：《指南》中列出的大多數(shù)檢查項(xiàng)都可適應(yīng)于其他類(lèi)型的評(píng)測(cè)集，例如問(wèn)答、數(shù)學(xué)、推理和多模態(tài)評(píng)測(cè)集等；
影響力：綜述中指出的現(xiàn)狀不容樂(lè)觀，引起科研社區(qū)、相關(guān)從業(yè)者對(duì)評(píng)測(cè)集的質(zhì)量、可靠性、可復(fù)現(xiàn)性等問(wèn)題的重視，指出其嚴(yán)重性和普遍性；且由于評(píng)測(cè)集的繼承關(guān)系，《指南》或?qū)槲磥?lái)評(píng)測(cè)集的整體質(zhì)量做出貢獻(xiàn)。

作者介紹

指南的第一作者是香港科技大學(xué)的研究助理教授曹嘉倫，主要研究領(lǐng)域包括AI&SE、人工智能測(cè)試、形式化驗(yàn)證等。其余作者包括香港科技大學(xué)博士后王文軒，副教授王帥，教授張成志；香港中文大學(xué)本科生陳昱杰，凌子軒，博士生李樹(shù)青、王朝正，教授呂榮聰；香港中文大學(xué)（深圳）博士生余博西，助理教授賀品嘉；中山大學(xué)副教授劉名威，教授鄭子彬等。

責(zé)任編輯：張燕妮來(lái)源：新智元

代碼模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

中文字幕亚洲国产| 国产婷婷精品av在线| 亚洲午夜激情免费视频| 成人小视频在线看| 国产毛片在线| 精品一区二区三区香蕉蜜桃| 麻豆乱码国产一区二区三区| 人妻日韩欧美综合制服| 亚洲人免费短视频| 一区二区三区欧美亚洲| 免费av一区二区三区| 国产精品毛片久久久久久久av| 激情久久一区| 最新的欧美黄色| 熟妇人妻久久中文字幕| 色综合一区二区日本韩国亚洲 | 久久久不卡影院| 欧美成人亚洲成人| 91精品人妻一区二区| 2019中文亚洲字幕| 亚洲精品视频在线观看免费| 日韩中文字幕一区二区| 天天摸天天碰天天爽天天弄| 国产在线精品不卡| 日韩男女性生活视频| 久热这里只有精品在线| 999精品在线| 国产亚洲精品久久久久久777| 少妇熟女视频一区二区三区| 亚洲欧美专区| 欧美一a一片一级一片| 国产美女主播在线播放| 99自拍视频在线观看| 亚洲国产精品99久久久久久久久| 国产欧美一区二区视频 | 欧美成人乱码一区二区三区| 五月婷婷丁香色| 网友自拍亚洲| 欧美体内谢she精2性欧美| 久久久久福利视频| 免费av在线播放| 国产精品美女一区二区| 欧美精品成人一区二区在线观看| 亚洲av无码国产精品久久不卡| 久久激情综合网| 国产欧美va欧美va香蕉在线| 国产字幕在线观看| 免费日韩视频| 欧美一级电影免费在线观看| 国产无遮挡又黄又爽| 欧美日韩视频一区二区三区| 欧美成人激情在线| 国产性生活大片| 999精品色在线播放| 中文字幕亚洲一区二区三区五十路| 久久精品成人av| 亚洲国产国产| 亚洲精品一区中文字幕乱码| 精品国产一区二区三区久久狼5月精品国产一区二区三区久久久狼精品国产一区二区三区久久久 | 亚洲成人免费网站| 日本少妇xxxx软件| 果冻天美麻豆一区二区国产| 亚洲国产中文字幕在线观看| 激情综合激情五月| 老牛国内精品亚洲成av人片| 亚洲高清久久网| 日本69式三人交| 欧美绝顶高潮抽搐喷水合集| 亚洲国产三级网| 亚洲乱码国产乱码精品精大量| 国产精品国产亚洲精品| 欧美一级理论片| 潘金莲一级淫片aaaaa| 9l视频自拍蝌蚪9l视频成人| 亚洲第一中文字幕| 91久久免费视频| 93在线视频精品免费观看| 久久精彩免费视频| 美女毛片在线观看| 夜夜夜久久久| 国产精品丝袜一区二区三区| 国产情侣一区二区| 成人av网站在线| 欧美日韩综合久久| 免费在线你懂的| 亚洲制服丝袜一区| 国产午夜福利视频在线观看| 日产精品一区| 91精品国产综合久久香蕉麻豆| 丰满熟女人妻一区二区三区| 天天躁日日躁成人字幕aⅴ| 一区二区欧美日韩视频| 日韩黄色免费观看| 亚洲免费综合| 成人免费视频网址| 特黄视频在线观看| 国产精品福利一区二区| a级免费在线观看| 欧美日韩亚洲国产| 欧美大片免费久久精品三p| 右手影院亚洲欧美| 亚洲精品成人| 日韩免费观看av| www.国产欧美| 欧美激情一二三区| 欧美性潮喷xxxxx免费视频看| 色婷婷综合久久久中字幕精品久久| 欧美精品乱码久久久久久| 日本性生活一级片| 欧美独立站高清久久| 孩xxxx性bbbb欧美| 亚洲一级av毛片| 91小视频在线免费看| 91九色国产ts另类人妖| 午夜激情成人网| 精品国产一区久久| 日本黄色录像视频| 久久久久免费| 国产欧美日韩伦理| 新版中文在线官网| 欧美男生操女生| 亚洲精品视频久久久| 亚洲天堂久久| 亚洲综合av影视| 77导航福利在线| 一本色道综合亚洲| 久久久久亚洲AV成人无码国产| 仙踪林久久久久久久999| 国产精品a久久久久久| 日本人妻熟妇久久久久久| 亚洲丝袜自拍清纯另类| 久草福利视频在线| 日韩欧美黄色| 97视频com| 国产成人手机在线| 亚洲精品免费视频| 粉色视频免费看| 欧美日韩久久精品| 日本国产高清不卡| 亚洲欧美综合在线观看| 亚洲国产综合91精品麻豆| 国产亚洲色婷婷久久| 99精品综合| 国产精品永久在线| av在线播放网| 欧美色区777第一页| 国产精品理论在线| 秋霞成人午夜伦在线观看| 色就是色欧美| 精品肉辣文txt下载| 亚洲天堂av在线免费观看| 中文在线第一页| 久久综合色之久久综合| 日韩avxxx| 久久99蜜桃| 国产aaa精品| 成在在线免费视频| 欧美日韩www| 日韩精品一区二区亚洲av性色| 精品一区二区免费在线观看| 91麻豆天美传媒在线| 视频一区中文字幕精品| 欧美极品欧美精品欧美视频| 欧美一级做性受免费大片免费| 亚洲一区二区三区中文字幕| 国产精品亚洲一区二区无码| 亚洲狼人精品一区二区三区| 久久久久久国产精品免费免费| 成人免费网站视频| 伊人伊成久久人综合网站| 国产又粗又黄又爽视频| 亚洲欧美另类小说视频| 精品国产免费久久久久久婷婷| 影音先锋中文字幕一区| 蜜桃传媒视频第一区入口在线看| 国产另类xxxxhd高清| 久久精品国产成人| 亚洲精品久久久蜜桃动漫| 黄色一区二区三区| 国产黄色录像视频| 国产精品一区二区免费不卡 | 一区二区三区伦理| 亚洲国产精品久久| 日韩精品成人免费观看视频| 日韩一区日韩二区| 亚洲精品中文字幕在线播放| 久久亚洲欧美| 蜜臀av.com| 亚洲涩涩av| 91久久中文字幕| 免费在线小视频| 在线精品播放av| 亚洲精品一级片| 欧美主播一区二区三区| 波多野结衣亚洲一区二区| 成人国产精品免费观看动漫| 黄色aaa级片| 亚洲高清不卡| 一区二区免费在线视频| 欧美日韩导航| 成人国产精品一区二区| 乡村艳史在线观看| 久久国产视频网站| 激情小视频在线观看| 日韩丝袜情趣美女图片| 国产精品免费无遮挡无码永久视频| 亚洲激情成人在线| 国产精品久久免费观看| av中文字幕一区| 99精品999| 久久久一二三| 欧美精品卡一卡二| 在线中文一区| 日韩在线导航| 天天做夜夜做人人爱精品 | 精品国产无码一区二区| 欧美色偷偷大香| 婷婷激情五月网| 亚洲一区二区三区四区中文字幕| 成年人视频软件| 91麻豆免费观看| 国产原创剧情av| 国产一区二区三区美女| 亚洲成人福利在线观看| 国产一区导航| 免费看欧美黑人毛片| 一区二区蜜桃| 一区二区在线不卡| 精品99久久| 免费日韩电影在线观看| 国产精品网址| 国产伦精品一区二区三区照片91| 在线播放成人| 国产精品欧美日韩一区二区| 性感美女一区二区在线观看| 91黑丝高跟在线| 丁香花在线观看完整版电影| 美女久久久久久久久久久| 男人的天堂在线视频免费观看 | 麻豆影视在线播放| 一区二区三区在线免费观看| 中文字幕观看av| 中文字幕在线不卡视频| 精品女人久久久| 国产精品伦一区二区三级视频| 国产一级久久久久毛片精品| 2020国产精品自拍| 亚欧洲乱码视频| 久久午夜电影网| 丝袜美腿中文字幕| 久久久精品日韩欧美| 日本aaa视频| 久久久午夜精品理论片中文字幕| 国产午夜在线一区二区三区| 成人av在线资源| 天天插天天射天天干| 久久影院视频免费| 国产精品成人无码免费| 中文字幕欧美激情一区| 免费一级suv好看的国产网站| 国产精品电影院| 日本精品人妻无码77777| 亚洲一区二区三区在线看| 日韩网红少妇无码视频香港| 疯狂做受xxxx欧美肥白少妇 | h片在线观看下载| 97精品在线视频| 亚洲同志男男gay1069网站| 国产成人拍精品视频午夜网站| 欧美性片在线观看| 国产精品嫩草视频| 国产精品成人**免费视频| 国产精品成人观看视频免费| 日本成人7777| 午夜精品短视频| 一级毛片免费高清中文字幕久久网| 无码人妻精品一区二区蜜桃网站| 国产欧美大片| 亚洲色图在线视频| 国产福利不卡视频| 丰满少妇一区二区三区| 中文字幕乱码亚洲精品一区| 青青草原在线免费观看| 欧美日韩中文字幕在线视频| 一级成人免费视频| 欧美大片在线观看| 福利片在线看| 欧美人成在线视频| 老司机成人影院| 91在线无精精品一区二区| 欧美成a人免费观看久久| 亚洲欧美日韩精品综合在线观看| 自拍视频亚洲| 日韩精品一区二区三区不卡| 国产麻豆欧美日韩一区| 91成人破解版| 亚洲欧美日韩国产一区二区三区 | 国产伦视频一区二区三区| 欧美一级淫片| 全黄性性激高免费视频| 蜜桃视频第一区免费观看| 人妻激情偷乱频一区二区三区 | 欧美一区二区三区电影在线观看| 中文无码久久精品| 男人天堂成人在线| 成人免费三级在线| 一级性生活免费视频| 色婷婷av久久久久久久| 国产黄色片网站| 伊人av综合网| 在线男人天堂| 成人av资源| 亚洲成av人片乱码色午夜| 欧美激情成人网| 成人午夜在线播放| 看黄色录像一级片| 91激情在线视频| 图片区小说区区亚洲五月| 久久精品视频在线观看| 日韩一区二区三区免费视频| 国产一区二区视频在线免费观看 | 青青艹视频在线| 国产精品一级二级三级| 一本在线免费视频| 日本韩国一区二区三区视频| 性xxxx视频| 韩国三级电影久久久久久| 激情综合婷婷| 一级二级三级欧美| 免费在线观看视频一区| www.色天使| 欧美性xxxxx极品娇小| 日韩一级中文字幕| 久久全球大尺度高清视频| 精品一区视频| 欧美美女黄色网| 国产麻豆精品久久一二三| 日本黄色录像视频| 欧美日韩精品欧美日韩精品一 | 欧美高跟鞋交xxxxxhd| 祥仔av免费一区二区三区四区| 色姑娘综合av| 蜜臀av性久久久久蜜臀aⅴ四虎| 一区二区三区四区免费| 日韩欧美国产成人| 欧美日韩国产综合视频| 国产盗摄xxxx视频xxx69| 国产精品密蕾丝视频下载| 日韩欧美高清| 久久精品亚洲麻豆av一区二区| 黄色一级视频免费看| 亚洲午夜精品视频| 国产在视频一区二区三区吞精| 亚洲欧美日韩精品久久久| 精品一区二区三区在线观看国产| 99精品中文字幕| 日韩一区二区影院| 欧美24videosex性欧美| 国产久一道中文一区| 亚洲福利一区| 成人乱码一区二区三区av| 精品视频在线看| 2024最新电影免费在线观看| 国产91色在线|亚洲| aa国产精品| 色欲狠狠躁天天躁无码中文字幕| 欧美艳星brazzers| 国产丝袜在线| 国产一区二区三区高清| 欧美综合国产| 色偷偷www8888| 亚洲国产精彩中文乱码av| 625成人欧美午夜电影| 日本一区二区在线| 久久国产精品一区二区| 麻豆91精品91久久久| 日韩经典一区二区三区| 国产一区影院| 男人添女人荫蒂免费视频| 久久综合色综合88| 91在线视频国产| 久久久久久av| 精品国产午夜| wwwxxxx在线观看| 精品久久久久久久久久久久| 福利在线午夜| 国产高清精品一区二区三区| 久久一区中文字幕| 久艹视频在线观看| 国产一区二区三区丝袜| 亚洲网一区二区三区| 人妻丰满熟妇av无码区app| 亚洲男人天堂一区| 国模吧精品人体gogo| 亚洲iv一区二区三区| 每日更新成人在线视频| 欧美激情图片小说| 亚洲一区www| 超碰在线成人| 国产精品久久久久久9999|