精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Codeforces難題不夠刷?謝賽寧等造了個AI出題機,能生成原創編程題

人工智能 新聞
隨著大型語言模型(LLM)朝著通用能力邁進,并以通用人工智能(AGI)為最終目標,測試其生成問題的能力也正變得越來越重要。

Rich Sutton 曾說過:「AI 只能在可以自我驗證的范圍內創造和維持知識。」愛因斯坦與英費爾德在合著的《物理學的進化》中也寫道:「提出一個問題往往比解決問題更重要,后者或許僅僅是數學或實驗技巧的問題。而提出新的問題、新的可能性,從新的角度審視舊的問題,則需要創造性的想象力,并標志著科學的真正進步。」

隨著大型語言模型(LLM)朝著通用能力邁進,并以通用人工智能(AGI)為最終目標,測試其生成問題的能力也正變得越來越重要。尤其是在將 LLM 應用于高級編程任務時,因為未來 LLM 編程能力的發展和經濟整合將需要大量的驗證工作。

首先,為編程競賽出題需要比解決問題更深刻的算法理解。

例如,基礎問題可能會被歸結為可識別的模板,用簡單的技巧就能解決;許多標準的編程問題也常常允許提交部分正確或樣板化的解決方案,這可能會掩蓋錯誤的推理過程。而競賽編程問題有著嚴格的標準,旨在評估對底層算法設計原則、數據結構和復雜性權衡的更深層次理解。驗證數量龐大的可能解法,并充分覆蓋各種捷徑或邊界情況是極具挑戰性的,但這對于競賽編程問題而言是必需的。因此,出題不僅包含了解決問題的所有挑戰,甚至還超越了它。

其次,更好的出題能力將帶來更嚴謹的競賽編程基準測試。由于像 Codeforces 和 AtCoder 這類頂級平臺的官方測試數據并不公開,研究人員目前依賴于合成的數據集,如 CodeContests+、TACO 和 HardTests。

然而,分析表明,現有的測試數據集可能同時存在高誤報率(FPR)和高漏報率(FNR)。例如,一個時間復雜度不佳的貪心算法可能會通過一系列小規模的隨機測試,但卻會在旨在暴露其缺陷的對抗性構造案例面前失敗。這一關鍵弱點造成了一個扭曲的評估環境,獎勵了那些能發現捷徑的模型。

第三,成功地提出新穎的挑戰可能為模型的自我完善和 AGI 鋪平道路,同時也能驗證模型在復雜軟件棧中的部署情況。

那么,我們能否像訓練 AI 解決問題一樣,訓練它提出高質量、甚至是人類想不到的新問題呢?最近,LiveCodeBench Pro 團隊給出了一個響亮的回答:AutoCode。這是一個系統性的框架,可在一個閉環、多角色的系統中使用 LLM,以自動化競賽編程問題創建和評估的整個生命周期。

  • 論文標題:AutoCode: LLMs as Problem Setters for Competitive Programming
  • 論文地址:https://arxiv.org/abs/2510.12803v1
  • 項目頁面:https://livecodebenchpro.com/projects/autocode/overview

值得注意的是,該團隊包含來自十個機構的研究者,共有 5 位共同一作。此外,作者名單中還包括謝賽寧等著名研究者。

整體而言,這項研究做出了兩大貢獻:

  • 一個增強的驗證器-生成器-檢查器(Validator-Generator-Checker)框架,它在測試用例生成方面實現了最先進的可靠性。
  • 一個用于生成高質量新問題的創新過程。該過程是從一個「種子問題」開始,以在一個有前景的方向上啟發 LLM。

測試用例生成

該團隊的測試用例生成過程是一個結構化的框架,旨在實現最大程度的嚴謹性和覆蓋率。

如圖 1 所示,該框架始于驗證器(Validator),它是整個系統的基石。其功能是確保任何給定的輸入都嚴格遵守問題描述中指定的所有約束。一個驗證器對于最小化漏報率(FNR)至關重要,因為它能防止正確的程序在格式錯誤的數據上失敗。

接下來,生成器采用多樣化的策略來創建廣泛的輸入,旨在減少誤報率(FPR),即錯誤或低效的程序被錯誤地判定為正確。生成器產生的任何無效案例都會被驗證器過濾掉,從而確保該團隊獲得一套高質量的輸入。

最后,為了評估參賽者的輸出,檢查器會將其與參考解法的輸出進行比較。

而對于交互式任務,交互器(Interactor)會與參賽者的程序進行多輪對話以給出最終判決。

由于該團隊的一個突出目標是為 RLVR(Reinforcement Learning from Verified Results)提供高質量的驗證器,該團隊特別關注降低誤報率(FPR)。該團隊將測試用例(test cases)(輸入 - 答案對)與測試數據(test data)區分開來,后者還包括評估所需的檢查器和交互器程序。

基準測試:測試用例的穩健性

為了嚴格評估該團隊的測試用例生成框架,他們建立了兩個不同的基準。

主要基準包含 7538 個問題,來源于著名現有數據集的交集:CodeContests+、CodeContests、HardTests 和 TACO。

值得注意的是,這個大規模集合不包含交互式問題,并且由于這些數據集固有的篩選,其測試數據生成的平均難度略低于典型的 Codeforces 比賽。

為了解決這個問題并在更具挑戰性的真實條件下測試新系統,該團隊創建了第二個基準,包含了 720 個來自 Codeforces 的近期、有評分的比賽問題。這個集合是完全未經過濾的,包括了那些以難以處理著稱的交互式問題和需要復雜、結構化測試數據的問題。該團隊表示,無法在這個較新的基準上評估先前的方法,因為它們的數據生成代碼庫并未公開。

該團隊的評估基于三個關鍵指標:

  • 一致性(Consistency)衡量該團隊的測試得出的判決與官方判決之間一致的總體百分比。該團隊進一步將不一致的情況分解為兩個關鍵的錯誤率。
  • 誤報率(FPR)定義為被該團隊的生成測試錯誤地接受的官方不正確解法的比例。
  • 漏報率(FNR)是被該團隊的測試錯誤地拒絕的官方正確解法的比例。

與其他基準的比較

該團隊在包含 7538 個問題的基準上,將 AutoCode 與四個領先的基準進行了評估。

如表 1 所示,該團隊的框架與官方判決的一致性達到了 91.1%。這標志著一個重大的飛躍,因為之前的方法的一致性未能超過 81.0%。至關重要的是,AutoCode 將誤報率(FPR)大幅降低至僅 3.7%,漏報率(FNR)降低至 14.1%,這代表著這兩項指標相較于當前最先進技術均減少了約 50%。

圖 2 展示了錯誤判決的分布,顯示了大多數問題的判決與地面真實判決是一致的。

為了進一步測試該系統的穩健性,該團隊還整理了一個更具挑戰性的基準,包含了 720 個近期的、未經過濾的 Codeforces 問題,包括復雜的交互式任務。

如表 2 所示,AutoCode 保持了其卓越的性能,實現了 98.7% 的一致性。這一結果驗證了該團隊的方法在現代、困難問題上的有效性,而先前的方法無法在這些問題上進行評估。

該團隊也通過消融實驗驗證了方法的有效性。

在建立起如此強大的測試用例生成能力之后,研究人員便將目光投向了更具創造性的任務:直接生成全新的高質量問題。

問題生成

該團隊新提出的問題生成框架建立在前述的穩健測試生成框架(如圖 1 所示)之上,但引入了一個關鍵的雙重驗證協議,以確保在沒有人工干預的情況下實現正確性。

每個生成的問題都由頂尖的人類競賽程序員根據一個 6 級量表進行評分。該團隊咨詢 8 位人類專家出題人,他們都表示在創作新問題時,常常會基于某個特定的現有問題。通過對這樣一個「種子問題」的某些條件進行添加、刪除或修改,他們可以創造出新的、通常更困難的、需要新穎洞察力的問題。

受他們見解的啟發,該團隊的方法是首先隨機選擇一個 Codeforces 問題(難度評分低于 2200)作為「種子問題」。LLM 的任務是通過增、刪、改這個種子問題的某些條件來生成一個新問題,并同時提供一個高效的參考解法(std.cpp)和一個暴力解法(brute.cpp)。

brute.cpp 通常時間復雜度更高,但基本不可能出錯,因此該團隊利用它來壓力測試問題的有效性。使用該團隊增強的測試用例生成技術,該團隊構建了一套全面的測試數據,完全覆蓋了小規模案例。然后 brute.cpp 和 std.cpp 都在這個數據集上運行。只有當對于每一個測試用例,兩個程序的輸出(其中暴力解法可能因超時而合法地無法完成)都被檢查器成對地驗證為一致的答案和輸出時,一個問題才被認為是正確的。

這種設計的巧妙之處在于,它利用了「雖然慢但幾乎絕不會錯」的暴力解法,為「雖然快但可能存在邏輯漏洞」的高效解法提供了一個無需人工干預的、絕對可靠的「事實標準」,從而實現了自動化的正確性校驗。

這個雙重驗證協議(其中 brute.cpp 作為初始的地面真實,并且經過驗證的參考解法還要再經過一個完整的測試生成周期)成功地過濾掉了 27% 的易錯問題,將 LLM 提供的參考解法的正確率從 86% 提高到了 94%。

經過篩選后,超過 80% 的問題被標注為具有足夠的質量,可以作為模型的訓練數據,并且 23% 的問題涉及新穎或創造性的設計。該團隊在圖 3 中展示了詳細的評分標準和分數分布。

接下來,該團隊總結了關于 LLM 在問題生成方面表現的幾個關鍵發現。

  • 發現 1:LLM 能夠生成它們自己無法解決的可解問題。
  • 發現 2:LLM 傾向于通過組合現有問題框架和強調知識與實現來創造新問題。也就是說,LLM 更擅長「知識重組」,而非原創創新。
  • 發現 3:新問題的難度增幅往往大于種子問題,且當相應種子問題難度適中時,生成問題的質量最高。
  • 發現 4:人類專家和 LLM 在對問題質量和新穎性的判斷上幾乎沒有相關性。
  • 發現 5:生成問題的難度和相較于種子問題的難度增益,是比 LLM 自我評估更好的問題質量指標。

總而言之,這些發現為我們描繪了當前 LLM 在創造性任務上的清晰畫像:LLM 是強大的「知識重組者」,而非一個真正的「原創思想家」。

總結

在這項工作中,LiveCodeBench Pro 團隊提出了 AutoCode,一個利用 LLM 作為競賽編程出題人的閉環多角色框架。

通過將驗證器-生成器-檢查器(及交互器)框架與雙重驗證協議相結合,AutoCode 在測試用例生成方面實現了最先進的可靠性,并超越了先前的方法,能夠生成全新的、達到競賽質量的問題。

在超過 7,500 個問題和近期的 Codeforces 基準上的大量實驗表明,AutoCode 大大減少了誤報和漏報,與官方判決的一致性超過 98%,并成功地產生了經專家程序員驗證的全新問題。除了測試生成,該團隊的分析還揭示了 LLM 在創造性問題創作方面的優勢和劣勢。

雖然模型擅長算法知識的重組,但它們難以引入真正新穎的推理范式或無懈可擊的樣例設計。

盡管如此,該團隊表明,難度和難度增益可以作為問題質量的可靠智能體信號,為實現自我博弈提供了一條可擴展的路徑。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-09 15:00:24

AIprompt工具

2024-12-23 13:50:00

數據訓練模型

2024-12-23 07:15:00

多模態大模型MLLM人工智能

2025-04-08 09:10:00

模型訓練AI

2025-07-08 09:18:12

AI模型論文

2024-03-04 07:00:00

地圖虛擬智能

2025-04-03 11:11:50

2025-04-14 09:38:00

2022-12-23 10:15:44

模型AI

2025-06-16 08:53:00

2025-11-10 17:11:13

AI李飛飛模型

2025-11-17 08:40:00

3DAI視覺

2025-10-23 16:56:40

AI模型訓練

2024-10-14 13:20:00

2025-04-21 16:32:29

視覺模型AI

2025-08-06 09:29:30

2025-01-20 08:35:00

模型生成AI

2025-07-04 08:52:00

3D圖像生成AI

2009-07-23 11:39:42

網易有道有道難題

2025-06-13 08:53:00

點贊
收藏

51CTO技術棧公眾號

国产精品一二三区在线观看| 亚洲精品一区二| 日韩欧美性视频| 欧美欧美黄在线二区| 欧美日韩在线直播| 国产乱子伦精品视频| 少妇性bbb搡bbb爽爽爽欧美| 美国一区二区三区在线播放| 欧美国产日韩在线| 国产成人无码精品久久二区三| 婷婷丁香久久| 精品久久久久久亚洲国产300| 亚洲欧洲精品一区二区| 欧美一级淫片aaaaaa| 日韩电影在线一区二区三区| 久久99亚洲热视| 香蕉视频黄色在线观看| 综合久草视频| 色哟哟精品一区| 日本福利视频网站| 在线免费看黄| 2024国产精品| 国产精品毛片一区视频| 波多野结衣电车| 影音先锋亚洲精品| 俺去亚洲欧洲欧美日韩| free性中国hd国语露脸| 日韩在线观看一区二区三区| 欧美亚洲禁片免费| 欧美日韩在线一| 九色91在线| 亚洲视频 欧洲视频| 亚洲一二三区在线| 黄色视屏网站在线免费观看| 国产成人精品亚洲午夜麻豆| 国产欧美在线观看| 久久影视中文字幕| 久久激情网站| 欧美一区在线直播| 国产区在线观看视频| 一区二区三区四区在线观看国产日韩| 伊人久久精品视频| 欧美日韩高清丝袜| 自拍偷拍精品| 亚洲欧美激情精品一区二区| 亚洲国产综合视频| 91午夜精品| 精品久久一二三区| 精品人妻人人做人人爽夜夜爽| 一区在线不卡| 欧美丰满高潮xxxx喷水动漫| 天天插天天操天天射| 久久91导航| 在线视频国内自拍亚洲视频| 欧美在线观看视频网站| 成人软件在线观看| 在线亚洲免费视频| 国产主播中文字幕| 欧美亚洲福利| 欧美日韩情趣电影| 欧美性猛交xxxx乱大交91| 9999精品视频| 欧美一区二区久久| 久久精品亚洲国产奇米99| 亚洲七七久久综合桃花剧情介绍| 妺妺窝人体色777777| 欧美精品videos| 亚洲国产乱码最新视频| 国产精品mm| 免费日韩电影| 成人影院入口| 久久久久久黄色| 久久成人资源| 牛牛影视精品影视| 欧美激情中文字幕| 亚洲一区二区四区| 91小视频xxxx网站在线| 曰韩精品一区二区| 少妇高潮毛片色欲ava片| 老牛影视精品| 欧美性极品少妇| 亚洲精品在线网址| 青青草这里只有精品| 亚洲人成在线观看| 亚洲精品电影院| 欧美视频在线观看| 热久久这里只有| 日本成人xxx| 视频一区二区在线播放| 日本一区二区三区在线不卡| 国产一二三四五| 136福利第一导航国产在线| 粉嫩av一区二区三区免费野| 无码内射中文字幕岛国片| 香蕉久久一区| 亚洲精品国精品久久99热| 波多野结衣一二三四区| 欧美日本不卡| 国产成人免费av| 亚洲第一大网站| 久久午夜羞羞影院免费观看| 中文字幕一区二区三区四区五区人 | 亚洲xxxxx性| 免费在线一级视频| 亚洲欧美另类小说视频| 玩弄中年熟妇正在播放| 99视频这里有精品| 日韩精品视频免费| 在线免费日韩av| 秋霞午夜鲁丝一区二区老狼| 99精品国产高清在线观看| 久久免费看视频| 亚洲影院在线观看| 中文字幕 日韩 欧美| 日韩欧美黄色| 久久久久久久久国产| 中文字幕无线码一区| 成人h动漫精品一区二区| 亚洲一卡二卡三卡| 三上悠亚国产精品一区二区三区| 欧美tk—视频vk| 波多野结衣喷潮| 奇米在线7777在线精品| 久久av一区二区三区亚洲| mm1313亚洲国产精品美女| 欧美亚洲禁片免费| 成都免费高清电影| 99精品视频免费| 国产精品对白一区二区三区| 蜜桃av在线免费观看| 91福利国产精品| 毛片网站免费观看| 99国产精品私拍| 成人av片网址| 182tv在线播放| 91精品婷婷国产综合久久| 黄色av片三级三级三级免费看| 裸体一区二区| 欧美激情论坛| 国产高清不卡| 亚洲欧美国产精品久久久久久久| 日韩特黄一级片| 成人中文字幕合集| 免费在线黄网站| 日韩在线亚洲| 久久久久久久久久婷婷| 亚洲精品一区二区口爆| 伊人色综合久久天天人手人婷| 999久久久精品视频| 久久裸体网站| 91精品美女在线| av免费在线网站| 欧美成人一区二区三区在线观看| 青青操国产视频| 成a人片国产精品| 国产v片免费观看| 青青视频一区二区| 日本成人免费在线| 国产免费视频在线| 欧美视频完全免费看| 五月婷婷婷婷婷| 国模一区二区三区白浆| 佐佐木明希av| 57pao国产一区二区| 高清欧美性猛交| 视频在线不卡| 欧美视频在线不卡| 黄色录像一级片| 国产不卡视频一区二区三区| 日韩伦理在线免费观看| 日韩伦理一区二区三区| 国产精品h片在线播放| 91视频在线观看| 欧美一区二区三区播放老司机| 精品无码人妻一区二区三区品| 成人av免费在线观看| 北条麻妃在线观看| 成人精品电影| 5g影院天天爽成人免费下载| 极品在线视频| 在线视频中文亚洲| 国产wwwwwww| 欧美日韩中文字幕| 亚洲欧美精品久久| 成人三级伦理片| 国产理论在线播放| 午夜日韩av| 欧美h视频在线| 国产在线一区不卡| 777精品视频| 欧美另类极品| 日韩专区一卡二卡| 欧美精选一区二区三区| 99成人在线视频| 激情文学一区| 国产在线精品一区在线观看麻豆| 不卡av在线免费观看| 成人免费在线观看入口| 色婷婷激情一区二区三区| 欧美日韩国产成人在线免费| 国产日韩精品在线播放| 日本天堂在线观看| 亚洲福利视频专区| 这里只有精品999| 亚洲一区二区精品视频| 成人无码av片在线观看| 粉嫩在线一区二区三区视频| 手机在线免费观看毛片| 亚洲乱亚洲高清| 亚洲一区二区高清视频| 欧美日韩一本| 91一区二区三区| 激情小说亚洲| 日本亚洲欧美成人| heyzo在线欧美播放| 日韩在线视频免费观看| 天堂91在线| 日韩一区二区影院| 中文字幕永久在线视频| 黑人与娇小精品av专区| 少妇久久久久久被弄高潮| 欧美韩日一区二区三区| 久久久无码人妻精品一区| 国产一级精品在线| 91看片在线免费观看| 国产精品婷婷| 日韩av中文字幕第一页| 欧美91福利在线观看| 亚洲精品二区| 国精一区二区| 快播亚洲色图| 美女主播精品视频一二三四| 亚洲一区免费网站| 国产精品一级在线观看| 国产免费一区二区三区在线观看 | 久久久久久网站| av在线网址观看| 久久久999精品| 男人影院在线观看| www.亚洲免费视频| 欧美三级理伦电影| 久久精品夜夜夜夜夜久久| 久草在线网址| 亚洲一级一级97网| 国产日产精品久久久久久婷婷| 亚洲男人av电影| 国产午夜在线视频| 中文国产成人精品久久一| av免费在线一区二区三区| 国产一区二区三区久久精品| 大胆av不用播放器在线播放 | 成人黄色av网址| 国产91aaa| 米奇精品关键词| 久久精品国产精品国产精品污| 先锋影音国产精品| 秋霞毛片久久久久久久久| 五月天丁香视频| 2020国产在线| 亚洲欧美综合国产精品一区| 国产欧美一区二区在线观看| 亚洲最新在线视频| 亚欧精品在线| 精品少妇一区二区三区密爱| 69av亚洲| 伊人成年综合电影网| 亚洲欧美日韩国产另类专区| 国产精品老女人视频| 日韩特级毛片| 97成人精品区在线播放| 超碰国产一区| 国产精品久久久久久久久久新婚| 欧美成人免费全部网站| 97视频中文字幕| 欧美亚洲tv| 偷拍视频一区二区| 欧美福利在线| 日韩在线视频在线观看| 蜜桃91丨九色丨蝌蚪91桃色| 天堂在线精品视频| 99在线精品免费| 久久久久久成人网| 亚洲已满18点击进入久久| 国产熟妇一区二区三区四区| 欧美日韩中文另类| 亚洲免费黄色片| 欧美激情一区不卡| 免费高清在线观看免费| 美女一区二区久久| 农村末发育av片一区二区| av在线这里只有精品| 亚洲女优在线观看| 一区二区三区在线影院| 亚洲午夜18毛片在线看| 欧美日本一区二区在线观看| 刘亦菲毛片一区二区三区| 在线播放日韩专区| free性欧美| 国产美女精彩久久| 美女呻吟一区| 日本一区二区三区四区五区六区| 国产精品一二| 秋霞午夜鲁丝一区二区| 久久九九99视频| 久热这里只有精品在线| 欧美亚洲图片小说| 性xxxx视频| 欧美精品在线免费观看| 日韩制服一区| 久久伦理网站| 亚洲婷婷免费| 91极品尤物在线播放国产| 99久久久久免费精品国产| 欧美成人777| 在线观看视频一区| 亚洲欧美综合在线观看| 欧美黑人xxxx| 久久久久久爱| 自拍亚洲欧美老师丝袜| 日韩福利视频网| 亚洲av片不卡无码久久| 一区二区成人在线| 国产精品久久久午夜夜伦鲁鲁| 亚洲人成电影在线| 婷婷电影在线观看| 国产精品美女诱惑| 国模吧视频一区| 欧美国产在线一区| 成人欧美一区二区三区白人 | a中文在线播放| 欧美诱惑福利视频| 日韩美女毛片| 日本韩国欧美在线观看| 成人蜜臀av电影| 久久国产在线视频| 日韩精品一区二| 日本高清在线观看| 97欧洲一区二区精品免费| 亚洲精品tv久久久久久久久久| 最新中文字幕2018| 国产精品久久久久久久久搜平片| 啪啪小视频网站| 伊人亚洲福利一区二区三区| 色香欲www7777综合网| 日本a级片久久久| 久久久久久一区二区| 亚洲精品国产91| 在线观看av一区二区| av电影在线观看| 91网站在线看| 欧美久色视频| 亚洲成a人无码| 精品欧美激情精品一区| 欧美日韩国产综合视频| 国产91网红主播在线观看| 国产精品羞羞答答在线观看| 欧美国产日韩在线播放| 国产精品网站在线播放| 91精品国产乱码久久久| 欧美成在线观看| 91精品日本| 国产青青在线视频| 国产日韩欧美麻豆| 国产又粗又长视频| 欧美激情精品久久久久久大尺度| 久久久久久久久久久久久久久久久久久久| 毛片在线播放视频| 国产日韩v精品一区二区| 中文字幕久久久久| 美女黄色丝袜一区| 欧美人成在线观看ccc36| 欧洲av无码放荡人妇网站| 国产精品毛片久久久久久| 精品国产无码AV| 韩国美女主播一区| 国语产色综合| 国产免费中文字幕| 亚洲一区二区三区小说| 你懂的视频在线| 91精品综合视频| 日韩午夜一区| 综合 欧美 亚洲日本| 日韩女优电影在线观看| 国产高清不卡| 777久久精品一区二区三区无码| aaa国产一区| 伊人网综合在线| 97久久国产精品| 日韩av片子| 一本加勒比波多野结衣| 欧美三日本三级三级在线播放| 中文字幕资源网在线观看| 六十路精品视频| 国产精品香蕉一区二区三区| 奇米影视第四色777| 色视频www在线播放国产成人| 99久久婷婷国产综合精品青牛牛| 国产免费视频传媒| 亚洲高清视频在线| 69av在线|