精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

謝賽寧團隊新基準讓LLM集體自閉,DeepSeek R1、Gemini 2.5 Pro都是零分

人工智能 新聞
當前 LLM 與人類大師級水平之間仍存在顯著差距。

近年來,LLMs(如 GPT-4、Claude、Gemini 等)在代碼生成領域取得了顯著進展。它們不僅在經典編程基準(如 HumanEval)中表現出色,甚至在某些測試中超越了人類平均水平。這促使許多研究者開始宣稱:LLM 已經勝過人類程序員,尤其是在競賽編程領域。 

更進一步的,在結合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平臺上獲得了超過 2700 的 Elo 評分 —— 這個分數已躋身參賽者前 0.1%。 

然而,這些簡單的量化評估,真的能體現模型解決復雜問題的能力嗎?我們不妨先問幾個問題:LLMs 真的具備與頂級人類選手相當的推理能力嗎?模型的高分究竟有多少來自真實的推理能力,又有多少是依賴外部工具的結果?

為了解答上述問題,來自紐約大學、普林斯頓大學等 8 家機構的研究者提出了 LiveCodeBench Pro,這是一個極具挑戰性的競技編程基準測試。

值得一提的是,這項研究有多位參加過國際算法競賽。例如,作者之一、紐約大學本科生 Zihan Zheng 曾代表學校參加 ICPC 世界總決賽。

LiveCodeBench Pro 收錄了 584 道截至 2025 年 4 月 25 日的高質量題目,這些題目均來自 Codeforces 、ICPC 系列賽和 IOI 系列賽等頂級賽事。并且這些問題會不斷更新以降低可能的數據污染。

此外,所有題目均由奧賽獎牌選手進行算法類別標注,并對模型生成的失敗提交逐行分析。 

image.png

  • 論文標題:LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? 
  • 論文地址:https://arxiv.org/pdf/2506.11928
  • 項目主頁:https://livecodebenchpro.com/
  • GitHub:https://github.com/GavinZhengOI/LiveCodeBench-Pro

本文在 LiveCodeBench Pro 上評估了一系列前沿大模型,包括 Gemini 2.5 Pro、o4-mini-high 和 DeepSeek R1 等。

image.png

基于這套數據和評測框架,本文發現當前前沿模型依然存在顯著不足:在沒有外部工具支持的情況下,表現最好的模型在中等難度題上的 pass@1 僅為 53%,在高難度題上則完全無法通過(0%),而這些正是人類專家仍能穩定發揮的領域。

image.png

LiveCodeBench Pro 排行榜

image.png

此外,本文還發現,LLMs 在以實現(implementation-heavy)為主的問題上表現良好,但在處理復雜的算法推理和邊界情況分析時表現欠佳,甚至常常生成自信而錯誤的解釋。模型的高分更多是依賴于輔助工具的加持,而非真正的推理能力。

LiveCodeBench Pro 的出現揭示了當前 LLM 與人類大師級水平之間仍存在顯著差距。

分析與討論

在不同算法范式上的表現

發現 1. 大語言模型在知識密集型和邏輯密集型問題上表現更佳,而在觀察密集型問題或分類討論(case work)上表現較差。

image.png

文中展示了 6 個模型在各類編程問題中的表現。研究發現,人類在不同問題標簽上的表現更為一致,而模型的評分則因標簽不同而顯示出更大的差異。主要發現總結如下: 

知識密集型問題是大語言模型的舒適區。 帶有如線段樹、圖論、樹和數據結構等標簽的問題,在大多數模型上都表現出很高的性能。這些問題通常可以通過拼接眾所周知的模板(例如,樹狀數組、迪杰斯特拉算法、歐拉路徑)來解決。這正是大語言模型的優勢所在,因為所需的模式會以字面形式出現在其訓練數據中,并且生成語法正確的模板對于大語言模型來說比對人類容易得多。 

邏輯密集型問題也取得了同樣好的結果。 大語言模型在邏輯密集型類別中也表現出色,例如組合數學、數學、動態規劃和二分搜索。這些類別需要更有模式的思維方式(例如,在組合數學中應用組合恒等式,在動態規劃中構建狀態空間并推導轉移函數),并且可以從記憶化的腳手架代碼中受益。 

在觀察密集型問題上表現不佳。 對于博弈論、特定問題特定分析(ad-hoc)、貪心算法和構造性問題,大多數模型的評分驟降至 1500 以下,明顯低于其在知識密集型和邏輯密集型類別中的表現。解決這些問題通常取決于發現新穎的見解,而這是無法僅靠記憶化的代碼片段來獲得的。 

大語言模型在分類討論上遇到困難。 有趣的是,所有模型都在分類討論上表現不佳。除了 o4-mini-high 之外,每個模型的評分都低于 1500 分,即便是 o4-mini-high,其表現在此類別中也遠遜于其他問題類別。人工檢查顯示,無法識別和處理邊界情況是所有模型的一個突出失敗模式。 

交互式問題暴露了模型的顯著弱點。 在交互式問題上,o4-mini-high 的評分驟降至 1500 左右,其他模型也表現掙扎。論文附錄中討論了這種糟糕表現背后的可能原因,并指出了 o3-mini-high 在解決交互式問題時出現的異常行為。 

失敗原因診斷及與人類的比較

發現 2. o3-mini 在算法邏輯錯誤和錯誤觀察方面比人類多得多,但在實現邏輯錯誤方面則少得多。

研究人員專門使用可讀性最佳的模型 o3-mini 進行標注和深入分析,并在圖 3 的樹狀圖中展示了結果。

image.png

概念性錯誤是模型失敗的主要原因。「思路錯誤」分支內最大的紅色區塊顯示,在 125 個標注問題中,o3-mini 比人類參賽者多犯了 34 個算法邏輯錯誤。這些是真正的概念性失誤,而非表面的程序錯誤。 

實現是模型的強項。 與底層編碼相關的指標通常對 o3-mini 有利。例如,在 125 個標注問題中,o3-mini 比人類少犯了 25 個實現邏輯錯誤。值得注意的是,所有觀察到的初始化錯誤和輸入輸出格式錯誤都出現在人類提交的代碼中。評測結果細分也證實了這一點:o3-mini 幾乎沒有出現「運行時錯誤」,突顯了其在實現層面相對不易出錯。 

一個顯著的例外 —— 空閑時間超限。「評測結果」下的一個深紅色矩形顯示「空閑時間超限」的判罰激增。這源于 o3-mini 在交互式問題上的奇特行為,其大多數提交都被判為「空閑時間超限」。

在示例輸入上失敗。 樹狀圖突出顯示,在「示例失敗」類別中,o3-mini 的實例數多出了 45 個,這些情況下解決方案能夠編譯,但在問題的示例輸入上就已經失敗。與人類不同,o3-mini 無法在提交前在本地編譯或運行示例輸入。擁有終端和工具調用能力(例如 o3 和 o4-mini-high)的模型,預計會少犯很多這類容易發現的錯誤。 

總而言之,該分析表明,大語言模型的代碼在語法上通常更可靠,但在構建正確算法或從問題中提取正確觀察所需的高層次推理方面存在困難。雖然正式標注僅涵蓋了 o3-mini 的提交,但初步的人工檢查表明,大多數現有的大語言模型都存在相同的錯誤模式。 

多次嘗試(Pass@k)對模型性能的影響

發現 3. 增加嘗試次數(pass@k)能顯著提升模型性能,但在高難度問題上仍然會失敗。

OpenAI 報告稱,具備終端訪問權限和 pass@k 的 o4-mini 在 Codeforces 上的 Elo 評分為 2719,這與對 o4-mini-high 的評估(無終端訪問權限,pass@1)所獲得的 2116 分形成對比。這種差異促使研究人員去研究終端訪問和工具調用的性能影響,以及允許多次嘗試(pass@k)的效果。

如圖 4 所示,隨著 k 值的增加,模型的評分顯著提高。例如,o4-mini-medium 的評分從 pass@1 時的 1793 分上升,并在 k 增加到 10 時收斂至 2334 分。o4-mini-low 和 o4-mini-high 也觀察到類似的上升趨勢。雖然多次嘗試帶來的這些增益是顯著的,但收斂后的評分仍然比報告的 2719 分低了大約 400 分。因此,可以推測,剩余的差距主要歸因于工具調用和終端訪問帶來的好處。

image.png

如圖 5 所示,可以觀察到在改進最大的五個類別中,有三個 —— 博弈論、貪心算法和分類討論 —— 屬于觀察密集型問題,通常可以通過假設結論來解決。更高頻率地進行有根據的猜測,會大大增加正確解決這些問題的概率。 

推理模型與其非推理對應模型的比較

發現 4: 推理能力在組合數學中帶來最大提升,在知識密集型類別中提升較大,而在觀察密集型類別中提升相對較小。

研究人員考察了在大語言模型中啟用推理能力對每個問題標簽的影響。具體來說,他們直接比較推理模型及其非推理對應模型,以便控制模型架構、訓練數據和其他外部因素的變化,從而分離出推理的真正效果。

這種分離對于展示額外的思維鏈或測試時擴展方法對模型在各問題標簽上的解決問題能力的真實影響至關重要。研究特別選擇比較 DeepSeek V3 與 R1,以及 Claude 3.7 Sonnet 的非思考(Non-thinking)與思考(Thinking)版本,如圖 6 所示,這是兩款主流前沿模型,均有非推理版本和推理對應版本。

image.png

主要發現總結如下:

在組合數學中提升最大:兩個模型都在組合數學中顯示出最大提升,其中 DeepSeek-R1 的評分比 V3 高出近 1400 分。

在知識密集型類別中提升較大:對于數據結構和線段樹等知識密集型問題,啟用推理也帶來了較大提升(例如,在 DeepSeek 上,線段樹問題的評分提升了約 700 分;在 Claude 上,數據結構問題的評分提升了約 500 分)。這是符合預期的,因為這些類別中的問題通常涉及結構化思維。

在觀察密集型類別中提升有限:有趣的是,對于博弈論、貪心算法、特定問題特定分析和構造性問題 —— 這些通常需要大量觀察且大語言模型經常遇到困難的領域,即使啟用推理也只帶來微乎其微的提升(例如,對于 DeepSeek,在博弈論上的提升幾乎是最低的;而對于 Claude,則是負提升)。這就提出了一個問題:當前的思維鏈方法對于這些類型的問題是否存在固有的局限性?或者是否存在一個涌現閾值 —— 即推理能力發展到某個點后,最終可能會在這些領域解鎖顯著的性能增益。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-18 12:30:00

2025-08-15 12:50:19

2025-01-27 12:30:07

2025-04-18 09:07:00

2025-02-20 15:32:28

2025-05-07 10:01:35

2025-10-23 16:56:40

AI模型訓練

2025-06-17 08:40:44

2025-04-03 09:42:05

2025-11-12 08:42:00

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-04-07 05:00:00

2025-02-11 08:35:30

2025-02-11 15:56:18

2025-02-06 12:10:00

2025-03-05 09:10:00

AI生成模型

2025-05-07 10:09:08

2025-07-04 08:52:00

3D圖像生成AI
點贊
收藏

51CTO技術棧公眾號

日韩国产欧美| а√资源新版在线天堂| 先锋影音久久| 日日骚久久av| 一级黄色高清视频| wwww亚洲| 国产精品色哟哟| 97超碰人人看人人| 亚洲综合久久网| 亚洲一本二本| 精品一区二区亚洲| 亚洲视频一二三四| 爱福利在线视频| 欧美国产1区2区| 国产高清精品一区二区三区| av网站中文字幕| 亚洲网色网站| 亚洲一区二区福利| 亚洲熟妇一区二区| jizzyou欧美16| 亚洲v日本v欧美v久久精品| 日本在线观看一区二区| 成人高潮片免费视频| 爽爽淫人综合网网站| 欧美第一页在线| 欧美激情 一区| 色呦呦中文字幕| 九色porny丨首页入口在线| 国产亚洲女人久久久久毛片| 99三级在线| 在线视频播放大全| 午夜一区在线| 久久久影视精品| 日韩成人短视频| 国产一区二区区别| 日韩大陆欧美高清视频区| 激情文学亚洲色图| www.26天天久久天堂| 欧美日韩在线看| 欧美日韩福利在线| 亚洲欧美成人影院| 日韩毛片一二三区| 亚洲欧洲国产精品久久| 久久经典视频| 久久一留热品黄| 精品视频在线观看| 人妻少妇一区二区三区| 国产suv一区二区三区88区| 国产欧美日韩精品专区| 蜜臀尤物一区二区三区直播| 午夜综合激情| 欧美一级成年大片在线观看| 亚洲欧美在线观看视频| 亚洲国产片色| 欧美精品videos另类日本| 毛片aaaaa| 国内精品久久久久久久影视麻豆| 欧美精品在线看| 欧美精品一区二区成人| 一区二区日韩欧美| 久久国产精品视频| 色偷偷噜噜噜亚洲男人| 国产女女做受ⅹxx高潮| 亚洲国产成人二区| 一本久久a久久精品亚洲| 久久亚洲中文字幕无码| 345成人影院| 色噜噜狠狠色综合欧洲selulu| 91传媒久久久| 成人全视频免费观看在线看| 欧美日韩精品二区第二页| 天天干天天操天天玩| 黄页免费欧美| 欧美一级免费大片| 精品久久久久久无码人妻| 人人妻人人玩人人澡人人爽| 丁香桃色午夜亚洲一区二区三区 | 国产在线天堂www网在线观看| 亚洲不卡av一区二区三区| 国内外成人激情视频| 主播大秀视频在线观看一区二区| 欧美人xxxx| 免费不卡av网站| 国产精品任我爽爆在线播放| 日韩美女av在线| 东方伊人免费在线观看| 中文字幕人成人乱码| 欧美黄色成人网| 欧洲精品视频在线| 蜜臀久久99精品久久久久久| 国产亚洲一区| 久久影院中文字幕| 国产亚洲精品码| 老鸭窝91久久精品色噜噜导演| 国产福利视频一区| 国产aⅴ爽av久久久久成人| av在线一区二区| 亚洲精品成人自拍| 国产精品186在线观看在线播放| 福利微拍一区二区| 午夜精品久久久久久久99热影院| 国内精品麻豆美女在线播放视频 | 欧美午夜电影在线观看 | 中文字幕在线精品| 久草免费新视频| 奇米色777欧美一区二区| 成人在线观看91| 东凛在线观看| 午夜精品久久久久影视| 精品日韩久久久| 国产精品极品在线观看| 永久555www成人免费| 国产精品.www| 永久免费网站在线| 午夜一级久久| 亚洲va码欧洲m码| 极品白浆推特女神在线观看 | 久久丫精品久久丫| 日本亚洲最大的色成网站www| 国产69精品久久久久9999apgf| 丁香在线视频| 欧美三级欧美成人高清www| 久久人人爽人人片| 欧美xxxx中国| 日韩美女视频在线观看| 黄色小视频免费在线观看| 18欧美乱大交hd1984| 能在线观看的av网站| 黑人久久a级毛片免费观看| 日韩有码在线观看| 免费观看日批视频| 不卡影院免费观看| 青青草视频在线视频| www.26天天久久天堂| 亚洲欧美日韩久久久久久| 久久精品久久精品久久| 国产一区二区在线观看免费| 亚洲高清视频一区二区| 亚洲人免费短视频| 亚洲男人的天堂在线播放| 免费毛片一区二区三区| 国产福利一区二区三区在线视频| 国产精品夜夜夜爽张柏芝| 成人国产激情在线| 国产一区二区三区在线视频| av网站中文字幕| 2020国产精品| 欧美 日韩精品| 四虎国产精品永久免费观看视频| 精品国产黄a∨片高清在线| 亚洲视频日韩精品| 久久人妻免费视频| 久久亚区不卡日本| 成人一级片网站| 最新亚洲精品| 日韩免费不卡av| 大片免费播放在线视频| 欧美视频在线一区二区三区 | 亚洲天天做日日做天天谢日日欢| 午夜久久久精品| 97欧美在线视频| 亚洲999一在线观看www| 国产成人午夜| 日韩欧美国产不卡| 国产亚洲色婷婷久久99精品| 成人免费视频免费观看| 丰满爆乳一区二区三区| 日韩精品免费一区二区夜夜嗨| 欧美在线不卡区| 国产在线超碰| 欧美精品高清视频| 久草网站在线观看| 99国内精品久久| 成人亚洲视频在线观看| 99精品电影| 国产精品久久九九| 欧美xx视频| 国产亚洲污的网站| 久久久999国产| 亚洲精品一区二区二区| 亚洲欧美综合另类在线卡通| 国产成人av免费观看| 国产日韩免费| 亚洲免费在线精品一区| 年轻的保姆91精品| 91av视频在线| 日本黄色片在线观看| 精品成人a区在线观看| 成人免费毛片男人用品| 一区在线观看免费| 麻豆短视频在线观看| 玖玖国产精品视频| 国产午夜精品视频一区二区三区| 欧美深夜视频| 成人淫片在线看| 妞干网免费在线视频| 日韩视频在线免费| 天天摸天天碰天天爽天天弄| 欧美吻胸吃奶大尺度电影| 欧美被狂躁喷白浆精品| 国产欧美一区视频| 国产乱淫av片| 久久久久久久尹人综合网亚洲| 日本高清xxxx| 少妇精品久久久| 成人免费在线一区二区三区| 2019年精品视频自拍| 欧美高清第一页| 91精品国产综合久久久久久豆腐| 亚洲福利视频免费观看| 91中文字幕在线视频| 欧美视频在线免费看| 999精品在线视频| 久久精品视频网| 国产午夜在线一区二区三区| 经典一区二区三区| 干日本少妇首页| 激情国产一区| 在线观看成人免费| www.色小姐com| 91视频一区| 欧美日韩一区二区三区在线观看免| 中文字幕日本一区| 日韩av不卡在线| 黄色软件视频在线观看| 欧美超级乱淫片喷水| av在线播放网| 亚洲欧洲国产一区| 天堂中文网在线| 日韩美女视频在线| av中文字幕在线免费观看| 欧美日韩成人在线| 亚洲中文一区二区| 一本一道综合狠狠老| 日韩高清免费av| 亚洲福利一二三区| 欧美国产日韩综合| 亚洲欧美日韩久久| 老熟妇高潮一区二区三区| 国产精品久久久久精k8| 欧美福利第一页| 国产亚洲一二三区| 欧美性猛交xxxx乱| 国产欧美精品日韩区二区麻豆天美| 香蕉视频1024| 成人一区二区三区中文字幕| 香蕉在线观看视频| 成人在线视频首页| 国产精品福利导航| 91免费看`日韩一区二区| 三级男人添奶爽爽爽视频| 成人毛片视频在线观看| 69xxx免费视频| aaa欧美色吧激情视频| 国产草草浮力影院| 91在线播放网址| 精品少妇人妻一区二区黑料社区| 久久综合狠狠综合| 一级片视频免费看| 国产精品丝袜久久久久久app| 国产无遮挡在线观看| 无码人妻精品一区二区蜜桃色欲| 中文字幕字幕中文在线中不卡视频| 亚洲少妇xxx| 亚洲摸摸操操av| 国产一级大片在线观看| 偷窥国产亚洲免费视频| 国产婷婷色一区二区在线观看| 色婷婷综合久久久中文一区二区 | 影音先锋制服丝袜| 国产精品久久久久久久久免费丝袜 | 日本一区二区三区在线观看| 国产亚洲精品精品精品| 亚洲天堂久久久久久久| 欧美日韩中文字幕在线观看| 亚洲成人tv网| 无码视频一区二区三区| 欧美日韩一区二区三区四区五区 | 欧美精品电影免费在线观看| 1区2区3区在线| 热久久免费视频精品| 久久免费影院| 国产成人精品日本亚洲11| 日韩动漫一区| 伊人久久大香线蕉成人综合网| 亚洲最新av| 欧美精品一区免费| 久久国产福利国产秒拍| 国产在线a视频| 久久亚洲私人国产精品va媚药| 亚洲一二三四五六区| 亚洲一区二区三区中文字幕| 无码人妻久久一区二区三区不卡| 欧美精品自拍偷拍| 天堂在线视频网站| 色婷婷成人综合| 美女露胸视频在线观看| 国产日韩精品在线播放| 精品少妇3p| 黄色网zhan| 久久精品欧洲| 国产成人精品综合久久久久99 | 超碰资源在线| 国产一区香蕉久久| 日本天堂一区| 黄色一级片网址| 久久人人97超碰国产公开结果| 亚洲天堂一区二区在线观看| 久久久久久久久久美女| 久久久久久天堂| 欧美日本在线一区| 欧美色18zzzzxxxxx| 欧美激情乱人伦一区| 成人国产激情| 麻豆av一区二区三区久久| 亚洲欧美伊人| 911福利视频| 久久精品一二三| 九九九国产视频| 欧美一区二区三区免费在线看| 国产一级免费在线观看| 91国产美女在线观看| 伊人久久综合网另类网站| 欧美日韩国产不卡在线看| 激情av一区| 天天操天天干天天做| 国产人成一区二区三区影院| 97超碰人人干| 亚洲大胆人体视频| av文字幕在线观看| 国产日产欧美a一级在线| 精品午夜久久| 一本久道中文无码字幕av| 久久综合久久综合九色| 国产乡下妇女做爰| 亚洲成人免费网站| 羞羞视频在线免费国产| 亚洲精品欧美一区二区三区| 久久婷婷蜜乳一本欲蜜臀| 午夜国产一区二区三区| 久久影院视频免费| 黄色在线视频网址| 精品香蕉一区二区三区| 国产一二三四五| 国产欧美不卡| 亚洲国产综合视频| 精品国产91久久久| 亚洲色偷精品一区二区三区| 97精品国产91久久久久久| 成人知道污网站| 国产精品久久中文字幕| 波多野结衣视频一区| 尤物视频在线观看国产| 日韩av网址在线| 天堂av中文在线观看| 欧美日韩一区二区三| 日本成人在线电影网| 麻豆视频免费在线播放| 欧美伦理视频网站| 美女免费久久| 亚洲a中文字幕| 欧美午夜不卡| 在线观看av中文字幕| 一本大道久久a久久综合婷婷 | 欧美片网站免费| 亚洲精品久久久久久久蜜桃臀| 成人91在线观看| 超碰在线观看91| 日韩在线小视频| 精品国产亚洲日本| 久久视频这里有精品| 2021国产精品久久精品| 中文字幕1区2区3区| 欧美成人免费一级人片100| 亚洲欧美日本国产| 日韩av片在线看| 国产精品久久福利| 精品国产伦一区二区三| 51精品在线观看| 成人三级视频| aaaaa黄色片| 日韩欧美精品网址| 国产精品剧情| 精品一区久久久久久| 蜜臀av一区二区在线观看| 国产性xxxx| 亚洲女人被黑人巨大进入al| 四虎国产精品永久在线国在线| 2018中文字幕第一页| 国产欧美一区二区精品性色 | 精品三区视频| 日韩中文字幕亚洲精品欧美| 99久久精品国产导航| 在线观看日韩一区二区| 久久久人成影片一区二区三区| 911亚洲精选| 日韩一区有码在线| 亚洲人妻一区二区| 91日本在线观看| 久久影院亚洲|