精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多元推理刷新「人類的最后考試」記錄,o3-mini(high)準(zhǔn)確率最高飆升到37%

人工智能 新聞
近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。

近段時(shí)間,DeepSeek R1 推理模型引爆了國內(nèi)外社交媒體,讓人們見識到了大語言模型類人的深度思考能力。

雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數(shù)學(xué)和編程領(lǐng)域取得了重大進(jìn)展,但在面對一些測試基準(zhǔn)時(shí)仍然力不從心,比如國際數(shù)學(xué)奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題。以 HLE 為例,主流的推理模型集體翻車,結(jié)果顯示 DeepSeekR1、o1 的準(zhǔn)確率都低于 10%。

如何提升推理模型在這些較難基準(zhǔn)上的準(zhǔn)確率呢?近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。結(jié)果顯示,該推理方法在驗(yàn)證數(shù)學(xué)和編碼問題以及其他問題的拒絕采樣時(shí)簡單而高效。

具體來講,研究者通過交互式定理證明器 Lean 來自動(dòng)驗(yàn)證 IMO 問題答案的正確性,通過代碼自動(dòng)驗(yàn)證 ARC 謎題,以及通過 best-of-N 算法有效地回答 HLE 問題。

  • 論文標(biāo)題:Diverse Inference and Verification for Advanced Reasoning
  • 論文地址:https://arxiv.org/pdf/2502.09955

從實(shí)驗(yàn)結(jié)果來看,研究者將 IMO 組合問題答案的準(zhǔn)確率從 33.3% 提升到 77.8%將 HLE 問題的準(zhǔn)確率從 8% 提升到 37%,并解決了 948 名人類無法攻克的 80%的 ARC 謎題和 o3 high 無法解決的 26.5 % 的 ARC 謎題

研究者表示,通過調(diào)整代理圖表示和不同的提示詞、代碼和數(shù)據(jù)集,測試時(shí)模擬、強(qiáng)化學(xué)習(xí)和具有推理反饋的元學(xué)習(xí)等可以提高推理模型的泛化能力。

此外,研究者還發(fā)現(xiàn)了基礎(chǔ)語言模型的第三個(gè)實(shí)證性 scaling law,即多種模型、方法的數(shù)量與可驗(yàn)證問題性能之間的關(guān)系,它們呈正向關(guān)系。前兩個(gè) scaling law 分別如下:

  • 模型大小、數(shù)據(jù)大小和損失之間的關(guān)系,即更多參數(shù)、訓(xùn)練數(shù)據(jù)和訓(xùn)練時(shí)的語言模型表現(xiàn)更好。
  • 模型性能和測試時(shí)算力之間的關(guān)系,早期棋盤游戲中驗(yàn)證了訓(xùn)練時(shí)和測試時(shí)算力之間的權(quán)衡,增加其中任何一項(xiàng)都會帶來更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測試時(shí)算力擴(kuò)展對推理型 LLM 的助益。

方法概覽

研究者在方法部分主要有以下三項(xiàng)成果:

一是多元推理(diverse inference)。研究者在測試時(shí)聚合了多個(gè)模型、方法和代理,而不是依賴單個(gè)模型和方法。任何一個(gè)正確的解決方案都會對 IMO 組合題和 ARC 謎題的可驗(yàn)證任務(wù)進(jìn)行自動(dòng)驗(yàn)證。具體如下:

  • IMO:研究者使用 8 種不同的方法,分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以顯著提高推理模型準(zhǔn)確率。其中將英語題目自動(dòng)形式化為 Lean,從而完成了完美驗(yàn)證。
  • ARC:合成代碼解決方案在訓(xùn)練示例上作為單元測試(unit test)進(jìn)行驗(yàn)證。
  • HLE:使用 best-of-N 作為不完美驗(yàn)證器,隨著示例增加而解決率提升。

二是測試時(shí)模擬和強(qiáng)化學(xué)習(xí)。研究者在推理時(shí)生成了額外的特定于問題的信息,其中:

  • IMO:將組合題轉(zhuǎn)化為了可交互游戲環(huán)境,并使用組合搜索或深度強(qiáng)化學(xué)習(xí)來得出部分結(jié)果或邊界。
  • ARC:通過合成代碼來探索謎題轉(zhuǎn)換,從而刪除不正確的解決方案并優(yōu)化候選解決方案。

另外,研究者表示,在給定相同數(shù)據(jù)集的情況下,使用訓(xùn)練過的驗(yàn)證器進(jìn)行搜索往往比監(jiān)督微調(diào)效果要好,這激發(fā)了強(qiáng)化學(xué)習(xí)微調(diào)。他們通過運(yùn)行測試時(shí)模擬和強(qiáng)化學(xué)習(xí)來生成額外數(shù)據(jù),從而能夠正確證明 2024 IMO 組合題并求解困難的 ARC 謎題。

下圖 1 展示了研究者求解 IMO 組合題所用方法的高級架構(gòu),其流程包含了幾個(gè)組件,分別是編碼、模擬以及深度強(qiáng)化學(xué)習(xí)和解碼

在編碼階段,研究者通過將問題形式化為狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)來找到答案,然后提示 LLM 將問題轉(zhuǎn)化為一個(gè)游戲環(huán)境。研究者將問題表示為 Gymnasium 開源項(xiàng)目中的 Python 代碼,其中包括代理和策略,并使用模擬和深度強(qiáng)化學(xué)習(xí)來找到最優(yōu)策略。他們重復(fù)此過程,為每個(gè)問題生成具有不同維的多個(gè)游戲,并為每個(gè)游戲的不同情節(jié)生成對應(yīng)的數(shù)據(jù)和視頻。

在解碼階段,研究者提取數(shù)據(jù)和幀并通過轉(zhuǎn)換對它們進(jìn)行擴(kuò)充,并使用 LLM 以摘要的形式為每個(gè)序列的圖像和策略解釋編寫文本表示。最后,研究者利用這些信息以及附錄 M 和 N 中的問題陳述、答案、書籍和指南,通過上下文學(xué)習(xí)來自動(dòng)形式化證明。

三是代碼圖的元學(xué)習(xí)。研究者使用 LLM 和其他工具來追蹤 pipeline 運(yùn)行,并生成超參數(shù)、提示詞、代碼標(biāo)題和數(shù)據(jù)的 A/B 測試,并自適應(yīng)地修改代理圖。

實(shí)驗(yàn)結(jié)果

研究者使用了不同的模型和方法對 IMO 組合問題進(jìn)行了廣泛的評估,他們測試了來自未污染(non-contaminated)考試中的所有組合問題。

結(jié)果顯示,零樣本 o1 回答對了 1/9(準(zhǔn)確率約 11%)的問題,使用 o3-mini 的最佳方法回答對了 3/9(準(zhǔn)確率約 33.3%)的問題,而使用了 o3-mini high 的 8 種多元方法回答對了 7/9(準(zhǔn)確率約 77.8%)的問題,并進(jìn)行了自動(dòng)驗(yàn)證。

類似地,使用 o1 的最佳方法回答對了 3/9(準(zhǔn)確率約 33.3%)的問題,而使用了 o1 的多元方法回答對了 6/9(準(zhǔn)確率約 66.7%)的問題,也進(jìn)行了自動(dòng)驗(yàn)證。

其次,研究者使用了 400 個(gè) ARC 評估謎題,對 16 個(gè)模型和方法進(jìn)行了廣泛的評估,結(jié)果如下圖 4 和圖 5 所示,共有以下幾項(xiàng)發(fā)現(xiàn)

  • 沒有 o3,16 個(gè)多元模型和方法將模型性能從 53%提升到了 69.5%。
  • 有了 o3,16 個(gè)多元模型和方法將模型性能從 91.5% 提升到了 93.75%。
  • 16 個(gè)多元模型和方法解決了 948 名人類無法解決的 80% 的謎題。
  • 16 個(gè)多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。

最后對于 HLE 問題,由于計(jì)算成本的原因,研究者隨機(jī)抽取了 100 個(gè)問題進(jìn)行測試。不同模型和方法的準(zhǔn)確率如下表 1 所示,其中 o3-mini high 非多模態(tài),取得了 13.0%的準(zhǔn)確率;Deep Research 使用了網(wǎng)絡(luò)搜索和代碼,取得了最高 26.6%的準(zhǔn)確率。

此外,使用 o3-mini high 對這 100 個(gè)隨機(jī)采樣問題進(jìn)行 best-of-N 拒絕采樣(N=3),所有類別的準(zhǔn)確率為 37%,數(shù)學(xué)問題的準(zhǔn)確率為 33.3%;使用 o1 時(shí)所有類別的準(zhǔn)確率為 21%,數(shù)學(xué)問題的準(zhǔn)確率為 29.6%,具體如下圖 6 和圖 7 所示。


更多方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請參閱論文附錄。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-08 17:00:11

2024-12-24 16:15:04

2025-01-20 19:52:50

2025-09-03 09:05:00

AI模型框架

2025-02-03 14:06:32

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-02-08 11:44:03

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓(xùn)練

2025-02-10 00:00:01

2025-10-23 12:46:39

2025-02-18 09:00:00

2025-02-25 12:30:00

2025-05-13 08:24:14

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2025-04-27 09:15:40

2020-10-29 15:58:43

阿里AI雙11

2025-04-23 08:30:05

2025-02-07 11:20:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲天堂一二三| 亚洲变态欧美另类捆绑| 日韩中文字幕网址| 国产中文字幕乱人伦在线观看| 亚洲av无码不卡| 日韩成人在线观看视频| 久久先锋资源| 精品国产乱码久久久久久蜜臀 | 国产v亚洲v天堂无码久久久| 国产精品久久久国产盗摄| 青青一区二区| 一区二区三区精密机械公司| 国产欧美va欧美va香蕉在| 中文字幕在线观看网址| 欧美aaaxxxx做受视频| 精品国产乱码久久久久久蜜坠欲下| 亚洲精品乱码久久久久久黑人 | 91欧美精品| 91亚洲永久精品| 欧美成人免费全部观看天天性色| 99热手机在线| 青青青草原在线| 好吊日精品视频| 7777精品伊人久久久大香线蕉最新版| 日本一区二区三区视频在线播放 | 91精品国产调教在线观看| 欧美性猛交丰臀xxxxx网站| 99久久自偷自偷国产精品不卡| 午夜国产福利视频| 精品久久福利| 日韩一区中文字幕| 成人a在线视频| 多男操一女视频| 国产美女亚洲精品7777| 亚洲蜜桃精久久久久久久| 亚洲free性xxxx护士hd| 婷婷久久综合网| 国产精品xnxxcom| 91成人网在线| 亚洲福利av在线| 一区二区的视频| 日本激情一区| 5566中文字幕一区二区电影| 日韩手机在线观看视频| 成人三级黄色免费网站| 日日摸夜夜添夜夜添国产精品 | 精品999视频| 男人的j进女人的j一区| 久久黄色av网站| 中国老熟女重囗味hdxx| av福利导福航大全在线| 91视频国产资源| 国产精品欧美一区二区| 2021亚洲天堂| 天天久久夜夜| 欧美日韩精品系列| 日韩 欧美 视频| 国产福利在线播放麻豆| 国产成人亚洲精品青草天美| 国内精品伊人久久| 成人黄色a级片| 精品国产亚洲一区二区三区| 亚洲国产aⅴ天堂久久| 久久综合伊人77777麻豆| 国产精品男女视频| 成人免费在线观看av| 国产亚洲欧洲在线| 嫩草视频免费在线观看| 欧美xxxx免费虐| 亚洲一区二区三区激情| 奇米影视首页 狠狠色丁香婷婷久久综合| 日本国产在线观看| 日本美女视频一区二区| 久久久久亚洲精品成人网小说| 欧美精品乱码视频一二专区| 久草在线成人| 欧美一区2区视频在线观看| 日韩精品视频一区二区在线观看| 一广人看www在线观看免费视频| 国产成人亚洲综合a∨婷婷图片| 99国产在线| 天天射天天操天天干| 久久国内精品自在自线400部| 97在线免费视频| 国产成人自拍网站| 国产精品密蕾丝视频下载 | 免费看污污网站| 91九色porn在线资源| 精品成人av一区| 亚洲国产精品女人| 韩国三级在线观看久| 国产精品视频麻豆| 精品一区二区三区国产| 国产又黄又大又爽| 国产不卡在线一区| 国产精品视频一区二区高潮| 国产乱码精品一区二三区蜜臂| 国产乱色国产精品免费视频| 国产精品免费久久久| 91麻豆成人精品国产| 丁香激情综合五月| 91在线观看欧美日韩| 中文字幕在线观看欧美| 日日夜夜精品视频免费| 91精品久久久久久蜜桃| 国产有码在线观看| 成人福利在线看| 97中文在线| 青青国产在线| 18欧美乱大交hd1984| 欧美深夜福利视频| 欧洲黄色一区| 欧美亚男人的天堂| 国产三级日本三级在线播放| 欧美片网站免费| 亚洲男人天堂视频| 免费在线观看你懂的| 日韩最新在线| 欧美乱妇40p| 中文字幕手机在线观看| 狂野欧美一区| 国产精品免费在线播放| 欧美熟妇乱码在线一区 | 国产精品成人在线视频| 中文精品一区二区| 亚洲男人天堂网| 久久老司机精品视频| 国精品一区二区| 成人精品视频99在线观看免费 | japanese在线视频| 97视频精彩视频在线观看| 国产免费成人在线视频| 日韩国产欧美精品| av资源在线观看免费高清| 亚洲一二三专区| 伊人成人免费视频| 视频成人永久免费视频| 中文字幕日韩av| 三级黄色片在线观看| 蜜桃久久av| 国产精品高潮呻吟久久av黑人| 欧美一级黄视频| 老司机免费视频一区二区| 久久久www免费人成黑人精品| 日本天堂影院在线视频| 亚洲亚洲人成综合网络| 奇米777在线视频| 欧美肥老太太性生活| 欧美国产日韩一区二区| 久久久久久少妇| k8久久久一区二区三区| 欧美一进一出视频| 91精品产国品一二三产区| 在线免费观看视频一区| 亚洲狠狠婷婷综合久久久久图片| 亚洲三级国产| 国产成人久久久精品一区| 在线视频 中文字幕| 国产视频一区二区三区在线观看| 午夜精品一区二区三区四区| 在线观看操人| 色婷婷狠狠综合| 免费欧美一级片| 欧美freesex交免费视频| 4388成人网| 国产一区二区三区三州| 中文字幕在线观看不卡| 免费国产黄色网址| 日韩欧美在线精品| 热99在线视频| www.97av| 国产色婷婷亚洲99精品小说| 男女爽爽爽视频| 欧美成人直播| 97自拍视频| 碰碰在线视频| 欧美一区国产二区| 免费视频一二三区| 91在线小视频| 成年人在线观看视频免费| 91蜜臀精品国产自偷在线| 91丝袜脚交足在线播放| 免费毛片b在线观看| 亚洲一区999| 国产99久一区二区三区a片 | 91久久人澡人人添人人爽欧美| 日韩精品aaa| 精品一区av| 91午夜理伦私人影院| av成人 com a| 中文字幕日韩欧美精品在线观看| 精品人妻av一区二区三区| 婷婷成人激情在线网| 特级西西人体高清大胆| 国产模特精品视频久久久久| 国产经品一区二区| 国产午夜精品久久久久免费视| 在线免费精品视频| 欧美日韩大片在线观看| 久久久一区二区三区捆绑**| 婷婷五月综合缴情在线视频| 欧美日本三级| 欧美一级淫片播放口| 黄色的网站在线观看| 精品视频偷偷看在线观看| 国产一级在线视频| 国产麻豆精品在线| 欧美三级午夜理伦三级| 看全色黄大色大片免费久久久| 美女av一区二区三区| 欧美中文在线| 欧美不卡激情三级在线观看| 波多野结衣亚洲一区二区| av一二三不卡影片| 图片区乱熟图片区亚洲| 久久人人超碰| 欧美国产日韩激情| 亚洲成人三区| 欧美一区观看| 女一区二区三区| 亚洲va欧美va国产综合剧情| 欧美理论影院| 伊是香蕉大人久久| 亚洲国产无线乱码在线观看| 亚洲福利视频一区二区| chinese全程对白| 国产欧美一区二区精品久导航 | 不卡中文字幕在线| 精品在线99| 国产丝袜不卡| 这里有精品可以观看| 亚洲欧洲日产国码av系列天堂| 999视频在线| 国产欧美日韩另类视频免费观看| 欧洲熟妇的性久久久久久| 亚洲特级毛片| 午夜啪啪福利视频| 久久精品国产99久久| 欧洲一区二区日韩在线视频观看免费| 中文字幕日韩高清在线| 97久久精品视频| 色爱综合区网| 日韩国产精品视频| 波多野结衣视频免费观看| 图片区小说区国产精品视频| 精品午夜福利视频| 亚洲午夜激情av| 国产一级av毛片| 亚洲午夜一区二区三区| 国产一级二级毛片| 午夜精品视频在线观看| 99精品欧美一区二区| 久久久久国产免费免费| 中文字幕一区二区三区人妻不卡| 99精品在线免费| 老熟妇精品一区二区三区| 天堂精品中文字幕在线| 18禁男女爽爽爽午夜网站免费| 国产精品综合色区在线观看| 91精品91久久久中77777老牛| 国产欧美午夜| 久久婷婷国产精品| 日韩va欧美va亚洲va久久| 手机在线免费观看毛片| 热久久一区二区| 三年中文在线观看免费大全中国| 精品亚洲免费视频| 波多野结衣家庭教师在线| 久久精品国产大片免费观看| 国产麻豆电影在线观看| 中文字幕一区二区av| 欧洲一区二区日韩在线视频观看免费 | 国产精品视频一区二区久久| 日韩欧美中文一区| 男操女视频网站| 欧美猛男超大videosgay| 免费在线不卡视频| 亚洲特黄一级片| 日本xxx在线播放| 国产亚洲精品精华液| 性爱在线免费视频| 一区二区三区在线免费播放| 日本视频www| **网站欧美大片在线观看| 欧美日韩免费一区二区| 精品久久在线播放| 糖心vlog精品一区二区| 欧美一级片免费看| 午夜视频在线免费播放| 欧美大片拔萝卜| 国产免费无遮挡| 欧美日韩视频在线第一区| yjizz国产| 欧美日韩国产一级二级| 亚洲av综合色区无码一二三区| 欧美性猛片aaaaaaa做受| 国产精品久久久久久免费| 亚洲国产精品美女| 亚洲精品视频91| 亚洲视频欧洲视频| 91在线中字| 国产91精品青草社区| 亚洲男人在线| 国产在线精品一区免费香蕉| 精品女同一区二区三区在线观看| 国产成人精品一区二区三区福利 | 九色|91porny| 欧美精品无码一区二区三区| 国产精品亚洲一区二区三区妖精| 中文字幕一区二区三区人妻电影| 97国产精品videossex| 国产免费久久久久| 色偷偷88欧美精品久久久| av网站免费播放| 在线日韩日本国产亚洲| 美女高潮在线观看| 999视频在线免费观看| 欧美久久综合网| 免费超爽大片黄| 国模大尺度一区二区三区| 中字幕一区二区三区乱码| 亚洲成人在线网站| 国内精品偷拍视频| 中文字幕久热精品在线视频| 日韩欧美一中文字暮专区| 成人在线观看av| 亚洲91精品| 香港日本韩国三级网站| 久久精品视频网| 日韩成人免费在线观看| 日韩亚洲欧美在线| 女女色综合影院| 欧美成人免费全部| 97久久精品一区二区三区的观看方式 | 高清一区二区三区| 精品国产一区二区三区麻豆免费观看完整版 | 蜜桃av一区二区三区电影| 欧美熟妇一区二区| 午夜激情久久久| 色香蕉在线视频| 久久久久一本一区二区青青蜜月 | 欧美精品一区三区在线观看| 精品久久久久久久久久久aⅴ| 免费无码毛片一区二三区| 国产jizzjizz一区二区| 好吊色视频在线观看| 在线91免费看| 精品麻豆一区二区三区| 成人网欧美在线视频| 国产精品久久久久久| 男人天堂网站在线| 久久亚洲风情| 中文幕无线码中文字蜜桃| 日韩欧美一区二区三区| 牛牛澡牛牛爽一区二区| 久久精品国产一区| 日韩国产大片| 国产一区二区三区色淫影院| 在线视频观看日韩| 久久人人爽人人人人片| 精品久久久久久久久久久久久| 你懂的在线免费观看| 国产成人精品久久二区二区91| 精品黄色一级片| 成人性生交免费看| 91美女福利视频| 黄色污污网站在线观看| 中文字幕亚洲欧美日韩在线不卡| 国内精品伊人| 成人在线观看毛片| 不卡的av网站| 国产一区免费看| 精品国产欧美一区二区五十路| 国产欧美视频在线| av日韩一区二区三区| 久久久亚洲综合| 国产精品无码白浆高潮| 久久久久久久久久久国产| 狂野欧美性猛交xxxx| 日本道在线视频| 99久久精品免费精品国产| 国产一区二区视频免费| 久久伊人色综合| yy6080久久伦理一区二区| 妞干网这里只有精品| a级精品国产片在线观看| 欧美三级网站在线观看| 久久影视电视剧免费网站清宫辞电视| 香蕉大人久久国产成人av| 国产在线观看福利| 亚洲视频一区二区在线观看| 天天操天天射天天| 国产在线不卡精品| 妖精视频成人观看www| 国产av一区二区三区传媒| 欧美性高跟鞋xxxxhd| 国产精品一区二区三区视频网站| 国产一区免费在线| 久久黄色级2电影| 黄网在线观看视频|