精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI哪怕答案正確,邏輯鏈卻慘不忍睹,奧數(shù)級不等式證明成功率不到50%| 斯坦福&伯克利&MIT

人工智能 新聞
斯坦福大學(xué)、UC伯克利、MIT等機(jī)構(gòu)聯(lián)合發(fā)布研究論文《Solving Inequality Proofs with Large Language Models》,首次系統(tǒng)評估了29個(gè)頂級大模型在奧數(shù)級不等式證明任務(wù)上的能力。

這不是段子,而是正在發(fā)生的現(xiàn)象。

大語言模型解決不等式證明問題時(shí),可以給出正確答案,但大多數(shù)時(shí)候是靠猜。推理過程經(jīng)不起推敲,邏輯完全崩潰。

斯坦福大學(xué)、UC伯克利、MIT等機(jī)構(gòu)聯(lián)合發(fā)布研究論文《Solving Inequality Proofs with Large Language Models》,首次系統(tǒng)評估了29個(gè)頂級大模型在奧數(shù)級不等式證明任務(wù)上的能力。

他們系統(tǒng)的研究了大語言模型解決不等式證明的能力,并構(gòu)建了全新數(shù)據(jù)集IneqMath以及能力超群的“LLM as Judge”評估體系。

圖片

看起來像解出來了,其實(shí)全是錯(cuò)的

對于這道題目,GPT-4.1給出的證明如下:

圖片

它的確是得到了正確的左邊的式子小于右邊的式子,但是正確的結(jié)論是通過代入特殊值a=b=c=1和a=1, b=4, c=16的方法得到的,這種方法顯然是不嚴(yán)謹(jǐn)?shù)摹?/span>

在觀察到“答案正確但推理過程錯(cuò)誤”這一普遍現(xiàn)象后,研究團(tuán)隊(duì)決定深入探究大語言模型在不等式證明這一典型任務(wù)中的真實(shí)推理能力。

然而,傳統(tǒng)的不等式證明既難以自動(dòng)驗(yàn)證,又常依賴高度形式化的語言(如 Lean、Coq),這類系統(tǒng)雖然邏輯嚴(yán)密,卻表達(dá)繁瑣、建模成本高,難以適應(yīng)奧數(shù)級問題的規(guī)模化分析。同時(shí),它們與人類自然的推理過程存在較大距離。

圖片

△使用Lean進(jìn)行形式化證明的過程

鑒于此,團(tuán)隊(duì)開發(fā)了一個(gè)自然語言表達(dá)、但可自動(dòng)驗(yàn)證的新型不等式任務(wù)數(shù)據(jù)集IneqMath。該數(shù)據(jù)集將復(fù)雜的不等式證明過程拆解為兩個(gè)子任務(wù):Bound Estimation(界限估計(jì))Relation Prediction(關(guān)系判斷)

通過這一任務(wù)設(shè)計(jì),IneqMath在保留數(shù)學(xué)推理核心挑戰(zhàn)的同時(shí),構(gòu)建出一個(gè)介于形式化證明與人類非形式直覺之間的中間狀態(tài)——即用自然語言保證了和人類直覺的統(tǒng)一,又能確保結(jié)果的可驗(yàn)證性。

此外,團(tuán)隊(duì)還設(shè)計(jì)了一套LLM-as-Judge評估系統(tǒng),用多個(gè)專門判分器對模型的推理過程進(jìn)行逐步審查,實(shí)現(xiàn)了從最終答案到每一步推理的自動(dòng)化評分與細(xì)粒度診斷,補(bǔ)足傳統(tǒng)“只看結(jié)論”的評估盲點(diǎn)。

以下是IneqMath的Bound Estimation(界限估計(jì))和 Relation Prediction(關(guān)系判斷)兩種題目的示例:

圖片

△Bound Estimation(界限估計(jì))訓(xùn)練集題目示例

圖片

△Relation Estimation(關(guān)系判斷)訓(xùn)練集題目示例

圖片

△Bound Estimation(界限估計(jì))測試集題目示例

圖片

△Relation Estimation(關(guān)系判斷)測試集題目示例

另外可訪問研究團(tuán)隊(duì)的可視化工具查看IneqMath的所有題目(鏈接在文末獲取)。

LLM作為Judge,是如何運(yùn)作的?

團(tuán)隊(duì)開發(fā)的LLM-as-Judge框架由五種“自動(dòng)評審器”組成,可以逐步分析語言模型的解題過程是否符合邏輯嚴(yán)謹(jǐn)性,分別是:

  • 評價(jià)最終答案是否正確的Final Answer Judge
  • 判斷是否用特殊值推斷出一般的結(jié)論的Toy Case Judge
  • 評價(jià)是否存在跳步、未解釋的等價(jià)變形等邏輯偏差的Logical Gap Judge
  • 判斷是否存在不當(dāng)近似的Numerical Approximation Judge
  • 判斷是否存在不正確計(jì)算的Numerical Computation Judge通過這套系統(tǒng),研究者可以判斷一個(gè)模型是否只是“碰巧答對了”,還是在每一個(gè)推理節(jié)點(diǎn)上都做對了。

這五種評審器從不同的維度全面地評價(jià)模型的作答能力。但是他們每一個(gè)是如何工作的呢?

以Final Answer Judge為例,一道題目是需要判斷在一定的約束條件下,的最小上界是多少。模型給出的回答如下所示:

圖片

可以看出,該模型在解題過程中通過代入特殊值,并依據(jù)代入后表達(dá)式的大小關(guān)系來推斷表達(dá)式的最小上界。這顯然是一種由特殊值推斷一般結(jié)論的推理方式。對此,Toy Case Judge 分析了模型結(jié)果中使用特殊值進(jìn)行推斷的情況,準(zhǔn)確定位了問題所在,并最終給出了判斷結(jié)果 False,說明該結(jié)論是基于特殊值推斷得出的,因而不具有普遍性,應(yīng)被視為不正確。

其他評審器的工作原理與示意評審器類似。只有當(dāng)模型的回答通過了所有評審器的驗(yàn)證,才能認(rèn)為其邏輯推理是完全正確的。

實(shí)驗(yàn)結(jié)果揭示LLM推理的“真面目”

真相1:推理過程的“可信度錯(cuò)覺”——Soundness Gap并非幻覺!

在對29個(gè)當(dāng)前主流大模型的系統(tǒng)性測試中(覆蓋 GPT-4、Claude、Grok、Llama、Gemini 等),研究人員發(fā)現(xiàn)模型們表面看似聰明,實(shí)際推理卻漏洞百出

  • Grok 3 mini最終答案準(zhǔn)確率高達(dá)71.5%,但在每步邏輯被“逐項(xiàng)打分”后,嚴(yán)謹(jǐn)推理得分僅剩6.0%
  • 模型的步驟準(zhǔn)確率在最多下滑了65.5個(gè)百分點(diǎn)
  • 即使是被認(rèn)為擅長“邏輯推理”的開源 Reasoning LLMs,也鮮有突破6%嚴(yán)謹(jǐn)度的
  • 通用聊天類模型的推理表現(xiàn)更慘淡,大多數(shù)連5%都難以達(dá)到因此可以得出,當(dāng)前LLM的“答案看起來對”更多是僥幸匹配,而非真正構(gòu)建出了可信的推理鏈條。

    圖片

真相2:參數(shù)更大≠推理更聰明

雖然更大的模型在選擇正確答案這方面確實(shí)更穩(wěn)定、更強(qiáng)了,但當(dāng)檢查推理鏈條是否“合邏輯”,結(jié)果卻是:幾乎沒有改進(jìn)。

也就是說:

  • 參數(shù)提升 → ?猜對的頻率高了 - 但邏輯驗(yàn)證 → ?步驟還是錯(cuò)的,沒變聰明!這說明“變大”不等于“會(huì)思考”,構(gòu)建嚴(yán)謹(jǐn)推理過程并不是靠堆疊模型規(guī)模就能實(shí)現(xiàn)的。

圖片

真相3:“多思考”不等于“更嚴(yán)謹(jǐn)”

研究人員還嘗試讓模型思考更久——具體方法是,允許模型生成更長的推理路徑(增加推理token上限)。但最終觀察到的是:

推理更長,并未帶來質(zhì)的飛躍。

即使reasoning chain延展了好幾倍,邏輯準(zhǔn)確率依然停留在原地徘徊,甚至出現(xiàn)“邏輯越寫越錯(cuò)”的情況。

圖片

希望之光:兩種機(jī)制顯著改善推理質(zhì)量

盡管整體結(jié)果表明大模型距離真正的邏輯證明還有明顯差距,但研究也找到了兩個(gè)真正有效的優(yōu)化策略:

策略一:自我反思反饋機(jī)制(Self-improvement via Critic as Feedback)

讓模型在解完題后反過來“自己打分、自己挑錯(cuò)”,再進(jìn)行修改。

  • 該方法在 Gemini 2.5 Pro 上帶來了約5%的推理質(zhì)量提升 - 模型開始避免常見跳步、數(shù)值錯(cuò)用等問題

策略二:引入“定理線索”(Theorem Hints)輔助模型思考

研究者為模型提前準(zhǔn)備關(guān)鍵定理(如 AM-GM、Cauchy-Schwarz),并嵌入到提示中,讓模型像人一樣“借助工具”進(jìn)行證明。

  • Gemini 2.5 Pro 的準(zhǔn)確率在此策略下提升近10% - 解決了許多模型“不知道該套哪個(gè)定理”的盲區(qū)問題

圖片

加入IneqMath挑戰(zhàn)榜,展示你的模型推理實(shí)力

為推動(dòng)大語言模型在嚴(yán)謹(jǐn)數(shù)學(xué)推理方面的進(jìn)展,團(tuán)隊(duì)構(gòu)建了一個(gè)持續(xù)更新的IneqMath 評測排行榜,面向全球開放提交。無論你是在調(diào)試輕量模型,還是優(yōu)化頂級推理模型,都可以將其性能提交至平臺進(jìn)行自動(dòng)評估。

飛書文檔 - 圖片

排行榜系統(tǒng)依托研究團(tuán)隊(duì)提出的LLM-as-Judge自動(dòng)評分框架,可無人工干預(yù)地評估模型在最終答案正確率與推理過程完整性兩方面的表現(xiàn),確保高效且公正的比對。

歡迎各類模型參與測試——從主流大型模型到精心調(diào)校的實(shí)驗(yàn)性模型,皆可在此一展風(fēng)采。

提交你的模型,看看它能否登上“推理力”榜單的高峰~

圖片

挑戰(zhàn)頁面:https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard
項(xiàng)目主頁:ineqmath.github.io
論文:https://arxiv.org/abs/2506.07927
IneqMath數(shù)據(jù)集: https://huggingface.co/datasets/AI4Math/IneqMath
開源代碼: https://github.com/lupantech/ineqmath

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-23 15:22:21

斯坦福不等式AI

2025-10-15 09:05:05

2023-01-13 13:29:33

量子研究

2023-04-04 13:17:00

GPUCMU開源

2024-11-15 13:42:25

2025-01-20 13:08:25

2023-12-25 09:23:07

模型技術(shù)

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2023-11-15 13:40:00

訓(xùn)練數(shù)據(jù)

2023-03-31 13:55:00

模型智能

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2019-12-16 14:33:01

AI人工智能斯坦福

2017-03-15 16:22:06

制造業(yè)華為

2025-10-11 08:52:06

2022-07-15 14:57:43

AI語言

2023-09-27 12:56:56

AI模型

2016-09-27 13:59:56

蘋果iPhone7亮黑iPhone7

2020-12-01 06:20:49

流氓軟件

2025-10-28 15:46:19

AIChatGPT算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

99re热精品视频| 国产精品视频第一页| 欧美成年网站| 亚洲精品v日韩精品| 国产日韩欧美在线看| 国产福利在线导航| 91麻豆精品| 亚洲综合一二区| 国产一区二区黄色| 潘金莲一级淫片aaaaaa播放| 综合国产视频| 欧美性大战久久久| 亚洲黄色网址在线观看| 亚洲国产精品久久久久久久| 亚洲成人在线| 国产亚洲一级高清| 老司机午夜性大片| 好吊日av在线| 国产亚洲一区二区在线观看| 成人黄色免费网站在线观看| 国产亚洲成人av| 国产欧美日韩在线一区二区| 这里是久久伊人| 精品丰满人妻无套内射| 国产h在线观看| 国产高清在线观看免费不卡| 91精品国产精品| 俄罗斯毛片基地| 欧美高清一级片| 一本色道a无线码一区v| 大桥未久一区二区三区| 日韩资源在线| 国产电影一区在线| 日本电影亚洲天堂| 国产精品久久久精品四季影院| 欧美日韩看看2015永久免费 | 999在线观看精品免费不卡网站| 亚洲欧美激情视频| 午夜视频在线网站| 国产精品伦理| 亚洲午夜在线视频| 波多野结衣激情| 国产日产精品久久久久久婷婷| 成人精品一区二区三区四区| 国产精品一区专区欧美日韩| 亚洲精品国产精品乱码| 亚洲欧美网站在线观看| 中文字幕免费精品一区高清| 青青草视频成人| 久久9999免费视频| 欧美日韩在线一区二区| 精品99在线视频| 国产第一页在线| 亚洲美女视频在线观看| 一本一生久久a久久精品综合蜜 | 欧美久久久网站| 狠狠久久亚洲欧美专区| 乱熟女高潮一区二区在线| 免费在线观看黄| 国产精品全国免费观看高清| 欧洲av一区| 邻家有女韩剧在线观看国语| www.久久久久久久久| 成人蜜桃视频| 亚洲精品国产手机| 处破女av一区二区| 丁香五月网久久综合| 在线观看欧美一区二区| 丝袜美腿一区| 狠狠色噜噜狠狠狠狠97| 国产精品专区在线| 国内小视频在线看| 亚洲一区免费视频| 一区二区三区精品国产| porn视频在线观看| 国产精品午夜久久| 亚洲国产欧洲综合997久久| 国产日韩精品在线看| 国产日韩av一区| 亚洲精品一区二区三区四区五区| 成人jjav| 亚洲欧美在线视频观看| 亚洲美女自拍偷拍| а√天堂8资源在线官网| 亚洲欧美一区二区三区极速播放| 91xxx视频| 日本动漫理论片在线观看网站 | 天堂电影一区| 色狠狠av一区二区三区| 成年人视频在线免费| 小黄鸭精品aⅴ导航网站入口| 色综合一个色综合| 亚洲免费一级视频| 秋霞国产精品| 欧美日韩精品电影| 三区视频在线观看| 欧美二区观看| 日韩电视剧在线观看免费网站| 最近中文字幕在线mv视频在线| 第一sis亚洲原创| 色天天综合狠狠色| 久久久久人妻一区精品色欧美| 亚洲国内精品| 国产大片精品免费永久看nba| 国产又粗又猛又爽又黄的视频一| 国产成人丝袜美腿| 女同一区二区| 国产黄色在线免费观看| 五月婷婷另类国产| 狠狠躁狠狠躁视频专区| 视频欧美一区| 亚洲视频视频在线| 久久国产高清视频| 亚洲啪啪91| 国产精品人成电影| 精品国产无码一区二区三区| 91丨porny丨最新| 久久资源亚洲| 黄页视频在线播放| 一区二区三区日韩欧美精品| 18禁免费无码无遮挡不卡网站| 欧美大胆性生话| 欧美一卡二卡三卡| 亚洲一区二区三区黄色| 日韩精品一卡| 高清一区二区三区日本久| 亚洲黄色小说图片| 狠狠色狠狠色合久久伊人| 精品视频在线观看| 黄色小网站在线观看| 粉嫩老牛aⅴ一区二区三区| 视色视频在线观看| 噜噜噜天天躁狠狠躁夜夜精品 | 国产亚洲无码精品| 一区二区影院| 国产精品盗摄久久久| av高清一区二区| 国产欧美日产一区| 国产免费毛卡片| 97视频一区| 国产亚洲精品久久久久久777| 久草视频手机在线观看| 精品中文字幕一区二区小辣椒| 久久超碰亚洲| 电影k8一区二区三区久久 | 超碰97人人做人人爱少妇| 全部毛片永久免费看| 国产麻豆日韩欧美久久| 日韩欧美三级电影| 成人性生交大片免费观看网站| 精品国产乱码久久久久久蜜臀| 2014亚洲天堂| 蜜臂av日日欢夜夜爽一区| 狼狼综合久久久久综合网| 欧美黑人xx片| 日韩欧美一区在线观看| 欧美手机在线观看| 久久青草久久| 欧美日韩高清免费| 成人影院网站| 亚洲欧美日韩国产成人| 天堂网中文字幕| 91网上在线视频| 男人添女人下部高潮视频在观看| 久久久久久爱| 欧美成人激情在线| 国产成人精品毛片| 中文字幕五月欧美| 97人人爽人人| 亚洲精品成人无限看| 亚洲a∨日韩av高清在线观看| 日韩在线观看www| 欧美精品久久99久久在免费线| 日本黄色激情视频| 日韩福利电影在线| 亚洲不卡中文字幕| 色豆豆成人网| 中文字幕亚洲综合久久| 97超碰资源站| 亚洲理论在线观看| 激情av中文字幕| 亚洲精品偷拍| 美女亚洲精品| 91p九色成人| 深夜福利日韩在线看| 国产精品51麻豆cm传媒| 国产精品初高中害羞小美女文| 在线观看国产一级片| 91亚洲国产高清| 草莓视频一区| 僵尸再翻生在线观看免费国语| 日韩精品免费观看| 乱子伦一区二区三区| 中文字幕在线观看一区二区| 波多野结衣中文字幕在线播放| 国产一区亚洲| 玖玖玖精品中文字幕| 国产成人免费精品| 日日摸夜夜添夜夜添精品视频 | 女同久久另类69精品国产| 日韩在线观看一区二区| 亚洲第一在线综合在线| 国产精品一区三区在线观看| 精品视频9999| 蜜桃在线一区二区| 一本久道中文字幕精品亚洲嫩| 你懂得视频在线观看| 国产激情偷乱视频一区二区三区| 免费看日本毛片| 日本一区二区高清不卡| 99久久99| 成人日韩精品| 欧美激情亚洲综合一区| 香港三日本三级少妇66| 欧美日韩午夜影院| 日本学生初尝黑人巨免费视频| 国产偷v国产偷v亚洲高清| 国产 porn| 国产精品无码专区av免费播放| www激情久久| 亚洲一级免费在线观看| 国产精品分类| 欧美一区二区影视| 麻豆视频久久| 国产精品久久久久久久久久久久 | av男人的天堂在线| 亚洲精品xxx| 亚洲国产精品欧美久久| 欧美精品一二三| 激情网站在线观看| 日韩欧美福利视频| www.国产色| 亚洲h精品动漫在线观看| www.99re7| 亚洲人成精品久久久久久| 1024手机在线观看你懂的| 久久色中文字幕| 熟女人妻在线视频| 不卡一区中文字幕| 久久久久久久穴| 国产 日韩 欧美大片| 亚洲国产日韩在线一区| 激情久久久久久久久久久久久久久久| 国产免费999| 日日欢夜夜爽一区| 欧美精品一区二区三区免费播放| 国产精品丝袜xxxxxxx| 好吊妞无缓冲视频观看| 在线综合欧美| 毛片一区二区三区四区| 巨乳诱惑日韩免费av| 最近免费中文字幕中文高清百度| 久久经典综合| 我看黄色一级片| 久久精品免费观看| 亚洲欧美偷拍另类| 国产在线精品一区二区不卡了 | 超碰97久久国产精品牛牛| 成人国产1314www色视频| 一区二区三区免费在线看| 999精品视频一区二区三区| 亚洲一二三区视频| 精品国产一区二区三区免费| 色吊丝一区二区| 日韩av高清| 68国产成人综合久久精品| 日韩精品手机在线观看| 亚洲一级二级| 超碰网在线观看| 麻豆91在线播放| 极品白嫩少妇无套内谢| 99久久精品国产一区二区三区| 少妇大叫太粗太大爽一区二区| 国产欧美一区在线| 婷婷伊人五月天| 亚洲不卡一区二区三区| 亚洲 欧美 成人| 欧美精品粉嫩高潮一区二区| 亚洲精品一区二区三区不卡| 日韩精品视频观看| 天堂а√在线资源在线| 欧美精品激情blacked18| av日韩电影| 91在线免费网站| 农村少妇一区二区三区四区五区| 日韩精品久久久毛片一区二区| 国产精品不卡| 免费国产黄色网址| 久久国产乱子精品免费女| 野花视频免费在线观看| 久久伊99综合婷婷久久伊| 欧美xxxooo| 日韩欧美999| 亚洲av无码乱码国产精品久久| 亚洲欧美另类国产| 手机在线免费观看av| 日本欧美国产在线| 国产一区二区久久久久| 欧美日韩精品中文字幕一区二区| 91青青国产在线观看精品| 国产老熟妇精品观看| 久久99精品久久久久久动态图 | 国产精品拍天天在线| 久久艹精品视频| 欧美伊人久久大香线蕉综合69| 东京干手机福利视频| 中文字幕亚洲自拍| 蜜桃av在线播放| 91嫩草视频在线观看| 黄色不卡一区| 日本在线xxx| 国产电影一区在线| 成人18视频免费69| 日韩欧美亚洲成人| 高h放荡受浪受bl| 精品国产一区二区三区久久狼黑人 | 日韩精品免费| 日韩成人三级视频| 久久成人免费电影| 性欧美精品中出| 亚洲国产欧美在线| 美女100%露胸无遮挡| 欧美视频在线免费看| 日韩三级一区二区| 91精品婷婷国产综合久久竹菊| 欧美在线观看在线观看| 欧美黑人xxx| 国产精品久久久久久吹潮| 蜜桃网站成人| 国产亚洲网站| 欧美性猛交xxxx乱大交91| 久久久91精品国产一区二区精品| 国产一级视频在线观看| 91精品国产品国语在线不卡| 日本成人网址| 国产日韩欧美自拍| 日韩影院二区| 一级黄色特级片| 欧美国产精品一区二区三区| 丁香六月婷婷综合| 日韩精品免费看| 丝袜老师在线| 欧美精品久久| 日韩在线一区二区三区| 性猛交ⅹxxx富婆video| 色婷婷av一区二区三区大白胸| 婷婷婷国产在线视频| 18性欧美xxxⅹ性满足| 欧美三级午夜理伦三级在线观看| 国产av国片精品| aa级大片欧美| 国偷自拍第113页| 国产视频欧美视频| 在线视频cao| 日韩一二三区不卡在线视频| 日韩二区三区在线观看| 日本猛少妇色xxxxx免费网站| 欧美视频在线一区二区三区| 在线观看的av| 91久久精品视频| 亚洲特级毛片| 六十路息与子猛烈交尾| 色综合久久综合网97色综合| 成人精品一区| 成人午夜高潮视频| 国产精品扒开腿做爽爽爽软件| 在线看黄色的网站| 色呦呦日韩精品| 欧美尤物美女在线| 99蜜桃在线观看免费视频网站| 伊人成人在线视频| 久久精品老司机| 欧美三电影在线| 操你啦视频在线| 精品一区二区三区自拍图片区| 日韩国产欧美三级| 日韩精品一区二区亚洲av性色| 欧美xxxx老人做受| 色多多在线观看| 亚洲国产精品综合| 福利一区福利二区| av毛片在线免费观看| 日韩有码视频在线| 国产精品videossex| 成人3d动漫一区二区三区| 亚洲丝袜精品丝袜在线| 少妇喷水在线观看| 国产精品日韩在线| 国产精品99一区二区| 四虎永久免费在线观看| 欧美精品亚洲二区| 免费看男女www网站入口在线| 日韩少妇中文字幕| 国产99久久久国产精品潘金| 潘金莲一级淫片aaaaaa播放| 久久综合久久美利坚合众国| 秋霞在线一区| 天天av天天操| 色哟哟亚洲精品| 久久免费电影|