精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%

人工智能 新聞
大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

如果面前有兩個AI助手:一個很聰明但經常不守規矩,另一個很聽話但不太聰明,你會怎么選?

最近,上海人工智能實驗室香港中文大學的研究團隊發布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通過一個全新的評測基準MathIF揭示:

大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

這項工作的靈感,源自實際使用推理模型(如o3)過程中的一個意外發現:相比許多經過強化推理訓練的大模型,GPT-4o在執行具體指令時反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實體驗,讓研究團隊開始系統性地研究推理能力與指令跟隨之間的關系。

這一研究也引來??知名博主的轉發:

圖片

研究揭示越擅長數學推理的模型反而越難完全遵守指令,同時分析了模型大小與服從性的非正相關現象,強調了推理能力與指令遵循之間的權衡。

MathIF:衡量推理模型“聽話程度”的新基準

MathIF基準專門針對數學推理任務,考察AI模型是否嚴格遵循用戶給出的指令要求。這些要求包括格式語言長度特定關鍵詞使用,均可通過程序自動驗證。

MathIF由來自不同難度的數學題目組成,涵蓋了從簡單的數學問題(GSM8K)到復雜的數學競賽題目(AIME)。每個題目都會附帶具體而明確的指令,比如:“答案必須以一句中文完整作答,不能有多余解釋。”

此外,MathIF還設計了單一指令、雙重指令和三重指令的組合情形,以測試模型在不同約束復雜程度下的表現。模型不僅需要正確解題,還要嚴格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個具體的指令標準,分別以硬準確率(HAcc)軟準確率(SAcc)衡量模型的服從程度:HAcc 表示是否全部指令都被滿足,而 SAcc 則反映每條指令的平均滿足比例。

圖片

△圖表1 MathIF 的指令類型

越聰明越不聽話?實驗揭示“聰明”與“聽話”的矛盾

研究團隊使用MathIF評測了23個當前主流的大模型。這些模型包括不同的參數規模和訓練方式,涵蓋從數十億到數百億參數的各種類型。

實驗結果令人意外:在數學推理能力表現越出色的模型,反而更難完全遵守用戶給定的指令要求。即使是表現最佳的模型Qwen3-14B,也只能成功遵守一半的指令提示。

此外,模型的大小與其遵守指令的能力并不呈正相關,甚至有時會出現負相關——即更大的模型并不一定更守規矩。一些較小的模型反而更善于嚴格執行用戶的指令。

指令遵循(instruction-following)與數學推理能力(mathematical reasoning)之間存在一種權衡關系(trade-off)。也就是說,當模型在推理能力上表現得更強時,它往往更容易忽略或違反用戶的具體指令。

圖片

△圖表2 23個大推理模型在MathIF上的表現

模型按服從性(HAcc + SAcc)表現從高到低排序。表中?符號表示該模型僅通過監督微調(SFT)訓練,未使用推理導向的強化學習方法。粗體+下劃線標記則分別代表各列指標中的前兩名與后兩名。

為什么聰明模型更“不聽話”?

研究團隊進一步分析了這個現象背后的原因:

原因一:推理導向的訓練模式

研究發現,旨在強化模型推理能力的訓練方式(如監督微調(SFT)和強化學習(RL)),雖然顯著提升了模型的“智力”,卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注于如何準確解題,而容易忽視諸如格式、字數等細節要求。正如圖3所示,無論是SFT還是RL,推理導向訓練雖然提升了解題表現,卻普遍導致模型在指令遵循能力(HAcc與SAcc)上的下降。

圖片

△圖表3 推理導向訓練策略的對比

其中Avg. Acc.表示在所有基準任務上的平均表現。綠色和紅色背景分別表示相較于基礎模型性能的提升和下降。

原因二:長推理鏈降低服從性

模型輸出的推理過程越長(“鏈式思考”越復雜),越容易“忘記”指令要求。長段的復雜推理過程,容易讓模型注意力分散,最后導致違背用戶指令。如下圖,將模型的推理結果按照長度進行分桶,推理長度越長,模型的指令遵循準確率越低。

圖片

△圖表4 不同推理鏈長度區間下的HAcc和SAcc表現

長度分桶編號越大表示生成的推理鏈越長。

研究團隊通過實驗進一步驗證了這一現象:當模型被引導生成更長的推理過程時,其遵循指令的準確率會明顯下降。

具體做法是,在模型推理結束前人為添加“wait”等提示,迫使其繼續延長思考過程,從而生成更長的推理鏈。如下圖所示,“思考越多”,模型對指令的執行反而越不準確。

圖片

△圖表5 模型指令跟隨能力的變化趨勢

此外,研究團隊還通過在訓練階段控制模型的推理長度,進一步觀察其指令跟隨能力的變化。

具體而言,他們在強化學習(RL)的 rollout 階段設置最大生成長度限制,超過該長度的回復將無法獲得獎勵,從而間接壓縮模型的推理鏈長度。

從下圖可以看出,限制推理長度有助于顯著提升模型的指令遵循能力(HAcc和SAcc)。當最大長度控制在1k以內時,模型在服從性方面的表現甚至超過了原始基線模型。

然而,這種提升也帶來了代價:模型的數學推理能力明顯下降,表現出“聽話”和“聰明”之間的權衡關系。

圖片

△圖表6 RL訓練中最大響應長度的影響

紅色區域表示相較于基礎模型(Original)性能下降,顏色越深表示下降幅度越大。

這些現象進一步印證了研究團隊的結論:偏向生成更長推理鏈的推理導向訓練,往往會在無意中削弱模型對指令的遵循能力,凸顯了推理能力與指令服從性之間長期存在的權衡關系

小技巧:讓模型更“聽話”的簡單方法

研究者也嘗試了一個簡單的方法改善模型的“聽話程度”:在模型推理結束后,輸出答案之前,再次重復一遍指令要求。

結果顯示,這種方法拉近了指令和回復的距離,確實有效提升了模型的指令遵守能力,但同時也稍微降低了模型回答問題的準確率。模型為了遵守規則,不得不犧牲一點自己的數學推理能力。

圖片

△圖表7 通過在推理后重復指令提升指令遵循能力。

當前主流的推理導向訓練方式,雖然顯著提升了模型的解題能力,卻不可避免地削弱了其對指令的遵循能力。AI的“聰明”與“聽話”之間,正面臨一場難以調和的矛盾。

未來,MathIF基準有望構建既能深入思考,又能嚴格守規矩的大模型。

論文地址:https://arxiv.org/pdf/2505.14810

Github地址:https://github.com/TingchenFu/MathIF

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-08-17 13:51:14

2025-06-27 08:40:00

模型推理AI

2009-04-15 20:56:40

Linux系統用戶

2025-06-11 09:08:00

AI模型數據

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-07-01 08:37:13

2025-10-15 08:44:37

AI模型數據

2024-07-25 12:35:33

2009-04-13 12:05:09

Linux服務器用戶

2023-08-31 07:16:32

人工智能AI算力

2021-08-16 20:45:52

AI人工智能

2024-07-29 07:04:00

大模型AI訓AI人工智能

2025-06-11 08:56:54

2025-09-18 10:10:31

2025-06-11 14:39:50

AILLMMistral

2021-08-16 15:47:02

AI決策人工智能

2025-03-11 08:37:42

2021-02-22 11:00:39

機器學習人工智能AI

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-29 03:00:00

混合推理模型LHRMAI
點贊
收藏

51CTO技術棧公眾號

中日精品一色哟哟| 国产精品久久久久久久99| 亚洲日本在线播放| 欧美三级视频| 日韩精品视频免费| 国产成人精品无码播放| av在线电影观看| 国模少妇一区二区三区| www.亚洲天堂| 美女扒开腿免费视频| 国产网站在线| 国产欧美日韩综合精品一区二区| 91精品国产综合久久男男| 午夜写真片福利电影网| 欧美专区一区| 精品久久久久久久久国产字幕| 久久99精品久久久久久久青青日本| 久久精品视频1| 天天综合一区| 亚洲电影免费观看高清完整版在线| 黄色av网址在线播放| 超碰免费在线| k8久久久一区二区三区| 97香蕉超级碰碰久久免费软件| 精品人妻一区二区三区蜜桃视频| 国产精品久久免费视频| 精品久久久久久久久久国产| 致1999电视剧免费观看策驰影院| 亚洲第一天堂在线观看| 日韩不卡一二三区| 日韩中文有码在线视频| 中文字幕第3页| 欧美视频免费看| 亚洲精品视频自拍| 青青草原亚洲| 亚洲奶汁xxxx哺乳期| 蜜臀av性久久久久蜜臀av麻豆| 久久亚洲欧美日韩精品专区| av小说在线观看| 8x国产一区二区三区精品推荐| 欧美日韩在线电影| 黄色片视频在线免费观看| 综合在线影院| 激情综合色播激情啊| **欧美日韩vr在线| 国产精品嫩草影院俄罗斯| 一道在线中文一区二区三区| 欧美一区二区免费观在线| 一区二区三区免费播放| 免费在线观看的电影网站| 日本一区二区不卡视频| 久久久久无码国产精品一区| 国产夫妻在线观看| 久久成人免费电影| 精品日本一线二线三线不卡| youjizzxxxx18| 秋霞国产精品| 欧美吻胸吃奶大尺度电影| 日韩欧美在线免费观看视频| 性欧美videohd高精| 色狠狠一区二区| 一区二区三区入口| 日本精品久久| 欧美一区二区免费视频| 国产精品一级无码| 国产精品白丝av嫩草影院| 亚洲精品美女久久| 亚洲区免费视频| 日韩一区二区在线| 久久综合伊人77777| 欧美日韩成人免费观看| 一区在线免费| 欧美中文字幕在线视频| 成年人视频免费| 麻豆精品视频在线| av免费精品一区二区三区| 日本激情一区二区三区| 久久久www成人免费无遮挡大片| 秋霞在线观看一区二区三区| av片在线看| 亚洲欧美国产毛片在线| www.日本少妇| 成人mm视频在线观看| 欧美高清激情brazzers| 成人免费看片载| 香蕉久久夜色精品国产更新时间 | 午夜视频你懂的| 欧美黄色网络| 亚洲爱爱爱爱爱| 国产真实乱人偷精品人妻| 欧美va久久久噜噜噜久久| 欧美日本国产在线| www.色国产| 国产最新精品精品你懂的| 精品乱码一区| 免费黄色在线| 五月婷婷激情综合| 日本xxxx黄色| 美女视频亚洲色图| 色青青草原桃花久久综合| 国内精品国产三级国产a久久| 欧美不卡激情三级在线观看| www.色多多| 黑人と日本人の交わりビデオ| 99re6这里只有精品| 欧美激情一级精品国产| 99久久久久久久久| 国产不卡视频一区| 色综合久久久久久久久五月| 欧美三级电影一区二区三区| 五月天亚洲精品| 思思久久精品视频| 国产99亚洲| 久久久亚洲网站| 国产三级理论片| 99精品视频一区二区三区| 国产一区一区三区| 日韩精品一区二区三区| 欧美大黄免费观看| 麻豆网址在线观看| 久久一区中文字幕| 狠狠色噜噜狠狠狠狠色吗综合| 日本在线免费播放| 欧美在线视频不卡| 成人网站免费观看| 精品成人在线| 91丨九色丨国产| 日本在线视频观看| 欧美午夜不卡视频| 女人又爽又黄免费女仆| 亚洲日本国产| 国产伦精品一区二区三区免| 国产福利在线播放麻豆| 欧美日精品一区视频| 人妻视频一区二区| 日欧美一区二区| 久久国产精品99久久久久久丝袜| 久草成色在线| 精品久久久久99| 欧美极品aaaaabbbbb| 国精产品一区一区三区mba桃花 | 日韩欧美在线一区| 中文字幕第3页| 亚洲高清毛片| 国产精品一区二区a| 日本乱理伦在线| 91精品国产91综合久久蜜臀| 久久精品国产亚洲AV成人婷婷| 日日夜夜精品视频天天综合网| 欧美日韩高清在线一区| 国产资源在线观看入口av| 亚洲国产欧美久久| 六月丁香在线视频| 2022国产精品视频| 50路60路老熟妇啪啪| 综合国产视频| 国产精品极品尤物在线观看| av网页在线| 91精品福利在线一区二区三区 | 91在线观看免费| 岛国成人毛片| 欧美成人女星排行榜| 日韩成人一区二区三区| 91最新地址在线播放| 免费日韩视频在线观看| 精品美女视频| 亚洲综合视频1区| 白白色在线观看| 日韩精品在线观看网站| 免费在线观看av的网站| 1024国产精品| 50一60岁老妇女毛片| 久久久久久久欧美精品| 亚洲欧洲在线一区| 136国产福利精品导航网址应用| 久久久免费电影| 男人天堂资源在线| 欧美日韩成人一区| 久一区二区三区| 久久精品这里都是精品| 午夜av中文字幕| 一本不卡影院| 亚洲精品乱码视频| 99国产精品久久一区二区三区| 欧美在线一级va免费观看| 3d成人动漫在线| 欧美精品一区二区久久婷婷| 五月婷婷激情五月| 樱花影视一区二区| 精品人妻无码一区二区三区| 另类中文字幕网| 国产老熟妇精品观看| 青青草成人影院| 国产专区一区二区| 开心久久婷婷综合中文字幕 | 成人日韩在线观看| 欧美乱大交xxxxx| 国产永久免费高清在线观看视频| 在线综合亚洲欧美在线视频| 国产综合精品视频| 亚洲美腿欧美偷拍| 久久久精品成人| 成人黄色在线视频| 一起操在线视频| 西西裸体人体做爰大胆久久久| 天天爱天天做天天操| 亚洲调教一区| 国产精品加勒比| 9999精品| 国产精品第2页| www.色在线| 欧美成人全部免费| 日韩专区在线| 亚洲午夜小视频| 色网站免费观看| 日韩免费电影网站| 国产精品伦一区二区三区| 一本色道久久综合亚洲aⅴ蜜桃| 欧美三根一起进三p| 国产精品每日更新在线播放网址| 精品人妻一区二区三区日产乱码卜| 国产在线麻豆精品观看| 一区二区三区网址| 久久久久国内| 国产精品动漫网站| 99热这里只有精品8| 少妇大叫太大太粗太爽了a片小说| 欧美电影三区| 欧美一级二级三级九九九| 久久a级毛片毛片免费观看| 91久久国产综合久久蜜月精品| 国产精品99| 国产精品视频yy9099| 成人自拍av| 国产成人亚洲综合91| 国产精品av一区二区三区 | 免费观看性欧美大片无片| 国产美女主播一区| 国产成+人+综合+亚洲欧美| 国产91色在线|免| **在线精品| 国产成人+综合亚洲+天堂| 国产免费不卡| 青青草原一区二区| 亚洲色图官网| 日产日韩在线亚洲欧美| 免费电影日韩网站| 欧美在线一级视频| 麻豆精品蜜桃| 成人午夜高潮视频| 91成人福利| 国产一区二区三区免费不卡| 激情小说一区| 精品一区二区国产| 精品国产91| 亚洲日本精品| 欧美1级日本1级| 美女扒开大腿让男人桶| 亚洲精品偷拍| 国产精品人人妻人人爽人人牛| 蜜桃久久av| 成人日韩在线视频| 狠狠色狠狠色综合| 四虎永久免费观看| 99久久免费国产| 日韩女同一区二区三区| 国产精品国产三级国产有无不卡| 日韩高清dvd碟片| 午夜私人影院久久久久| 日本熟女毛茸茸| 欧美日韩在线三区| 亚洲大尺度视频| 亚洲欧美在线一区| 麻豆免费在线视频| 久久久久久久久久国产| 欧美大片免费观看网址| 成人久久一区二区三区| 美女av一区| 亚洲图色在线| 亚洲黄色av| 天天干天天操天天玩| 国产成人免费在线视频| 久久久精品人妻无码专区| 国产精品久久久久久妇女6080| 九九九免费视频| 色久优优欧美色久优优| 亚洲第一页在线观看| 亚洲天堂久久av| 免费在线中文字幕| 国产精品扒开腿做爽爽爽男男| 欧美成人一级| 亚洲不卡1区| 久久久国产精品黄毛片| 成人在线免费观看黄色| 污污视频在线免费看| 伊人久久久久久久久久| 黄色在线观看网站| 8x海外华人永久免费日韩内陆视频 | 精品日韩视频| 丁香婷婷久久久综合精品国产| 少妇精品久久久一区二区三区| 色婷婷777777仙踪林| 日韩一区精品字幕| 草莓视频一区| 女厕盗摄一区二区三区| 国产精品三级久久久久久电影| youjizz亚洲| 亚洲精品国产一区| 蜜臀aⅴ国产精品久久久国产老师| 中文字幕一区二区av| 免费无码av片在线观看| 狠狠色综合日日| 一区二区精品免费| 精品视频亚洲| 毛片在线播放视频| 国产一区二区日韩精品| 中文字幕免费高清| 图片区小说区国产精品视频| 国产精品国产av| 国产一区二区三区在线视频| 成人免费观看在线观看| 亚洲最大成人在线| 成人毛片免费看| 国模吧无码一区二区三区| 成人免费观看男女羞羞视频| 777777国产7777777| 欧美制服丝袜第一页| 可以在线观看的av| 136fldh精品导航福利| 国产图片一区| www.欧美黄色| 国产大陆精品国产| 91成人福利视频| 日韩一区二区三区免费看| 欧美猛烈性xbxbxbxb| 成人h视频在线观看播放| 日韩精品第一区| 四季av一区二区| 国产精品麻豆欧美日韩ww| 亚洲精品一区二三区| 这里只有精品在线播放| 日本精品网站| 一区二区三区欧美成人| 老色鬼精品视频在线观看播放| 欧美成人另类视频| 欧美精品久久久久久久久老牛影院| 1024免费在线视频| 91精品国产自产在线观看永久| 久久伦理在线| 久久婷婷中文字幕| 一区二区三区欧美| 日本黄视频在线观看| 欧美一级淫片aaaaaaa视频| 综合伊思人在钱三区| 亚洲激情在线观看视频| 国产精品久久夜| 精品美女www爽爽爽视频| 欧美激情奇米色| 亚洲自拍电影| 嫩草av久久伊人妇女超级a| 国产精品久久久久一区| 国产精品亚洲lv粉色| 欧美夫妻性生活xx| 日韩超碰人人爽人人做人人添| 能在线观看的av网站| 日韩码欧中文字| 亚洲精品字幕在线| 欧美一区二区三区免费观看| 精品日本12videosex| av噜噜在线观看| 亚洲国产视频一区| 黄色在线播放| 亚洲伊人久久大香线蕉av| 日韩香蕉视频| 内射毛片内射国产夫妻| 日韩精品一区二区三区蜜臀 | 欧美理论电影在线观看| 成人搞黄视频| www.色偷偷.com| 一级日本不卡的影视| 麻豆av电影在线观看| 91精品国产综合久久香蕉922| 亚洲二区视频| 人妻互换一区二区激情偷拍| 欧美va亚洲va国产综合| 欧美电影网站| 国产黄色激情视频| 国产欧美1区2区3区| www三级免费| 国产成人精品电影久久久| 自拍偷拍欧美| 鲁丝一区二区三区| 欧美videofree性高清杂交| 成人mm视频在线观看| 国产白丝袜美女久久久久| 国产精品国产三级国产三级人妇| 婷婷综合激情网| 91精品在线一区| 老司机免费视频久久| 国产亚洲精品女人久久久久久|