精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI“壓力面”,DeepSeek性能暴跌近30% | 清華&上海AI Lab

人工智能 新聞
來自上海人工智能實驗室、清華大學和中國人民大學的研究團隊設計了一個全新的“壓力測試”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

給AI一場壓力測試,結果性能暴跌近30%。

來自上海人工智能實驗室、清華大學和中國人民大學的研究團隊設計了一個全新的“壓力測試”框架——REST (Reasoning Evaluation through Simultaneous Testing)

該框架在一個prompt里同時拋給模型多個問題,模擬真實世界中復雜的、多任務并行的推理場景。

結果發現,即便是像DeepSeek-R1這樣的頂級模型,在“高壓”之下的表現也大幅縮水,例如,在AIME24測試集上的準確率驟降29.1%

圖片

給大模型來一場“壓力測試”

如今的大模型在各種推理能力測試中動輒拿下接近滿分的成績。

如果讓模型一次做好幾道題,它還會那么“神”嗎?

團隊認為,當前大模型的評測模式普遍存在三大痛點:

區分度低:在許多基準測試中,頂尖模型的得分已趨于飽和,難以分出高下。例如,7B參數的DeepSeek-R1-Distill-Qwen-7B和671B參數的DeepSeek-R1在MATH500上的準確率分別為93.0%和97.0%,看似相差不大,但推理能力仍有顯著區別。

成本高昂:由于現有的數學題幾乎已經被納入了大模型的訓練數據。為了有效評估,社區不得不持續投入大量人力物力去開發更新、更難的測試題。但設計這樣的測試題需要極高水平的人類專家,一年也出不了幾個題。例如,AIME24和AIME25都只有30道題。

脫離現實:一次只答一道題的模式,無法考察模型在真實世界中處理交叉信息,完成多重任務的綜合能力。

為了解決這些問題,團隊設計REST框架——改造現有基準,如GSM8K、MATH500、AIME24等7個代表性推理任務,不再逐題測試,而是把多個問題拼接成一個長prompt,一次性讓模型在一次輸出中逐一回答

研究團隊基于GSM8K、MATH500、AIME24等7個主流推理基準,構建了REST評測集,并對超過30個參數從1.5B到671B的主流推理模型進行了全面測試。

這種“壓力測試”不僅考察模型基礎的推理能力,更深入評估了以往被忽視的幾項關鍵能力

上下文預算分配:模型得聰明地決定怎么在多個題目中分配思考Token。

跨問題干擾抵抗:避免一道題的錯誤“傳染”到其他題。

動態認知負載管理:在高壓下保持高效推理,別在一道題上陷入“過度思考”的陷阱。

圖片

SOTA模型也“扛不住”,REST拉開差距

最強模型,在多題高壓下也頂不住

LRMs可以在單個推理過程中處理多個相對簡單的問題,但在REST下,性能皆下降。

如下圖所示,DeepSeek-R1,在AIME24基準上,單題模式下效果拔群,但“壓力測試”下準確率直降29.1%。其他模型也類似,整體性能大打折扣。

圖片

不同參數模型性能差距明顯

傳統單題測試中,不同大小模型得分都接近天花板。而REST揭示了不同尺寸模型之間存在顯著的性能差異。如下圖所示,7B參數的小模型在高壓下崩得更快,而更大的32B參數的模型性能雖有下降但仍保持優勢。如下圖所示,不同壓力水平下,模型性能拉開明顯梯度——這讓REST成為更強的“分辨器”,幫我們精準比較模型。

圖片

“過度思考”成大坑,long2short技術救場

為什么模型在REST下變差?分析顯示,關鍵是陷入了過度思考的陷阱。就像學生考試,在一道難題上思考太久,沒時間做后面的題目了。

但用long2short技術(鼓勵模型縮短推理過程)訓練的模型,就能更好地保留單題性能,在REST下領先。如L1Qwen-1.5B-Exact和L1-Qwen-1.5B-Max,在高壓力水平下表現出顯著的性能優勢。如表6所示,L1-Qwen-1.5B-Max在MATH500上壓力水平s=9時,準確率比R1-1.5B高出44.71%的顯著差距。7B模型中也觀察到類似的趨勢。

圖片

圖片

動態分配token,有的模型更“聰明”

REST下,一些“聰明”的模型(如Nemotron-nano-7B和DeepSeek-R1)會動態調整推理預算:當壓力增大時,它們為第一道題分配更少的推理token,留力后續。但低性能模型(如DeepSeek-R1-Distill-Qwen-7B)往往在前面的題上用掉太多token,留給后續問題的空間不足,導致整體崩盤。

這一觀察表明,在REST中表現優異的LRM模型在壓力下傾向于對早期問題進行更簡潔的推理,從而為后續問題留出足夠的空間。

團隊將這種能力稱為“自適應推理努力分配”,認為這是在REST下實現穩健性能的關鍵因素。

圖片

此外,REST還揭示了一些推理不良行為,如問題遺漏和對推理過程總結錯誤,這些問題在單問題評估中未被發現。

總而言之,REST不是簡單加題,而是給大模型來場“壓力測試”,挑戰了“LLMs是多問題解決者”的普遍假設,揭示了當前評測方法的局限性,提供了一種更低成本、更貼近真實的評測數據構建新范式,為未來開發更健壯和強大的LRMs提供了更加深刻的見解。

論文地址:
https://arxiv.org/abs/2507.10541
項目地址:
https://opendatalab.github.io/REST
代碼倉庫:
https://github.com/opendatalab/REST

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-27 08:52:00

2025-04-25 09:20:00

數據模型AI

2025-05-09 08:19:00

2025-02-17 09:33:00

AI算法模型

2025-10-14 13:54:01

AI模型測試

2025-09-26 10:59:55

AI模型數據

2024-11-01 13:34:58

2025-10-22 09:00:00

2025-04-10 09:38:37

2025-09-15 08:53:00

AI模型推理

2024-10-25 14:30:00

模型AI

2025-03-13 13:10:00

2025-07-16 09:05:00

AI評測模型

2025-07-08 15:26:04

AI模型數據

2025-07-29 09:10:00

2024-08-30 12:58:43

AI多模態技術

2025-08-11 08:35:00

2024-07-22 15:34:21

2025-04-15 09:08:51

系統數據模型

2022-03-25 15:07:05

神經網絡AI數據
點贊
收藏

51CTO技術棧公眾號

欧洲s码亚洲m码精品一区| av在线国产精品| 国产免费久久| 亚洲美女免费在线| 国产成人久久久精品一区| 国产人妻精品午夜福利免费| 自拍偷拍福利视频| 成人爽a毛片免费啪啪红桃视频| 国产欧美一区视频| 欧美中在线观看| 成人无码精品1区2区3区免费看| 亚洲最新无码中文字幕久久| 成人免费视频一区二区| 久久99精品久久久久久琪琪| 亚洲精品综合在线观看| 三级av在线播放| 久久精品亚洲成在人线av网址| 亚洲免费观看在线观看| 精品视频一区二区三区四区| 青娱乐国产在线视频| 97精品资源在线观看| 婷婷成人综合网| 精品免费国产| 国产精品久久久久久久一区二区 | 欧美日韩免费观看一区二区三区| 欧美日韩国产高清视频| 中日韩精品视频在线观看| 成人福利免费在线观看| 欧美日韩一级片网站| 亚洲精品无人区| 中文字幕av片| 欧美电影一区| 欧美一区日韩一区| 国产乱人伦精品一区二区三区| 精品国产伦一区二区三区| 欧美91精品| 亚洲国产女人aaa毛片在线| 秋霞无码一区二区| 免费成人av电影| 秋霞影院一区二区| 久久精品这里热有精品| 97免费公开视频| av午夜在线观看| 不卡高清视频专区| 国产精品av在线播放| 日本系列第一页| 一区二区导航| 欧美日韩精品一区二区在线播放 | 女人十八毛片嫩草av| 日韩欧美激情| 亚洲午夜激情网站| 日韩福利一区二区三区| 国产乱人乱偷精品视频a人人澡| 久久午夜精品| 久久99青青精品免费观看| 91导航在线观看| 视频在线亚洲| 色视频欧美一区二区三区| 一区二区不卡在线观看| 亚洲黄色一级大片| 日韩福利视频导航| 欧美福利在线观看| 中文字幕免费视频| 日韩欧美一级| 日韩一区二区三区高清免费看看| 国产免费成人在线| 91黄色在线| 91免费国产在线观看| 成人激情视频小说免费下载| 国产一级特黄aaa大片| 伊人久久婷婷| 日韩视频第一页| 久久精品综合视频| 玖玖玖视频精品| 在线视频观看一区| www精品久久| 日本暖暖在线视频| 久久久青草青青国产亚洲免观| 亚洲综合自拍一区| а中文在线天堂| 蜜桃av噜噜一区| 欧美亚洲国产视频| 久久国产在线视频| 亚洲精选在线| 色综合男人天堂| 91久久国产视频| 日产国产欧美视频一区精品| 91精品国产自产在线| 精品人妻一区二区三区潮喷在线| 亚洲成人最新网站| 色先锋资源久久综合5566| 亚洲最大的黄色网| 亚洲一区二区三区四区电影| 欧美日韩综合在线| 久草福利在线观看| 亚洲另类春色校园小说| www.久久色.com| 国语对白一区二区| 欧美成熟视频| 欧美性受xxx| 国产精品视频一区二区三区,| 国产91精品在线观看| 亚洲永久免费观看| 青青青草原在线| 亚洲欧美偷拍卡通变态| 伊人情人网综合| eeuss影院在线观看| 久久免费电影网| 久久99精品国产99久久| 三级网站免费观看| 99re8在线精品视频免费播放| y111111国产精品久久婷婷| 国产探花精品一区二区| 国产在线国偷精品产拍免费yy| 国产精品一二三在线| 亚洲视屏在线观看| 成人综合婷婷国产精品久久蜜臀| 日韩国产在线一区| а√在线天堂官网| 精品日韩视频在线观看| 欧美深夜福利视频| 国产精品成人3p一区二区三区| 91.麻豆视频| 制服丝袜中文字幕第一页| 先锋影音网一区二区| 日韩精品在线私人| 性猛交娇小69hd| 欧美手机视频| 精品国模在线视频| 波多野结衣理论片| 麻豆精品视频在线观看| 国产日韩在线视频| 精品av中文字幕在线毛片| 国产日本欧洲亚洲| 国产青青在线视频| 91蝌蚪精品视频| 久热精品视频在线观看| 国产在线欧美在线| 国产一区二区三区免费在线观看 | 五月婷婷深深爱| 26uuu精品一区二区在线观看| 国产精品av免费观看| 日韩一区二区三区四区五区| 国产一区二区日韩精品欧美精品| 四虎地址8848| 日本一不卡视频| 日本不卡一二三区| 自由的xxxx在线视频| 精品视频1区2区| 亚洲天堂最新地址| 蜜桃av一区二区三区电影| 三区精品视频| 天堂av最新在线| 黑人狂躁日本妞一区二区三区| 娇妻高潮浓精白浆xxⅹ| 国产一区二区三区四区| 欧美怡春院一区二区三区| 天天摸天天干天天操| 亚洲mv在线观看| 亚洲福利精品视频| 77成人影视| 欧美精品久久久久久久久| 天天操天天干天天摸| 久久久久国产成人精品亚洲午夜| 日韩欧美精品在线观看视频| 欧美人与物videos另类xxxxx| 久久精品欧美视频| av免费在线观看不卡| 久久综合色鬼综合色| 亚洲中文字幕无码不卡电影| 精品国产精品| 97激碰免费视频| 国产精品成人久久久| 欧美国产在线观看| 亚洲一区二区福利视频| 欧美精品色网| 国产精品人成电影在线观看| 亚洲国产福利视频| 欧美日韩国产一中文字不卡| 日韩av一二区| 全部av―极品视觉盛宴亚洲| 欧美另类videos| 小明成人免费视频一区| 亚洲国产精品网站| 一二三区免费视频| 亚洲欧美另类综合偷拍| 国产又粗又猛又色| 美女在线观看视频一区二区| 老司机激情视频| 欧美**字幕| 亚洲a在线观看| 在线观看特色大片免费视频| 精品第一国产综合精品aⅴ| 永久免费观看片现看| 国产一区二区福利| 日韩欧美视频网站| 狼人天天伊人久久| 国产精品网站入口| bl视频在线免费观看| 中文国产成人精品| 中文字幕一区二区在线视频| 一区二区在线免费| 中文字幕av一区二区三区人妻少妇 | 国产精品久久久久久久免费大片 | 精品精品精品| 国产情人节一区| freexxx性亚洲精品| 中文字幕日韩欧美精品在线观看| 六月丁香色婷婷| 亚洲午夜精品网| 长河落日免费高清观看| 成人网在线播放| 在线黄色免费看| 免费看的黄色欧美网站| 蜜桃精品久久久久久久免费影院 | 秋霞成人午夜鲁丝一区二区三区| 免费黄网站在线| 正在播放亚洲一区| 国产精品suv一区| 久久久一区二区三区捆绑**| 亚洲精品无码久久久久久久| 欧美精品日韩| 在线一区高清| 精品久久不卡| 欧美二区在线看| 精品视频自拍| 国产成人av一区二区三区| 国产丝袜在线播放| 亚洲国产精品人久久电影| 国产人妖一区二区| 欧美日本高清视频在线观看| 69视频免费看| 精品欧美aⅴ在线网站| 精品无码人妻一区二区三区| 91丝袜呻吟高潮美腿白嫩在线观看| 久久婷婷中文字幕| 亚洲少妇一区| 天堂√在线观看一区二区| 欧美一区自拍| 国产精品久久一区| 最近在线中文字幕| 91极品女神在线| www亚洲人| 国产亚洲精品美女| 男人天堂网在线| 亚洲欧美精品在线| 91在线观看喷潮| 午夜精品福利久久久| 九热这里只有精品| 亚洲国产精品久久久男人的天堂| av黄色免费网站| 国产综合色精品一区二区三区| 三级a三级三级三级a十八发禁止| 日韩精品1区2区3区| 国产精品99导航| 韩国一级黄色录像| 日韩精品乱码免费| 免费在线观看的毛片| 外国成人免费视频| 久久精品日产第一区二区三区乱码| 日韩精品一区二区三区中文在线| 99re在线观看视频| 成人h动漫精品一区二区器材| 高清视频一区二区三区| 开心激情综合| 日本精品一区二区三区视频| 欧美色网址大全| 国产欧美综合一区| 少妇精品久久久一区二区| 欧美激情专区| 日韩精品一区二区久久| 99视频在线免费观看| 97一区二区国产好的精华液| 91亚色免费| 国产精品66| 欧美一区二区.| 亚洲mmav| 欧美在线不卡区| 深夜视频一区二区| 成人亚洲综合色就1024| 日本精品在线播放| 久久精品人成| 首页国产精品| 福利在线一区二区| 婷婷亚洲五月色综合| 黄色片免费在线观看视频| 一本一本久久| 国产天堂视频在线观看| 国产高清久久| 日本福利视频一区| 日韩av电影天堂| 中文字幕永久免费| 欧美国产精品劲爆| 97人妻精品一区二区免费| 中文字幕一区二| 懂色av蜜桃av| 亚洲最新视频在线播放| 亚洲av无码一区二区三区在线| 波多野结衣91| 日本精品久久久久中文| 亚洲主播在线观看| 波多野结衣高清在线| 精品处破学生在线二十三| 日本网站在线免费观看视频| 97久久精品人搡人人玩| 欧美少妇激情| 成人免费看片视频| 日本午夜精品| 日韩亚洲欧美一区二区| 日本亚洲最大的色成网站www| 日本少妇xxx| 中文字幕第一页久久| 日韩av黄色片| 日韩午夜精品视频| www.在线视频.com| 欧美一区二区三区四区在线| 欧美久久亚洲| 亚洲最大色综合成人av| 久久婷婷影院| 强迫凌虐淫辱の牝奴在线观看| 日韩美女啊v在线免费观看| www日韩在线| 一区二区在线观看视频| 中文在线字幕免费观| 日韩精品在线免费| wwwww亚洲| 亚洲综合av影视| 久久免费av| 五月天婷婷激情视频| 久久精品99国产国产精| 人人妻人人澡人人爽人人精品 | 91在线观看免费网站| 国产精品毛片aⅴ一区二区三区| 久久久影院一区二区三区| 亚洲无吗在线| 日本精品久久久久中文字幕| 日韩av在线发布| 久久久久国产精品区片区无码| 亚洲精品久久7777| 国产农村妇女毛片精品久久| 色先锋资源久久综合5566| 视频精品导航| 亚洲一区不卡在线| 免费人成黄页网站在线一区二区| 中国毛片在线观看| 色av综合在线| 成人精品一区二区| 国产精品久久久久国产a级| 成人51免费| 免费久久久久久| 亚洲综合三区| 9.1成人看片| 色综合久久久久久久久久久| 国产精品爽爽久久| 久久精品美女视频网站| 精品一区91| 日韩精品久久一区二区| 成人免费毛片嘿嘿连载视频| 久久精品视频久久| 亚洲激情视频在线| 中文在线中文资源| 日韩免费av一区二区三区| 蜜臀av一级做a爰片久久| 国产男女猛烈无遮挡在线喷水| 欧美久久一二区| 色久视频在线播放| 热久久美女精品天天吊色| 精品美女视频| 一级做a免费视频| 亚洲午夜在线观看视频在线| 午夜影院在线视频| 国产精品成人在线| 国产精品久久久久蜜臀| 色诱av手机版| 日韩欧美国产激情| 草逼视频免费看| 午夜欧美不卡精品aaaaa| 精品在线观看入口| 亚洲xxx在线观看| 亚洲一区二区三区在线| 婷婷国产在线| 欧美激情欧美激情| 亚洲福利天堂| 天天插天天操天天射| 一区二区高清在线| 熟妇高潮一区二区三区| 国产精品88a∨| 欧美激情 亚洲a∨综合| 三级网站在线免费观看| 91麻豆精品国产| 伊人久久av| 337p亚洲精品色噜噜狠狠p| 久久蜜臀精品av| 亚洲成人777777| 国产精品成人v| 在线看片一区| 亚洲波多野结衣| 亚洲欧美一区二区三区四区| 中文字幕日本一区| 成人综合视频在线|