精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek R1也會大腦過載?過度思考后性能下降,少琢磨讓計算成本直降43%

人工智能 新聞
本文使用的評分系統與人類專家評估密切相關,并證實了該系統在評估「LRM 傾向于內部模擬而不是環境交互」的可靠性。他們使用系統分析了 4018 條軌跡,并創建了一個綜合性開源數據集,以推進在智能體環境中平衡推理與行動的研究。

原來,大型推理模型(Large Reasoning Model,LRM)像人一樣,在「用腦過度」也會崩潰,進而行動能力下降。

近日,加州大學伯克利分校、UIUC、ETH Zurich、CMU 等機構的研究者觀察到了這一現象,他們分析了 LRM 在執行智能體任務過程中存在的推理 - 行動困境,并著重強調了過度思考的危險。


  • 論文標題:The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
  • 論文鏈接:https://arxiv.org/pdf/2502.08235

在「單機模式」下,這些模型在實時互動的環境中仍是「思想上的巨人,行動中的矮子」。模型在面對任務時總要糾結:是擼起袖子直接干,還是推演清楚每一步之后再下手?

那么想要讓 LRM 作為智能體的大腦,讓它們把現實世界中的臟活累活都解決了。并且,在同時獲取信息、保持記憶并作出反應的復雜環境中,這些具備思考能力的 AI 應當如何平衡「想」和「做」的關系?

為了回答這些問題,研究者首次全面調研了智能體任務中的 LRM(包括 o1、DeepSeek R1、 Qwen2.5 等)以及它們存在的推理 - 行動困境。他們使用了現實世界的軟件工程任務作為實驗框架,并使用 SWE-bench Verified 基準以及 OpenHands 框架內的 CodeAct 智能體架構。

研究者創建了一個受控環境,其中 LRM 必須在信息收集與推理鏈之間取得平衡,同時在多個交互中個保持上下文。這樣一來,適當的平衡變得至關重要,過度內部推理鏈可能會導致對環境做出錯誤假設。

從觀察結果來看,在推理 - 行動困境中,LRM 表現出了一致的行為模式,即傾向于內部模擬而不是環境交互。它們會耗費大把時間來構建復雜的預測行動鏈,而不是適應實際的系統響應。研究者將這種現象稱為過度思考

為了對過度思考進行量化,研究者使用 LLM-as-a-judge 開發并驗證了一個系統評估框架。該框架確定了三種關鍵模式,分別如下:

  • 分析癱瘓(Analysis Paralysis)
  • 惡意行為(Rogue Actions)
  • 過早放棄(Premature Disengagement)

本文使用的評分系統與人類專家評估密切相關,并證實了該系統在評估「LRM 傾向于內部模擬而不是環境交互」的可靠性。他們使用系統分析了 4018 條軌跡,并創建了一個綜合性開源數據集,以推進在智能體環境中平衡推理與行動的研究。

研究者的統計分析結果揭示了過度思考行為的兩種不同模式。首先,回歸分析表明,無論是推理還是非推理模型,過度思考與問題解決率之間存在顯著的負相關性(如圖 1), 后者隨著過度思考的增加而出現急劇的性能下降

其次,直接比較表明,推理模型始終表現出更高的過度思考分數,幾乎是非推理模型的三倍,如表 2 所示。這意味著,推理模型更容易受到過度思考的影響。

因此,針對智能體環境中 LRM 的過度思考現象,研究者提出了兩種潛在的方法來緩解,分別是原生函數調用和選擇性強化學習。這兩種方法都可以顯著減少過度思考,同時提高模型性能,尤其是函數調用模型顯示出了有潛力的結果。

至于解決 LRM 的過度思考問題有哪些好處?研究者表示可以帶來巨大的實際效益,比如運行具有強推理能力的 o1 可以實現 29.1% 的問題解決率,但成本為 1400 美元;相比之下,運行較低推理能力的 o1 變體可以實現 21.0% 的問題解決率,成本只有 400 美元,降低了 3.5 倍。

另外,與使用成本高昂的強推理配置相比,生成兩個較少推理量的解決方案(總計 800 美元)并選擇其中過度思考分數較低的一個,則可以實現 27.3% 的問題解決率。這種簡單的策略幾乎與強推理配置的表現相當,同時將計算成本降低了 43%。

過度思考

本文觀察到,在智能體決策任務中,LRM 不斷面臨推理 - 行動困境,必須在以下兩者之間進行基本權衡:

  • 與環境的直接交互,模型執行動作并接收反饋。
  • 內部推理,模型在采取行動之前對假設性結果進行推理。

過度思考的表現

本文對智能體與環境之間的交互進行了詳盡分析。其中日志捕獲了智能體行為、環境反饋以及(如果可用的話)智能體推理過程的完整序列。本文系統地分析了這些軌跡,以理解過度思考的模式。

通過分析,本文識別出了 LRM 智能體軌跡中三種不同的過度思考模式:

  • 分析癱瘓(Analysis Paralysis),即智能體花費過多的時間規劃未來步驟,卻無法行動;
  • 過早放棄(Premature Disengagement),即智能體基于內部預測而非環境反饋提前終止任務;
  • 惡意行為(Rogue Actions),面對錯誤,智能體嘗試同時執行多個動作,破壞了環境的順序約束。

這些行為在圖 4 中得到了具體展示。

分析癱瘓:大型推理模型(LRMs)傾向于將注意力從立即行動中轉移到精心策劃的未來規劃上。它們可以生成越來越復雜的動作序列,但在系統地執行這些動作時卻遇到困難(見圖 4a)。它們沒有去解決眼前的錯誤,而是構建出通常未被執行的復雜規劃,導致陷入一個沒有進展的規劃循環中。

惡意行為:本文觀察到有些智能體故意在單一步驟中生成一系列相互依賴的動作,而不等待環境的反饋(見圖 4b)。盡管它們之前已經表現出對逐步交互需求的認識,模型仍然繼續構建復雜的動作序列,這些序列假定了每個前一步驟的成功,有效地用內部模擬代替了真實的環境反饋。

過早放棄:大型推理模型(LRMs)有時僅基于它們對問題空間的內部模擬來終止任務,要么直接放棄,要么通過委托假設的動作序列來實現(見圖 4c)。

量化過度思考

為了量化過度思考行為,本文開發了一種基于 LLM 評估者的系統性評分方法。該評估者分析模型軌跡中上述描述的模式,并分配一個 0 到 10 的分數,分數越高表明過度思考行為越嚴重。每個分數都附帶詳細的理由,解釋識別了哪些模式及其嚴重程度。

與非推理模型相比,推理模型一貫顯示出更高的過度思考得分。

評估框架和結果

在評估環節,研究者使用 SWE-bench Verified 分析了 LRM 在代理環境中的性能,比較了推理模型和非推理模型,旨在回答以下研究問題: 

  • 問題 1:過度思考是否會影響代理性能?
  • 問題 2:它對不同模型有何影響?
  • 問題 3:我們能否減輕過度思考?

研究者在所有模型中使用本文評估方法生成并評估了 3908 條軌跡,且公開了每條軌跡及其相應的過度思考得分以及得分背后的原因。

這些分析揭示了有關語言模型中過度思考的三個關鍵發現:對模型性能的影響、在不同模型類型中的不同普遍程度、對模型選擇的實際影響。

如圖 3 所示,可以看出來,過度思考始終影響著所有評估模型的性能,推理優化模型比通用模型表現出更高的過度思考傾向(如圖 1 所示)。

過度思考和問題解決

如圖 1 所示,研究者觀察到過度思考與 SWE-bench 的性能之間存在很強的負相關關系。隨著過度思考的增加,推理模型和非推理模型的性能都有所下降,但模式明顯不同。

過度思考和模型類型

對于推理模型和非推理模型中的過度思考,研究者提出了三點主要看法。

首先,非推理模型也會過度思考,這很可能是由于它們潛在的推理能力。最近的研究表明,非推理模型也表現出推理能力。

其次,推理模型的過度思考得分明顯高于非推理模型,如表 3 所示。由于這些模型經過明確的推理訓練,并通過模擬環境互動產生擴展的思維鏈,因此它們更有可能出現過度思考的表現。

最后,研究者還觀察到,如表 1 中的 beta 系數所示,過度思考的非推理模型在問題解決方面會出現嚴重退化。Beta 系數越低,說明過度思考對性能的影響越大。研究者的猜測是,由于非推理模型沒有經過推理訓練,它們無法有效地處理推理鏈,因此表現出更差的結果。

過度思考和模型規模

此處的評估檢查了三個規模變體(32B、14B、7B)的兩個模型系列:非推理的 Qwen2.5- Instruct 和推理的 R1-Distill-Qwen。

如圖 6 所示,分析表明,模型規模與過度思考行為之間存在負相關。研究者假定,較小的模型在環境理解方面有困難,導致它們更依賴于內部推理鏈,增加了它們過度思考的傾向。

不過,模型大小與過度思考之間的關系在不同類型的模型中表現不同。如表 3 所示,推理模型和非推理模型的過度思考得分都隨著模型大小的減小而增加,其中推理模型一直表現出更容易過度思考。然而,隨著模型規模的進一步縮小,推理模型與非推理模型之間的過度思考得分差距也明顯縮小。較小模型的過度思考行為趨向于高過度思考得分,這可能是由于它們在處理環境復雜性方面都存在困難。當面對環境互動中的反復失敗時,這些模型似乎會退回到其內部推理鏈,而忽視外部反饋。雖然這種模式與研究者的觀察結果一致,但還需要進一步的研究來確認其根本原因。

過度思考和 token 使用

分析表明,低推理努力程度的 o1 模型的過度思考得分比高推理嘗試程度的模型高出 35%。如表 4 所示,兩種配置的平均過度思考得分差異具有統計學意義,這表明增加 token 分配可能會減少代理上下文中的過度思考。

這個發現對最近一些研究中推理 token 使用量的增加與過度思考相關的觀點提出了質疑。相反,本文研究結果表明,擁有更多的推理 token 可以有效地抑制過度思考,從而突出了結構化推理過程在模型表現中的重要性。

過度思考和上下文窗口

研究者還分析了不同上下文窗口大小(從 8K 到 32K token)的模型。在比較架構和大小相似但上下文窗口不同的模型時,他們發現上下文窗口大小與過度思考得分之間沒有明顯的相關性。

由此推測,這種不相關性可能是因為過度思考行為更多地受到模型的架構設計和訓練方法的影響,而不是其上下文能力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-06-03 17:38:24

模型AIDeepSeek

2013-04-24 09:44:19

云計算成本模式云計算成本云計算成本分析

2025-04-03 09:42:05

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-02-18 10:54:04

2025-02-07 13:10:06

2025-04-21 08:42:00

模型開源AI

2025-02-25 09:13:16

2010-05-14 09:02:03

云計算成本

2025-02-17 00:00:05

IDEADeepSeek

2025-03-03 08:17:00

DeepSeek模型數據

2025-02-11 16:11:12

2013-01-25 09:23:18

云計算成本云計算開發開源云計算

2022-05-23 14:55:40

云計算工具成本

2021-05-07 13:46:31

云計算云遷移存儲
點贊
收藏

51CTO技術棧公眾號

国产精品久久久久久久久久直播 | 国产成人高清| 欧美性猛交xxxx| 午夜精品福利一区二区| 成人h动漫精品一区二区无码| 伊人久久成人| 中文字幕在线成人| 中国特级黄色大片| 97成人超碰| 亚洲一二三区在线观看| 日本一区免费在线观看| 亚洲av综合色区无码一二三区 | 超碰在线公开97| 黄网av在线| 欧美极品另类videosde| 91九色偷拍| 无码人妻精品一区二区50| 一区二区电影| 国产亚洲视频中文字幕视频| 最新国产精品自拍| 欧美成人高清视频在线观看| 午夜欧美视频在线观看| 偷拍盗摄高潮叫床对白清晰| 天天躁日日躁狠狠躁伊人| 精品一区二区在线播放| 欧美一级大片在线免费观看| 91视频综合网| 久久福利综合| 亚洲天堂网站在线观看视频| 成熟妇人a片免费看网站| 亚洲精品69| 欧美曰成人黄网| 欧美一区二区中文字幕| 性欧美猛交videos| 中文字幕亚洲区| 欧美日本韩国国产| 五月色婷婷综合| 国产精品一区在线| 成人午夜黄色影院| 中文字幕精品在线观看| 日日摸夜夜添夜夜添亚洲女人| 97精品在线视频| 欧美又粗又大又长| 欧美伊人影院| 久久九九全国免费精品观看| 久操视频在线观看免费| 免费av一区| 亚洲精品永久免费精品| 亚洲一区二区在线免费| 国产美女撒尿一区二区| 精品少妇一区二区三区 | 96sao精品免费视频观看| 欧美中文字幕一区| 黄色三级视频片| 成人开心激情| 欧美日本乱大交xxxxx| 男女污污的视频| 国产伊人久久| 91麻豆精品国产91久久久更新时间| 久久国产激情视频| 99riav视频一区二区| 欧美日韩美少妇 | 粉嫩绯色av一区二区在线观看| 91免费欧美精品| 国产黄色小视频在线观看| 国产伦精品一区二区三区免费 | 国产成人手机在线| 成年人网站91| 欧美激情论坛| 91欧美在线视频| 亚洲欧美一区二区三区孕妇| 永久免费在线看片视频| 国产在线xxx| 精品成人在线视频| 久久午夜夜伦鲁鲁一区二区| 成人mm视频在线观看| 欧美日韩国产另类不卡| 无套内谢丰满少妇中文字幕| 成人免费直播在线| 日韩精品亚洲精品| 91香蕉视频污在线观看| 欧美激情亚洲| 日本精品久久久| 一本一道人人妻人人妻αv| 国产一区二区三区不卡在线观看 | 色狮一区二区三区四区视频| 不卡毛片在线看| 日本在线免费观看| 日产国产高清一区二区三区| 91日韩在线视频| 天堂在线视频观看| 国产精品美女久久久久久2018| 免费成人深夜夜行网站视频| 神马久久午夜| 在线不卡a资源高清| 国产伦精品一区二区免费| 精品国产中文字幕第一页| 免费91在线视频| 男人日女人网站| 国产在线精品不卡| 免费av在线一区二区| 国产精品剧情一区二区在线观看| 午夜精品视频一区| 我看黄色一级片| 精品伊人久久久| 久久精品国产69国产精品亚洲| 日韩久久精品视频| 国内欧美视频一区二区| 欧美日韩精品免费看 | 亚洲免费观看高清| 99免费视频观看| 第四色在线一区二区| 日韩在线观看免费av| 欧美日韩精品区| 国内精品不卡在线| 日韩欧美精品在线不卡| 操人在线观看| 欧美一区二区三区免费视频 | 亚洲欧美日韩国产手机在线 | 国产成人免费9x9x人网站视频| 日韩一级二级三级| 婷婷综合在线视频| 亚洲欧美日本日韩| 国产精品一区二区欧美黑人喷潮水| 欧美一区二区三区| 色偷偷久久人人79超碰人人澡| 日本精品一二三| 888久久久| 国产日韩精品在线播放| 国产乱视频在线观看| 欧美性猛交xxxx黑人| 国产精品手机在线观看| 国产精品hd| 亚洲www在线观看| 福利在线视频导航| 色老汉av一区二区三区| 大乳护士喂奶hd| 亚洲片区在线| 精品国产乱码久久久久久郑州公司 | 成人国产综合| 夜夜嗨av一区二区三区免费区 | 超碰在线观看免费版| 欧美日韩日本视频| av免费播放网站| 免费成人av资源网| 亚洲国产一区二区三区在线 | 99久久无色码| 污视频网站免费在线观看| 欧美高清视频不卡网| 99久久精品久久亚洲精品| 麻豆精品久久久| 永久域名在线精品| 一级欧美视频| 久久国产天堂福利天堂| av一级黄色片| 一区二区三区欧美激情| 影音先锋资源av| 99av国产精品欲麻豆| 久久爱av电影| av在线日韩| www.日韩.com| www.激情五月.com| 婷婷夜色潮精品综合在线| 三级男人添奶爽爽爽视频| 免费日韩视频| 亚洲成人自拍| 麻豆一区在线| 亚洲2020天天堂在线观看| 免费一级在线观看| 欧美日韩在线精品一区二区三区激情| www.黄色com| 国产毛片精品视频| 妞干网在线视频观看| 亚洲欧洲av| 国产精品视频xxxx| 少女频道在线观看高清| 日韩激情视频在线播放| 日本欧美www| 亚洲欧美成人一区二区三区| 国产精品成人免费一区久久羞羞| 西西人体一区二区| 伊人久久青草| 啪啪激情综合网| 国产中文日韩欧美| √天堂8资源中文在线| 亚洲免费高清视频| 国产精品久久久午夜夜伦鲁鲁| 一区二区免费在线| 天堂久久精品忘忧草| 国产在线不卡视频| 亚洲自偷自拍熟女另类| 欧美国产一级| 黑人巨大精品欧美一区二区小视频| 中文字幕日本一区二区| 性高湖久久久久久久久| 日韩免费视频线观看| 亚洲欧美综合自拍| 亚洲精品第一国产综合野| 97超碰在线资源| 国产精品亚洲一区二区三区妖精| 午夜肉伦伦影院| 91超碰国产精品| 欧美亚洲另类在线一区二区三区| 日韩有吗在线观看| 国产精品久久久久久久久免费看| 黑人精品视频| 久久精品男人天堂| 国产一级免费在线观看| 亚洲成人在线网| 一级片视频免费| 日本韩国一区二区三区| 国产精品99re| 樱桃视频在线观看一区| 五月激情四射婷婷| 久久久综合激的五月天| 动漫av在线免费观看| 国产在线精品一区二区夜色 | 另类欧美日韩国产在线| 久草热视频在线观看| 夜间精品视频| 一级二级三级欧美| 国产精品羞羞答答在线观看| 国产精品一区视频| 日韩视频在线直播| 成人精品久久av网站| 午夜av成人| 日韩av大片免费看| 精品三级久久| 97免费视频在线| 成人女同在线观看| 欧美精品videos| 日本理论片午伦夜理片在线观看| www亚洲欧美| 2021av在线| 在线免费看av不卡| 国产在线观看免费网站| 亚洲欧美一区二区激情| 免费人成黄页在线观看忧物| 日韩高清免费观看| 神马电影在线观看| 国产婷婷色综合av蜜臀av| 午夜视频在线播放| 日韩大陆欧美高清视频区| 天堂在线资源8| 亚洲激情在线观看视频免费| 熟妇高潮一区二区高潮| 亚洲国产精品久久91精品| 狠狠综合久久av一区二区| 精品不卡在线视频| 婷婷丁香一区二区三区| 亚洲国产欧美一区| 暖暖视频在线免费观看| 亚洲午夜精品视频| av午夜在线| 欧美成人免费观看| 美女精品导航| 97精品免费视频| 神马久久资源| 国产女同一区二区| 久久免费福利| 国产在线一区二| 在线一级成人| 亚州欧美一区三区三区在线| 国产精品91一区二区三区| 亚洲av综合色区| 亚洲国产高清一区二区三区| 国产网站免费在线观看| 久久这里有精品15一区二区三区| 四季av一区二区| 国产一区在线不卡| 日韩Av无码精品| 国产片一区二区| 99久久久免费精品| 午夜影院久久久| 在线免费观看av网址| 91精品国产欧美一区二区18 | 国产高清亚洲一区| 黄色在线免费播放| 中文成人综合网| 久久久久久久久艹| 色综合久久中文字幕综合网| 一本一道精品欧美中文字幕| 亚洲精品一区二区三区香蕉| 黄色网址在线播放| 欧美高清不卡在线| 亚洲综合在线电影| 99精品在线直播| 欧洲杯半决赛直播| 黄色一级片在线看| 日韩av一级片| 日韩av无码一区二区三区不卡| 欧美国产欧美综合| 黄色一级视频免费| 在线观看日韩电影| 欧美自拍偷拍第一页| 综合久久五月天| 在线天堂资源www在线污| 亚洲一区二区三区视频| 国产精品日韩精品中文字幕| www国产无套内射com| 日韩成人一区二区三区在线观看| 国产乱国产乱老熟300部视频| 亚洲国产精品激情在线观看| 国产一级一片免费播放放a| 欧美日韩综合不卡| 熟妇高潮一区二区高潮| 欧美成人黄色小视频| 亚洲第一会所001| 久久66热这里只有精品| 91精品秘密在线观看| 成人在线观看黄| 成人午夜激情片| 三级影片在线看| 在线观看一区不卡| 天堂av电影在线观看| 欧美激情视频给我| 久久九九精品视频| 亚洲一区二区三区精品动漫| 米奇777在线欧美播放| 日韩精品――色哟哟| 1024亚洲合集| 中文字幕你懂的| 国产亚洲欧美视频| 亚洲第一av| 久久草视频在线看| 亚洲国产导航| 亚洲精品无码一区二区| 一二三四社区欧美黄| 91中文字幕在线视频| 中日韩美女免费视频网址在线观看 | 伊人性伊人情综合网| 亚洲一区在线观| 在线电影中文日韩| 蜜桃精品在线| 日韩aⅴ视频一区二区三区| 国产麻豆综合| 无套内谢大学处破女www小说| 五月天婷婷综合| 理论片中文字幕| 久久男人资源视频| 粉嫩av一区二区| 日本wwwcom| www.亚洲精品| 免费在线观看黄网站| 亚洲激情电影中文字幕| 在线观看特色大片免费视频| 九色视频成人porny| 裸体素人女欧美日韩| 亚洲激情视频小说| 欧美亚洲国产一区二区三区va| 国产福利在线看| 国产精品视频在线播放| 成人综合久久| 最新av免费在线观看| 亚洲日本在线视频观看| 国产成人精品亚洲精品色欲| 色综合男人天堂| 精品福利网址导航| 日韩中文字幕三区| 国产婷婷色一区二区三区四区| 波多野结衣视频免费观看| 尤物99国产成人精品视频| 精品久久久网| 国产911在线观看| 北岛玲一区二区三区四区| 成人毛片在线播放| 中文字幕在线观看亚洲| 免费观看亚洲视频大全| 久久男人资源站| 久久久精品中文字幕麻豆发布| 日本成人一级片| 另类色图亚洲色图| 麻豆精品99| 午夜两性免费视频| 一区二区三区在线看| 亚洲欧美日韩精品永久在线| 国产精品久久久久不卡| 欧美有码视频| 精品人妻一区二区三区香蕉 | 秋霞欧美视频| 中文字幕久久久久久久| 狠狠色香婷婷久久亚洲精品| 成人免费在线电影| 3d动漫精品啪啪一区二区三区免费 | 国产亚洲一区字幕| 国产又色又爽又黄又免费| 欧美国产视频一区二区| 国产探花在线精品一区二区| 男人的天堂最新网址| 亚洲v精品v日韩v欧美v专区| 成人高清免费在线播放| www.久久爱.cn| 奇米影视在线99精品| 国产一国产二国产三| 一本色道久久88综合亚洲精品ⅰ| 亚洲一区二区三区免费| 欧美一级黄色影院| 亚洲午夜电影在线观看| 亚洲视频tv| 美日韩免费视频|