精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從想太多到想不透?DeepSeek-R1等長推理模型也存在「思考不足」問題

人工智能 新聞
騰訊 AI Lab 與蘇州大學、上海交通大學聯合團隊最新發現,長推理模型也存在思考不足問題。

本文將介紹首個關于長推理模型 “思考不足” 現象的工作。該工作由騰訊 AI Lab 與蘇州大學、上海交通大學團隊共同完成。本文的通訊作者為涂兆鵬,騰訊專家研究員,研究方向為深度學習和大模型,在國際頂級期刊和會議上發表學術論文一百余篇,引用超過 9000 次。擔任 SCI 期刊 NeuroComputing 副主編,多次擔任 ACL、EMNLP、ICLR 等國際頂級會議領域主席。第一作者為蘇州大學博士生王越,騰訊 AI Lab 高級研究員劉秋志、徐嘉豪、梁添,以及上海交通大學博士生陳星宇、何志威。

圖片

  • 論文題目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
  • 論文地址:https://arxiv.org/pdf/2501.18585

背景與動機

長推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等,因其展現出類似人類的深度思考能力而備受關注。這些模型通過長時間推理(Inference-Time Scaling),能夠在解碼階段不斷思考并嘗試新的思路來優化自身的答案質量。然而,長推理模型在推理過程中所有的思考是否高效,這一問題仍未得到充分探索。

此前,騰訊 AI Lab 的研究團隊發現,長推理模型在面對簡單問題時,其思考行為會出現大量重復,從而浪費大量計算資源 [5](o1 也會「想太多」?騰訊 AI Lab 與上海交大揭秘 o1 模型過度思考問題)。而在面對難題時,長推理模型的思考模式是否高效依然是一個疑問。基于此,該研究團隊進一步深入研究,試圖揭示長推理模型在復雜問題上的表現及其潛在問題。

思考不足是長推理模型的 “注意力缺陷多動障礙”

研究團隊的最新研究顯示,長推理模型在推理過程中往往頻繁地進行思路跳轉,無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。研究團隊首先將 “思路(thought)” 定義為模型在推理策略中產生的中間認知步驟。長推理模型常常通過使用 “alternatively” 等術語來切換推理思路。例如,在下圖所示的例子中,模型可能會從代數操作轉向幾何解釋,再到優化策略。這種思路切換使得長推理模型能夠更廣泛地探索潛在的解決方案,展示了其在解決復雜問題時的靈活性。

圖片

研究人員統計了在 MATH500 測試集的不同難度級別下,生成回答時的平均思路和 token 數量:

圖片

顯然,隨著難度增加,所有模型產生的推理思路也有所增多,并且這一趨勢與生成 token 數量的增長一致。這表明,隨著問題復雜性的增加,模型更傾向于頻繁切換思路,從而能夠動態調整推理過程,以應對更具挑戰性的問題。

那么,長推理模型是否會在思路切換的過程中提升其準確率呢?圍繞這一問題,研究團隊在 AIME24、Math500-Hard 和 GPQA Diamond 等測試集上,對正確回答和錯誤回答的平均思路數量以及 token 數量進行了深入分析,結果如下圖所示:

圖片

圖片

相較于正確答案,長推理模型在錯誤回答中往往會出現更多的推理思路切換。這導致了回答長度顯著增長,但準確性卻未能相應提升。平均而言,長推理模型在 AIME24 上的錯誤回答中因頻繁思路切換,生成的 token 數量比正確回答多出 225%,思路數量增加了 418%。相比之下,傳統的 LLM(如 Qwen-Math-72B 和 Llama3.3-79B)在正確與錯誤回答之間的回答長度沒有顯著差異。

這一趨勢表明,盡管模型被設計為動態調整其認知過程來解決問題,但更頻繁的思路切換并不一定能提升準確性。換句話說,在處理難題時,長推理模型也存在 “注意力缺陷多動障礙” 的問題。研究團隊將這種現象命名為 “思考不足”(Underthinking),即長推理模型在推理過程中頻繁地進行思路跳轉,無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。實際上,模型可能在消耗額外計算資源(通過增加生成的 token 體現)時,未能提供更精確的解決方案。這些發現表明,在面對復雜問題時,除了探索額外的認知途徑外,更需要以更有針對性和高效的方式進行操作,才能在推理復雜的問題時提升準確性。

量化 “思考不足”

研究團隊認為,頻繁切換思路而得出錯誤答案的行為,可能源于以下兩個原因:一是真正的思考不足,即模型雖然找到了一條有希望的思路,但未能持續深入地堅持下去;二是對問題缺乏深入理解,從而盲目探索各種無效的方法。

為了進一步厘清這些可能性,研究團隊提出了一個評估框架,用于評估一條被放棄的推理路徑是否足以得出正確的答案。通過關注模型是否能夠持續遵循和深化一條 “看起來有希望的思路”,可以識別思考不足的情況。具體而言,研究團隊使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 來判斷一個思路是否能得到正確答案。

為了驗證模型回答中的初步想法是否正確,下圖展示了在錯誤回答中不同位置思路的正確比例。

圖片

結果顯示,在各種模型的初步想法中,相當一部分的解題思路是正確的,但遺憾的是,模型并沒有深入思考這些解題思路,而是過早地放棄了。這一現象表明,模型需要增強持續深入且準確地探索特定推理路徑的能力,而不是輕易轉向其他思路。

此外,研究團隊還分析了不同模型的錯誤回答中正確思路比例的分布情況,如下圖所示:

圖片

觀察發現,超過 70% 的錯誤回答中至少包含一個正確的思路。此外,在這些回答中,有超過 50% 的回答其正確思路的比例達到 10% 以上。這表明,雖然長推理模型能夠成功找到正確的推理思路,但它們往往難以沿著這些路徑持續深入,進而得出正確的結論。這一現象凸顯了鼓勵模型保持并拓展其最初正確思路的重要性,以便將這些正確思路整合為準確的最終答案。

基于上述觀察結果,研究團隊提出了第一個針對長推理模型思考不足的指標(Underthinking Score),表示為圖片。該指標的計算公式為:

圖片

其中,N 是測試集中的錯題數量,圖片是第 i 個錯題的回答 token 數量,圖片是從該回答開始到第一個正確想法為止的 token 數量(包括第一個正確想法)。如果第 i 個回答中沒有正確的思路,則 圖片 ,表示模型對該問題缺乏理解,因此無法認為是 “思考不足”。直觀地說,如果一個模型在回答過程中最初產生了正確的思路,但隨后轉向其他思路并最終未能得出正確答案,那么此后生成的 token 對于最終達到正確答案并無實質性貢獻。這種情況下,由于缺乏足夠的思考深度,模型的推理過程被認為是低效的。具體而言,圖片值低表示更高的推理效率,這意味著在錯誤回答中,有更大比例的 token 能夠為正確思路的形成提供支持;圖片值高表示較低的推理效率,意味著有更大比例的 token 未能有效助力于正確思路的生成,即模型可能因頻繁切換思路而生成大量冗余或不相關的 token。

借助這一指標,研究人員能夠定量地評估模型在錯誤回答中的推理效率。下表展示了不同模型的準確率(越高性能越強)和思考不足得分圖片(越小越能充分思考):

圖片

結果表明,單純增大模型尺寸并不能避免思考不足,模型準確率的提升也不一定會減少該現象。由此可見,我們需要深入探索思考不足這一復雜現象,從而在訓練模型的過程中,不僅使其能夠給出正確的答案,還能具備高效的推理能力。

緩解思考不足:引入思路轉換懲罰

為了緩解長推理模型的思考不足現象,研究團隊提出了一種懲罰思路轉換的解碼策略,稱為 “Thought Switching Penalty”(TIP)。該策略通過在生成過程中對思路切換施加懲罰,鼓勵模型在深入探索每個推理路徑后再考慮其他替代方案。

在標準的解碼過程中,在位置 t 生成 token v 的概率是通過對輸出層的 logits 使用 softmax 函數計算的:

圖片

其中 圖片是位置 t 關于 token v 的 logit(未歸一化的分數)。為了鼓勵模型在切換思路之前更深入地探索當前思路,研究團隊引入了一個對與思路轉換相關的表達懲罰。具體而言,設圖片 是與思路切換相關的詞匯集合(例如,“alternatively”),作者們修改了 logits 如下:

圖片

其中:圖片(懲罰強度)是一個控制對思路切換標記施加懲罰強度的參數。較大的圖片會導致這些詞語的 logits 減少更多,使它們被選中的可能性降低;圖片(懲罰持續時間)指定了從思路開始位置 圖片起的懲罰生效的位置數。較大的圖片會延長懲罰的范圍,進一步阻止過早的思路切換;當圖片時,懲罰被禁用,解碼過程退化為標準解碼算法。

調整后的 logits圖片減少了在指定窗口內生成思路切換標記的概率,從而鼓勵模型在繼續擴展當前思路之前不進行切換。新的概率分布變為:

圖片

TIP 策略通過懲罰機制抑制模型生成思路轉換相關的詞語,從而鼓勵模型在生成文本時保持其原始的推理路徑,并進行更深入的思考,避免頻繁的策略切換和表面化的推理模式。下圖展示了 QwQ-32B-Preview 在加入了 TIP 策略之后的結果:

圖片

結果顯示,通過引入 TIP 策略,即使不進行模型微調也能在 MATH500-Hard、GPQA Diamond 和 AIME2024 上獲得準確率提升并減少思考不足

總結

騰訊 AI Lab 與蘇州大學、上海交通大學聯合團隊最新發現,長推理模型也存在思考不足問題。具體體現為長推理模型在推理過程中頻繁地進行思路跳轉,無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。研究團隊將這種現象命名為 “思考不足”(Underthinking)。

研究團隊首先觀察到長推理模型頻繁切換思路的現象,并進一步發現這一現象由思考不足導致。為了定量評估思路切換的問題,研究團隊引入了一種新穎的思考不足指標,為推理效率低下提供了量化評估框架。同時,研究團隊提出了一種緩解思考不足的簡單有效方案 —— 帶有思路切換懲罰(Thought Switching Penalty,TIP)的解碼方法。該方法鼓勵模型在考慮替代方案之前,徹底探索每一條推理思路,從而無需額外的微調就能提高模型的準確性。

這項研究不僅揭示了長推理模型在推理過程中的不足之處,還提供了一種實用的解決方案,有助于顯著提升模型在處理復雜問題時的表現。展望未來,研究者將繼續探索模型中的自適應機制,以實現對思路轉變的自我調節,進一步提高長推理模型的推理效率。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-03-06 17:29:21

2025-04-07 09:23:00

大模型LLM推理

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-02-24 14:05:00

LLM模型AI

2025-03-05 03:00:00

DeepSeek大模型調優

2025-02-21 10:34:49

2025-02-13 08:51:23

DeepSeek大模型

2025-03-06 10:14:39

2025-01-08 13:08:55

2025-04-11 14:54:44

2025-02-19 08:00:00

2025-04-11 12:04:58

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-03-06 09:55:49

2025-06-03 17:38:24

模型AIDeepSeek

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-03-19 09:20:00

點贊
收藏

51CTO技術棧公眾號

青青草成人网| 国产精品mp4| 免费不卡的av| 99热播精品免费| 亚洲日本在线天堂| 国产一区二区三区无遮挡 | 天天做天天爱天天爽综合网| 日韩欧美国产综合| 成人午夜视频免费在线观看| 麻豆传媒在线观看| 91在线视频在线| 成人黄色av播放免费| 日韩美女黄色片| 91亚洲自偷观看高清| 精品国产乱码久久久久久闺蜜 | 性感美女一区二区在线观看| 一区二区在线看| 日韩videos| 亚洲大尺度视频| 久热成人在线视频| 欧美在线播放视频| 国产一级av毛片| 外国成人激情视频| 国产小视频国产精品| 国产伦精品一区二区三区精品| 男人亚洲天堂| 欧美日韩亚洲视频| 国产精品一色哟哟| 久久亚洲天堂| 你微笑时很美电视剧整集高清不卡| 在线成人av影院| 黑人粗进入欧美aaaaa| 成人bbav| 亚洲一级电影视频| 麻豆视频传媒入口| 欧美jizzhd欧美| 久久精品亚洲国产奇米99| 中文字幕第一页在线视频| 伊人免费在线观看高清版| 在线成人黄色| 欧美成人精品三级在线观看 | 国产特黄一级片| 男人的j进女人的j一区| 日韩av电影在线播放| 亚洲精品视频在线观看免费视频| 亚洲天堂黄色| 精品久久久av| 国产又黄又粗又猛又爽的| 精品一区电影| 在线看国产精品| 日韩丰满少妇无码内射| 男男gay无套免费视频欧美| 亚洲成人教育av| 理论片大全免费理伦片| 久久精品国产亚洲blacked| 精品国一区二区三区| 蜜桃色一区二区三区| xxxx日韩| 日韩激情在线视频| 久久久久亚洲av无码专区桃色| 女同一区二区三区| 精品夜色国产国偷在线| 亚洲第一成人网站| 精品福利久久久| 色婷婷av一区二区三区在线观看| 看黄色录像一级片| 你懂的国产精品永久在线| 欧美日韩电影在线观看| 国产无精乱码一区二区三区| 99精品视频免费观看视频| 2019av中文字幕| 欧美日韩a v| 老司机精品视频一区二区三区| 91久久国产精品| 国产91绿帽单男绿奴| 99精品久久久久久| 免费一区二区三区| 97电影在线观看| 亚洲柠檬福利资源导航| 免费人成自慰网站| 婷婷综合六月| 欧美精品tushy高清| 韩国一区二区三区四区| 亚洲免费专区| 色综合久久综合网97色综合| 久久黄色免费看| 97久久精品一区二区三区的观看方式| 日韩一区二区免费视频| 极品白嫩丰满美女无套| 久久五月天小说| 久久6精品影院| 国产无人区码熟妇毛片多| 日本vs亚洲vs韩国一区三区 | 欧美极度另类性三渗透| 国产三级av片| 国产呦精品一区二区三区网站| 国产精品一区二区三区在线| 国产中文在线| 99久久99久久精品免费观看| 亚洲成人自拍视频| 天堂va在线| 在线视频综合导航| 久久久久99人妻一区二区三区| 国模精品一区| 久久露脸国产精品| 91在线精品入口| 91麻豆精品在线观看| 只有这里有精品| 精品国模一区二区三区| 欧美精品一区二区三区在线播放| 99自拍偷拍视频| 一区二区日韩免费看| 亚洲伊人第一页| 国产视频三级在线观看播放| 亚洲午夜精品在线| 五月天开心婷婷| 欧美美女在线| 欧美中文字幕在线观看| www.综合色| 中文字幕一区二区三区不卡| 日本三区在线观看| 欧美三级午夜理伦三级小说| 欧美成人免费在线视频| 国产精品久久久午夜夜伦鲁鲁| 91麻豆免费视频| 国产精品专区在线| heyzo高清在线| 欧美一区中文字幕| 18啪啪污污免费网站| 鲁大师成人一区二区三区| 成人区精品一区二区| 大地资源网3页在线观看| 欧美日韩在线三级| 色屁屁草草影院ccyy.com| 亚洲欧美清纯在线制服| 精品在线不卡| av在线中出| 亚洲精美色品网站| 日本熟妇一区二区| 成人app下载| 人妻少妇精品无码专区二区| 一区二区亚洲视频| 欧美大片免费观看| 精品人妻午夜一区二区三区四区| 国产精品久久久久9999吃药| 天天干天天操天天做| 第一会所sis001亚洲| 国产精品直播网红| av大片在线播放| 欧美日韩国产小视频在线观看| 久久精品国产亚洲av麻豆| 西西人体一区二区| 日本成人三级电影网站| 国产成人免费9x9x人网站视频| 亚洲欧洲黄色网| 中文字幕av影视| 国产精品久久久久久亚洲毛片 | 国产成人在线视频网站| 日本a在线天堂| 盗摄系列偷拍视频精品tp| 久久久久久亚洲精品| 婷婷在线免费观看| 亚洲国产精品一区二区久久 | 国产做受高潮69| 亚州男人的天堂| 在线观看av一区| 亚洲精品久久久久久国| 国产馆精品极品| 九色在线视频观看| 精品免费在线| 91传媒视频在线观看| av影视在线看| 亚洲天堂成人在线| 夜夜狠狠擅视频| 亚洲影视在线观看| 受虐m奴xxx在线观看| 毛片一区二区三区| 欧美高清中文字幕| 蜜乳av综合| 成人免费视频a| 国产盗摄——sm在线视频| 在线观看国产精品日韩av| 国产尤物在线观看| 一区二区三区日韩精品| 蜜桃精品一区二区| 国产在线乱码一区二区三区| 蜜臀av色欲a片无码精品一区| 久久99视频| 不卡一区二区三区四区五区| 国产在线|日韩| 久久久免费在线观看| 91.xxx.高清在线| 亚洲成av人片在线观看香蕉| 日本视频www色| 亚洲不卡在线观看| 一区二区三区在线播放视频| av不卡在线观看| www.国产福利| 久久精品三级| 免费看日b视频| 日韩精品欧美| 麻豆久久久av免费| 少妇精品在线| 国产欧美日韩精品在线观看 | 亚洲视屏一区| 性欧美大战久久久久久久免费观看| 91精品国产乱码久久久竹菊| 国产精品露脸av在线| 91九色美女在线视频| xxxx欧美18另类的高清| 韩国福利在线| 日韩av一区在线观看| 国产三级在线观看视频| 欧美午夜一区二区| 国产亚洲欧美在线精品| 亚洲国产cao| 国产精品九九九九九九| 国产精品视频一二三| 色婷婷在线影院| www.亚洲精品| 成人欧美精品一区二区| 国产精品资源网| 欧美性受xxxxxx黑人xyx性爽| 日韩高清在线不卡| 激情网站五月天| 亚欧成人精品| 日本丰满少妇xxxx| 在线高清一区| 成人在线国产视频| 欧美日韩四区| 免费看日b视频| 午夜精品电影| 99久久久精品视频| 欧美日韩精品| 国产视频在线观看网站| 68国产成人综合久久精品| 最新精品视频| 亚洲最大黄网| 粉嫩av一区二区三区天美传媒 | 人妻偷人精品一区二区三区| 日韩天堂在线观看| www久久久com| 精品日韩欧美在线| 亚洲av永久无码国产精品久久| 91精品一区二区三区久久久久久 | 日本三级理论片| 亚洲午夜电影网| 日本在线观看视频网站| 偷拍一区二区三区四区| 秋霞精品一区二区三区| 色婷婷一区二区| 日本妇乱大交xxxxx| 欧美日韩视频一区二区| 国产精品伦一区二区三区| 91精品国产一区二区三区蜜臀| 国产区精品在线| 日韩欧美三级在线| 色呦呦中文字幕| 亚洲精品理论电影| 欧美美女色图| 中文字幕亚洲专区| av网站免费在线观看| 欧美激情亚洲激情| 亚洲涩涩在线| 国产精品视频在线播放| 亚洲我射av| 国产欧美日韩综合精品二区| 欧美三级自拍| 亚洲一区三区视频在线观看| 欧美日韩亚洲国产精品| 女人扒开屁股爽桶30分钟| 日本不卡的三区四区五区| 精品人妻一区二区三| 97精品久久久午夜一区二区三区| 久久久久亚洲av无码a片| 亚洲人成在线观看一区二区| 五月天婷婷网站| 欧美色国产精品| www.五月婷婷| 国产亚洲xxx| 宅男在线观看免费高清网站| 97人人模人人爽人人喊中文字| 日韩欧美精品一区二区综合视频| 91久久精品一区| 日韩手机在线| 一区一区视频| 一区二区三区高清视频在线观看| 午夜免费高清视频| 成人亚洲一区二区一| 日韩女同一区二区三区| 亚洲一区免费视频| 日韩久久久久久久久久| 日韩欧美亚洲一区二区| 丁香在线视频| 午夜精品久久久久久久白皮肤 | 欧美福利电影网| 五十路在线视频| 久久色精品视频| 亚洲美女久久精品| 成人看片在线| 三级电影一区| 999精品网站| 成人国产精品免费观看| 日本精品在线免费观看| 色综合一区二区| 欧美一级性视频| 久久视频中文字幕| 国产成人精品123区免费视频| 国产精品久久久久久久久婷婷| 日韩久久精品| 天天碰免费视频| 91丨porny丨户外露出| 久久婷婷国产麻豆91| 欧美日韩视频一区二区| 国产中文字幕在线| 欧美亚洲国产成人精品| www.爱久久| 欧美日韩中文字幕在线播放| 男人的j进女人的j一区| av女人的天堂| 欧美日韩一区二区精品| 欧美一级视频免费| 久久久久女教师免费一区| 精品国产乱码久久久久久樱花| 亚洲在线播放电影| 日本视频在线一区| av在线网站观看| 天天色天天操综合| 秋霞视频一区二区| 久久久久久久国产| 136导航精品福利| 少妇久久久久久被弄到高潮| 国产一区美女在线| 免费看一级黄色| 欧美精品乱码久久久久久按摩| a视频网址在线观看| 国产成人午夜视频网址| 神马电影久久| 毛葺葺老太做受视频| 国产偷国产偷亚洲高清人白洁 | av免费在线视| 国产一区免费| 国产美女一区| 激情六月丁香婷婷| 99国产精品久久久久| 在线观看亚洲天堂| 亚洲欧美国产va在线影院| 中文在线中文资源| 欧美日韩在线播放一区二区| 老司机午夜免费精品视频| 亚洲av无码一区二区三区人| 色成人在线视频| 在线播放麻豆| 97netav| 亚洲午夜91| 亚洲精品理论片| 在线免费观看日韩欧美| 日本欧美在线视频免费观看| 亚洲va久久久噜噜噜| 欧美日韩一区二区三区四区在线观看| 亚洲色偷偷色噜噜狠狠99网| 欧美视频不卡中文| bbbbbbbbbbb在线视频| 成人乱人伦精品视频在线观看| 欧美aa国产视频| 艳妇乳肉亭妇荡乳av| 色婷婷av一区二区三区大白胸| 老司机在线视频二区| 成人免费91在线看| 国产美女一区| 精品亚洲乱码一区二区| 欧美精品一区二区三| 三上悠亚国产精品一区二区三区| 亚洲一区影院| 成人午夜视频免费看| 波多野结衣在线电影| 欧美成人sm免费视频| 九九热线有精品视频99| 天天影视色综合| 午夜久久久久久久久| av影片在线看| 国产精品视频福利| 日本视频一区二区| 国产精品变态另类虐交| 伊人久久男人天堂| 97久久综合精品久久久综合| 日av中文字幕| 亚洲一区欧美一区| 1769在线观看| 国产在线精品二区| 国内精品伊人久久久久影院对白| 中文在线观看免费网站| 最好看的2019年中文视频| 国产精品x8x8一区二区| 奇米影音第四色| 精品magnet| 91中文在线| 亚洲午夜激情| 99国产精品久久久久久久久久久 | 国产精品主播直播|