精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別無效計算!新TTS框架拯救19%被埋沒答案,推理準確率飆升

人工智能 新聞
華為諾亞方舟實驗室聯合香港中文大學等機構的研究人員提出逐步推理檢查點分析(SRCA)框架 —— 在推理步驟間引入 “檢查點”,并集成兩大核心策略。

大語言模型通過 CoT 已具備強大的數學推理能力,而 Beam Search、DVTS 等測試時擴展(Test-Time Scaling, TTS)方法可通過分配額外計算資源進一步提升準確性。然而,現有方法存在兩大關鍵缺陷:路徑同質化(推理路徑趨同)和中間結果利用不足(大量高質量推理分支被丟棄)。

為解決這些問題,華為諾亞方舟實驗室聯合香港中文大學等機構的研究人員提出逐步推理檢查點分析(SRCA)框架 —— 在推理步驟間引入 “檢查點”,并集成兩大核心策略:(1)答案聚類搜索(Answer-Clustered Search):根據中間檢查點答案對推理路徑進行分組,在保證質量的同時維持路徑多樣性;(2)檢查點候選增強(Checkpoint Candidate Augmentation):利用所有中間答案輔助最終決策。

實驗結果表明,在多個數學數據集上,如 MATH500 和 OlympiadBench,SRCA 相較于現有 TTS 方法,推理準確性均有提升。該論文已被 EMNLP 2025 接收。

  • 論文題目:Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning
  • 論文鏈接:https://arxiv.org/abs/2505.17829

Test Time Scaling(TTS)技術簡單來說就是在模型測試階段 "砸資源":不改變模型本身,而是通過增加推理時的計算開銷,讓 LLM 在解題時 "多想一會兒",從而顯著提升推理準確性。除了常見的長思維鏈,比如 DeepSeek R1 典型的 think 模式,多次采樣并有策略的搜索正確解題路徑也是一種常見的 TTS 策略。

我們常用的多數投票 / 自我一致性(Self-Consistency)可以視為是最樸素的 TTS 技術。比如讓模型對一道數學題生成 10 個推理過程,最后選出現次數最多的答案。這種看似簡單的方法,卻能顯著提升模型推理的準確率 —— 代價是多花幾倍計算時間。

隨著任務難度提升,這種暴力提升采樣次數的做法效率越來越低。于是研究者們引入了額外的打分模型,比如一個過程獎勵模型(PRM),從而開發了更先進的 TTS 算法。

  • Beam Search:(左圖)每次采樣得到的路徑由 PRM 打分,保留得分最高的 k 條推理路徑繼續深入,避免在錯誤方向浪費資源;
  • DVTS(Diverse Verifier Tree Search):(右圖)同時維護多個獨立的推理樹,每棵樹向下探索 PRM 打分最高的路徑。強迫模型探索不同解題思路,減少 "一條道走到黑" 的風險。

不過這類方法仍然存在兩個問題。

兩大痛點

  • 思路太單一:明明生成了多條推理路徑,最終卻都往一個方向扎堆(路徑同質化)。這是由 PRM 的局限性帶來的:并不完美的 PRM 打分具有隱式的偏好,選出的路徑往往具有一定的共性。這有時會導致一些思路不同但并未出錯的解題路徑打分略低未能被繼續探索。
  • 中間結果浪費:推理過程中產生的大量中間過程被直接丟棄。以 Beam Search 為例,假設采樣次數為 16,束寬為 4,則采樣中 75% 的步驟將被直接丟棄。這其中不乏一些優質的正確的解題思路,但是這些中間過程并未有效貢獻到最終答案的決策中。

我們的解法:給推理過程 "設檢查點"

針對這些問題,我們提出了 SRCA(Stepwise Reasoning Checkpoint Analysis) 框架,該框架包含三個關鍵組件:

  • 檢查點注入:強制模型在每一步推理后暫停并輸出階段性答案。
  • 答案聚類搜索:把檢查點答案一樣的推理路徑歸為一組,并從每組內選擇路徑繼續推理。
  • 檢查點候選增強:收集所有檢查點答案加入到最終答案的選擇。

下面是每個組件的具體介紹。

檢查點注入(Checkpoint Injection):打斷推理并預測答案

檢查點注入是 SRCA 的基礎技術,后續的 ACS 和 CCA 算法全部依賴于檢查點注入收集到的中間答案,核心思路是強制模型在每一步推理后暫停并輸出階段性答案。早期的工作中亦有類似的探索,chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同樣是利用暫停推理收集答案的思路觀測模型推理時置信度 (confidence) 的變化以判斷模型推理是否準確。而檢查點注入則更關注模型階段性推理的答案本身,具體流程如下:

  1. 檢測步驟結束符(如 "### Step"):當檢測到此類字段時,說明 LLM 的上一步推理已經結束,可以進行答案檢查。
  2. 插入提示 "So the answer is":我們通過插入后綴強行改變上下文,模型沿著新的上下文繼續解碼,輸出它所認為的答案。
  3. 記錄檢查點答案:該答案是我們后續改進搜索策略和投票的重要依據。

通過這樣的方式,我們可以收集到模型基于當前推理步驟得出的答案。這種 “中間答案” 盡管并不完整和精確,但它們在一定程度上可以代表模型在當前的思考過程,比如兩條推理路徑得出的中間答案是一樣的,我們則可以認為這兩條推理路徑目前解題的思路和進度是類似的。收集到中間答案后,通過合理的 KV Cache 管理,我們可以將推理狀態回滾到上一步推理結束的時刻,從而避免反復推理降低計算開銷。

答案聚類搜索(ACS):防止 “思路扎堆”,鼓勵不同解法

基于檢查點答案,我們重新設計了路徑搜索策略,提出了 Answer Clustering Search 算法。傳統方法(如 Beam Search)雖然讓模型嘗試多條路,但 PRM 打高分的路徑往往類似,這就容易提前扼殺搜索路徑的多樣性,導致最終錯過可能的正確答案。

針對路徑同質化問題,ACS 在檢查點執行雙層篩選機制:

  • 組內擇優:將同中間答案的路徑歸組,按組內 PRM 總分排序
  • 組間競爭:采用輪詢調度(Round-Robin),按總分順序從每組抽取最優路徑

這樣保證了不同解題方向(不同組)都有機會保留至少一條 “種子選手” 繼續發展。即使某一種方法(組)目前分數不是最高,只要它整體有潛力,它最好的那條路也有機會被選上。這就大大增加了解題思路的多樣性,避免大家一窩蜂擠到一條(可能錯的)思路上。

檢查點候選增強(CCA):搶救 “半成品好答案”,變廢為寶

在傳統樹搜索(如 Beam Search / DVTS)中,只有那些最終走完全程的路徑才有資格參與最終答案的評選。大量未完成的中間推理步驟被直接丟棄。CCA 通過收集復用這些未完成路徑的檢查點答案提升模型推理的準確性:

  1. 在每一步推理之后,記錄收集所有的檢查點答案。
  2. 即使一條路沒走完,它在某個步驟得出的那個中間答案,也可能是最終答案。所以 CCA 會把每個中間答案連同它走到這一步的推理過程,都打包成一個獨立的候選答案。這就像把那些半成品搶救出來。
  3. 當所有路徑都推理結束后(無論是走完還是被淘汰),最終的答案評選不再是只看那幾條 “完整” 路徑的最終答案。CCA 會把所有收集到的這些 “半成品答案” 和完整路徑的最終答案,全部放在一起,根據 PRM 的打分選擇最高者。

這樣極大減少了 “好答案被中途埋沒” 的情況。即使模型后面推理跑偏了,只要它在某個步驟 “靈光一現” 得出了正確結果,CCA 就能把它撈回來,給模型一個 “后悔藥”。這大大提高了計算資源的利用率。下面是一個具體的示例:

如圖所示,模型推理完成得到的答案是 9,而正確答案是 27。但回顧推理過程中的檢查點答案可以發現,模型在第 4 和第 5 步已經得出了 27 這個答案,而錯誤出在第 6 步 ——9 是一個完全平方數而不是平方立方數。而 CCA 記錄收集了所有檢查點答案,并綜合考慮所有候選答案選出最終結果。可以看到第 5 步的檢查點答案得到了最高分 0.7192,該答案被 CCA 恢復并修正了錯誤答案。

實驗結果

TL;DR:

  • SRCA 框架加持的 1B 小模型在 MATH500 數據集上達到 65.2% 準確率,首次超越參量 70 倍的 70B 大模型(65.0%)
  • 通過答案聚類搜索(ACS)優化路徑多樣性,SRCA 僅需 16 次采樣即可達到其他 TTS 方法 128 次采樣的精度。在同等硬件條件下,推理效率提升達 8 倍,從而降低計算成本。
  • 檢查點候選增強(CCA)策略成功從中間步驟拯救 19.07% 的正確答案。這些答案誕生于推理中途,卻因后續路徑偏差被丟棄。CCA 通過復用高質量中間結果,構建了強大的錯誤容忍機制。
  • 設置合理閾值,當候選池中出現超過閾值的檢查點答案即停止推理輸出答案,平均可節省 27% 的推理步驟,推理準確率輕微下降 0.58%。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓練

2025-03-04 10:15:00

2022-09-14 13:30:33

AI手機程序

2025-10-23 12:46:39

2025-05-21 13:56:37

模型圖像AI

2024-09-12 13:50:00

模型訓練

2025-06-03 08:25:00

推理模型框架

2025-11-21 12:12:09

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2019-01-03 09:04:04

谷歌系統機器

2023-11-08 08:38:43

2025-07-21 09:05:00

模型AI芯片

2024-01-05 08:44:52

2025-04-18 08:42:52

模型推理AI

2024-06-20 10:43:15

2023-12-01 10:20:00

谷歌技術

2025-06-10 09:05:00

2025-07-04 08:53:00

點贊
收藏

51CTO技術棧公眾號

91亚洲天堂| 精品人妻一区二区三区日产| 色网站在线看| 国产精品夜夜嗨| 久久久久在线观看| 精品人妻无码一区二区三区换脸| 91精品美女| 亚洲综合在线第一页| 精品在线观看一区二区| 中国精品一区二区| 国产精品theporn| 亚洲色图17p| 香蕉视频xxx| 中文在线免费视频| 亚洲色图.com| 久久婷婷开心| 国产女无套免费视频| 亚洲日韩成人| 日韩在线播放视频| www.88av| 精品一区二区三区亚洲| 欧美日韩国产一区二区三区| 丝袜美腿玉足3d专区一区| 成人午夜免费福利| 日本成人在线电影网| 久久久久久久久久久国产| 影音先锋男人在线| 东京久久高清| 欧美午夜精品一区| 成人黄色av片| 国产黄网站在线观看| 久久久国际精品| 99在线热播| 一级黄色a视频| 久久久亚洲一区| 欧美精品激情视频| 亚洲人做受高潮| 奇米色欧美一区二区三区| 亚洲国产日韩欧美综合久久| 亚洲一区二区三区观看| 裤袜国产欧美精品一区| 亚洲国产精品久久一线不卡| 欧美aaa在线观看| a黄色在线观看| 久久亚洲综合av| 国产综合欧美在线看| 午夜精品久久久久久久99| 九色|91porny| 国产日韩欧美夫妻视频在线观看 | 亚洲欧美另类在线| 亚洲国产一区二区精品视频| 黄色国产在线| 国产欧美日韩精品在线| 日韩偷拍一区二区| 国产精品麻豆一区二区三区 | 免费欧美日韩国产三级电影| 日本亚洲欧洲色α| 好吊色在线视频| 久久青草久久| 国产精品日韩欧美综合| 中文字幕+乱码+中文| 日本系列欧美系列| 国产精品视频1区| 亚洲一区 中文字幕| 青青草97国产精品免费观看无弹窗版 | jizz性欧美10| 亚洲精品一二三四区| 日韩a级黄色片| 福利成人导航| 都市激情亚洲色图| 午夜视频在线瓜伦| 日韩成人综合网| 欧美一卡二卡在线| 国产一级免费片| 窝窝社区一区二区| 亚洲性生活视频| 日日操免费视频| 91精品国产麻豆国产在线观看 | 色乱码一区二区三在线看| av在线资源网| 综合色天天鬼久久鬼色| 福利视频免费在线观看| 日韩电影免费观看高清完整版| 欧美日韩一区二区在线观看视频| 天天久久综合网| 久久悠悠精品综合网| 国产亚洲精品久久久| 欧美爱爱免费视频| 亚洲精品字幕| 成人黄色免费片| 免费av网站在线播放| 国产偷国产偷精品高清尤物| ijzzijzzij亚洲大全| cao在线视频| 欧美色视频在线| 五月天丁香社区| 欧美少妇性xxxx| 欧美激情网友自拍| 黄色av一区二区| 国产91丝袜在线观看| 欧美日韩在线一二三| 黄色片网站在线| 精品成人久久av| 中文字幕国产高清| 午夜精品福利影院| 久久久精品日本| 女人十八岁毛片| 国产一区二区三区四区五区入口 | 欧美性猛交xxxx富婆| 亚洲激情在线看| 香蕉久久精品| 欧美另类极品videosbest最新版本| 日本va欧美va国产激情| 国产一区欧美二区| 欧洲亚洲一区| av漫画网站在线观看| 欧美二区在线观看| 91成人破解版| 亚洲人成免费| 岛国视频一区免费观看| 北岛玲一区二区三区| 欧美日韩美女在线观看| 亚洲性图第一页| 天天射综合网视频| 国产精品久久久久久久久久东京| 天堂中文在线观看视频| 一区二区三区视频在线看| 污污网站免费观看| 精品视频亚洲| 日本久久久久亚洲中字幕| 懂色av一区二区三区四区| 亚洲欧美偷拍另类a∨色屁股| 麻豆一区二区三区视频| 伊人成综合网yiren22| 国内成人精品一区| 成人免费视频国产| 亚洲福中文字幕伊人影院| 国产一级片中文字幕| 亚洲成av人片一区二区密柚 | 激情av综合| 欧美激情a在线| 国产黄色片av| 亚洲精品大片www| 日本一二三区在线| 亚洲激情五月| 2020国产精品久久精品不卡| 国产精品扒开做爽爽爽的视频| 欧美色图片你懂的| 国产又粗又长又硬| 久久av资源网| 久久久一二三四| 国产aa精品| 欧美成人免费全部观看天天性色| 国产伦理吴梦梦伦理| 亚洲色图20p| 自拍视频第一页| 海角社区69精品视频| 国产欧美日韩伦理| 看黄在线观看| 亚洲欧美精品在线| 日韩xxx视频| 国产精品国产三级国产普通话99| 九九九九九国产| 午夜欧美精品久久久久久久| 99在线视频播放| 中文在线а√天堂| 在线观看欧美成人| 一二区在线观看| 亚洲一区国产视频| 中文字幕5566| 青青青伊人色综合久久| 潘金莲一级淫片aaaaaa播放1| 日韩08精品| 午夜精品久久17c| 免费国产在线观看| 在线不卡欧美精品一区二区三区| 青青草成人免费| 91色porny| 亚洲精品20p| 激情六月综合| 欧美亚洲另类久久综合| 日韩精品第二页| 久久久女女女女999久久| 久久经典视频| 91精品国产综合久久精品图片| 九九热国产视频| 欧美极品少妇xxxxⅹ高跟鞋 | 久久精品免视看| 午夜av中文字幕| 第一会所亚洲原创| www.成人av.com| 日韩福利一区| 欧美激情videoshd| 99riav在线| 亚洲电影成人av99爱色| 波多野结衣黄色| 亚洲国产美国国产综合一区二区| 欧洲av一区二区三区| 国产成人小视频| 日本www.色| 精品电影一区| 中文字幕人成一区| 五月综合久久| 成人看片在线| 欧美日韩在线精品一区二区三区激情综合| 欧美成人午夜免费视在线看片 | 国产麻豆精品一区| 欧美日韩国产精品一区| 亚洲成人生活片| 欧美激情综合五月色丁香| 秘密基地免费观看完整版中文| 免费成人在线影院| 国产视频一视频二| 午夜欧美理论片| 熟女熟妇伦久久影院毛片一区二区| 亚洲精品动态| 国产精品视频在线免费观看| 日韩综合久久| 国产精品www色诱视频| 成年男女免费视频网站不卡| 久久视频在线视频| 在线看黄色av| 在线国产精品视频| 三级国产在线观看| 亚洲精品www久久久| 性生活视频软件| 欧美电影影音先锋| 亚洲一级黄色大片| 欧美日韩在线一区二区| 亚洲国产成人无码av在线| 亚洲综合免费观看高清完整版| 北条麻妃在线观看视频| 中文字幕免费不卡| 无码h肉动漫在线观看| 99精品热视频| 国产精品麻豆入口| 成人avav影音| 无码人妻精品一区二区三区99不卡| 国产一区二区三区四区在线观看| 日本高清一区二区视频| 久久99精品久久久久久久久久久久 | www青青草原| 成人欧美一区二区三区| 一区二区三区在线观看免费视频| 久久久精品免费网站| 男人天堂av电影| 久久久欧美精品sm网站| 无码 人妻 在线 视频| 久久久久久久久久久黄色 | 韩国av免费在线| 日韩精品一区国产麻豆| 亚洲va天堂va欧美ⅴa在线| 日韩免费高清视频| 亚洲第一大网站| 精品久久久久久久一区二区蜜臀| 高h震动喷水双性1v1| 亚洲福利视频在线| 亚洲 欧美 激情 另类| 亚洲奶大毛多的老太婆| 国产精品ⅴa有声小说| 色先锋资源久久综合5566| 免费黄色在线观看| 欧美伦理91i| av剧情在线观看| 国产盗摄xxxx视频xxx69| 日韩欧美一区二区三区免费观看 | 国产精品黄网站| 蜜桃传媒视频麻豆第一区免费观看| 天天躁日日躁成人字幕aⅴ| 日本欧美精品久久久| 999成人精品视频线3| 国产精品igao激情视频| 国产欧美短视频| 91国产精品视频在线观看| 国产一区二区三区精品视频| 中文字幕在线观看视频www| av亚洲产国偷v产偷v自拍| 男人舔女人下部高潮全视频 | 老司机午夜网站| 亚洲黄色一区| 亚洲三级视频网站| 国产精品一区在线观看你懂的| 成人性生活免费看| 国产精品热久久久久夜色精品三区 | 午夜av中文字幕| 99久久精品国产导航| 少妇视频在线播放| 一区二区三区波多野结衣在线观看| 国产又黄又粗又爽| 91麻豆精品国产91久久久资源速度 | 菠萝蜜影院一区二区免费| 国产精品探花在线| 国产精品第100页| 亚洲**毛片| 亚洲狠狠婷婷综合久久久| 在线观看一区| 在线观看免费不卡av| av亚洲产国偷v产偷v自拍| 午夜激情视频在线播放| 精品久久久精品| 国产视频aaa| 国产亚洲精品日韩| 91丝袜在线| 成人信息集中地欧美| 亚洲另类av| a级黄色片免费| 麻豆视频观看网址久久| free性中国hd国语露脸| 亚洲蜜臀av乱码久久精品| 免费黄色av片| 日韩av在线最新| а√天堂在线官网| 国产成人一区三区| 国产伦理久久久久久妇女 | 精品国内片67194| 蜜桃视频在线观看www社区| 欧美一区亚洲一区| 91午夜精品| 四虎影院一区二区| 日本aⅴ免费视频一区二区三区 | 岛国大片在线免费观看| 欧美国产激情二区三区| 久久久久久久黄色片| 日韩一区二区在线观看视频| 永久免费av在线| 国产ts一区二区| 日韩在线影视| 日韩国产一级片| 国产91精品久久久久久久网曝门| 永久免费看mv网站入口| 91成人网在线| 美丽的姑娘在线观看免费动漫| 国内精品小视频在线观看| 欧美精品影院| 中文字幕一区二区三区四区五区人 | 六月婷婷综合网| 欧美精品日韩三级| 91精品网站在线观看| 一区高清视频| 久久精品国产亚洲aⅴ| 青青青视频在线播放| 在线日韩国产精品| 国产香蕉在线| 国产精品欧美激情| 日韩av二区| 91亚洲免费视频| 国产精品久久久一本精品 | 精品成人一区二区三区| 欧美xxxx做受欧美88bbw| 99久久综合狠狠综合久久止| 欧美日韩国产免费观看 | 国产乱码77777777| 亚洲丝袜av一区| 91p九色成人| 永久域名在线精品| 狠狠久久亚洲欧美| 99久久婷婷国产综合| 日韩精品影音先锋| 国内小视频在线看| 国产自产精品| 午夜亚洲伦理| 天天操天天舔天天射| 欧美蜜桃一区二区三区| 成人区精品一区二区不卡| 肥熟一91porny丨九色丨| 99亚洲一区二区| 李宗瑞91在线正在播放| 欧美三级视频在线观看| 黄视频在线观看网站| av成人午夜| 免费在线观看成人av| 亚洲无人区码一码二码三码的含义 | 久久免费美女视频| 波多野结衣黄色网址| 精品国产一区av| 成功精品影院| 国产xxxxx视频| 亚洲色欲色欲www在线观看| 亚洲精品免费在线观看视频| 5566日本婷婷色中文字幕97| 国产在线日韩精品| 国产精品嫩草影视| 精品欧美aⅴ在线网站| 国产精品久久久久久久龚玥菲| 亚洲影院在线看| 亚洲制服av| 久久久久久久麻豆| 亚洲精品国产美女| 福利一区二区三区视频在线观看| 女人色极品影院| 久久精品综合网| a天堂视频在线| 日韩av免费看网站| 亚洲情侣在线| caopeng视频| 日韩免费看网站| a∨色狠狠一区二区三区| 你真棒插曲来救救我在线观看| 国产精品色噜噜| 日本一区视频|