精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破大模型推理瓶頸!首篇「Test-Time Scaling」全景綜述,深入剖析AI深思之道

人工智能 新聞
最近,來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB 、香港中文大學等機構的多位研究者聯合發布了首篇系統性的 Test-Time Scaling 領域綜述。

本文由來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構的多位研究者共同完成。第一作者為來自香港城市大學的博士生張啟源和來自蒙特利爾人工智能實驗室(MILA)的博士生呂福源。

當訓練成本飆升、數據枯竭,如何繼續激發大模型潛能?

在追求通用人工智能(AGI)的道路上,大模型訓練階段的「暴力堆算力」已經逐漸觸及天花板。隨著大模型訓練成本急劇攀升、優質數據逐漸枯竭,推理階段擴展(Test-Time Scaling, TTS) 迅速成為后預訓練時代的關鍵突破口。與傳統的「堆數據、堆參數」不同,TTS 通過在推理階段動態分配算力,使同一模型變得更高效、更智能 —— 這一技術路徑在 OpenAI-o1 和 DeepSeek-R1 的實踐中已初顯威力。 

圖片

圖 1:預訓練擴展和推理階段擴展的示意。

在數學、編程等硬核任務上,TTS 表現亮眼;而在開放問答、多模態理解乃至復雜規劃等場景中,它同樣展現出巨大潛力。目前,研究者已探索了多種 TTS 策略,如 Chain-of-Thought (CoT)、Self-Consistency、Search 和 Verification,但該領域仍缺乏統一的研究視角與評估框架。

最近,來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構的多位研究者聯合發布了首篇系統性的 Test-Time Scaling 領域綜述。該文首次提出「What-How-Where-How Well」四維分類框架,系統拆解推理優化技術,為 AI「深思」繪制全景路線圖。

圖片

  • 論文標題:A Survey on Test-Time Scaling in Large Language Models:What, How, Where, and How Well
  • 論文鏈接:https://arxiv.org/pdf/2503.24235
  • 項目主頁:https://testtimescaling.github.io/
  • GitHub 倉庫:https://github.com/testtimescaling/testtimescaling.github.io/  

論文亮點概覽:

本篇 Survey 首次提出了一個覆蓋全面、多層次、可擴展的四維正交分析框架:

  1. What to scale:擴什么?CoT 長度、樣本數、路徑深度還是內在狀態?
  2. How to scale:怎么擴?Prompt、Search、RL,還是 Mixture-of-Models?
  3. Where to scale:在哪擴?數學、代碼、開放問答、多模態……
  4. How well to scale:擴得怎樣?準確率、效率、控制性、可擴展性……

在這個框架下,作者系統梳理了當前的主流 TTS 技術路線,包括:

  1. 并行策略:即同時生成多個答案,并選出最優解(如 Self-Consistency / Best-of-N)
  2. 逐步演化:即通過迭代修正逐步優化答案(如 STaR / Self-Refine)
  3. 搜索推理:結合并行與序列策略,探索樹狀推理路徑(如 Tree-of-Thought / MCTS)
  4. 內在優化:模型自主控制推理步長(如 DeepSeek-R1 / OpenAI-o1)

基于這一框架,作者系統性地梳理了現有文獻,實現了四大核心貢獻:

  1. 文獻解析:通過結構化分析方法,清晰界定各項研究的創新邊界與價值定位;
  2. 路徑提煉:總結出推理階段擴展技術的三大發展方向:計算資源動態優化、推理過程增強和多模態任務適配;
  3. 實踐指導:針對數學推理、開放問答等典型場景,提供具體可操作的技術選型建議;
  4. 開放社區:拋棄傳統調研自說自話的特點,通過結合主頁希望營造一個專門為 TTS 討論的開放社區,集所有研究者的智慧,不斷與時俱進更新更加實踐的指導。

與同類綜述相比,本文特別注重實用價值和開放討論,不僅系統評估了不同 TTS 策略的性價比,還前瞻性地探討了該技術的未來演進方向,包括輕量化部署、持續學習融合等潛在突破點。

作者表示,Test-time Scaling 不僅是大模型推理的「第二引擎」,更是邁向 AGI 的關鍵拼圖。教會模型「三思而后行」,是我們邁向通用人工智能的重要旅程。

框架介紹

作者提出的框架從四個正交維度系統解構 TTS 技術:

1. What to Scale(擴展什么)- 界定推理過程中需要擴展的具體對象,包括:

  • Parallel Scaling(并行擴展):并行生成多個輸出,然后將其匯總為最終答案,從而提高測試時間性能;
  • Sequential Scaling(序列擴展):根據中間步驟明確指導后面的計算;
  • Hybrid Scaling(混合擴展):利用了并行和順序擴展的互補優勢;
  • Internal Scaling(內生擴展):在模型內部參數范圍內自主決定分配多少計算量進行推理,在推理時并不外部人類指導策略。

其中,作者為每一個擴展的形式,都進行了一些經典工作的介紹,從而豐富了對于擴展策略的外延描述,例如:在并行擴展中作者根據得到覆蓋性的來源分為兩個更小的類別,在單個模型上的反復采樣和多個模型的采樣。

2. How to Scale(怎么擴展)- 歸納實現擴展的核心技術路徑:

  • 訓練階段方法:監督微調(SFT)、強化學習(RL)等
  • 推理階段技術:刺激策略(Stimulation)、驗證技術(Verification)、搜索方法(Search)、集成技術(Aggregation)

這個章節是重點章節,作者收錄并整理了大量的經典的和最前沿的技術,例如在訓練階段中的強化學習技術,伴隨 R1 而大火,因此在短短兩個月內涌現出大量的工作,作者將它們盡數收入,同時分成基于獎勵模型和不需獎勵模型兩類;對于刺激策略,作者分成了提示(Prompt),解碼(Decode)、自重復(Self-Repetition)、模型混合(mixture-of-model)四類。

3. Where to Scale(在哪里擴展)- 明確技術適用的任務場景與數據集特性。

作者在這里提出盡管 TTS 的推出和驗證是在某一類特定的推理任務上得到成功的,可是已經有足夠多的工作開始顯現出 TTS 是一種通用地能夠提升在多樣任務的策略,由此作者以推理(Reasoning)和通用 (General Purpose) 兩類進行分類,一方面強調了 TTS 在越來越多樣、越來越先進的推理任務中有很明顯的效果,另一方面也不斷跟蹤 TTS 在更多通用任務上應用的效果。值得注意的是,作者整理出一個評測基準的表格,方便更多研究者直接從中去選擇合適自己的基準。

4. How Well to Scale(效果怎么樣)- 建立多維評估體系:

在當下,TTS 已經不僅是一個提高任務準確率的策略,當它成為一個新的值得被研究的核心策略時,對 TTS 的要求會更加多元化,這也是未來研究的主題。作者認為之后對 TTS 的優化重點將不僅僅局限在準確率的提升,是在于如何提高效率、增強魯棒性和消除偏見等。

圖片

圖 2:作者提出的 TTS 框架,包括 what, how, where 和 how well to scale。

作者不僅在每個維度下提供細粒度子類劃分,還配套標注了代表性研究工作(如圖 2 所示),使分類體系兼具理論完備性和實踐指導價值。這一結構化的基礎使得后續研究可以無縫地融入作者的分類體系,更清晰地展現其貢獻。

為了更好的理解 what to scale 中的并行擴展,序列擴展,結合擴展和內生擴展,作者用一張清晰的示意圖進行形象化的展示,同時,在圖中使用 how to scale 的技術來組成不同的擴展策略,很好地示意了兩個維度如何結合在一起。

圖片

圖 3:從 what to scale 到 how to scale。

實踐特色

作者強調本篇 Survey 以實用為原則,具體包括:使用所提出的框架分析文獻,以及整理操作指南。

文獻解析:為了幫助研究者系統性地剖析每項工作,作者設計了一個分析表格,通過將文獻貢獻對應到框架的四個維度(What/How/Where/How Well),以清晰地解構該工作。這種結構化分析方法不僅能清晰展現各研究的核心創新,更能有效揭示潛在的技術突破方向。

圖片

表 1:在現有文獻中進行推理擴展時常用的組合方式。

操作指南:另一個潛在的亮點是持續收集 TTS 開發中的實用操作指南,而這些操作指南將以問答的形式展現。作者期待這些問答是具體的、現實的、一線的,因此,作者期待這篇 Survey 將維持開放性,邀請更多在一線研究的學者來參與這項操作指南的收錄和編寫。下面是作者現階段的操作指南的內容和風格。

圖片

開放社區

有價值的洞見和實踐指導是來自于第一線的科研和百花齊放的討論的,作者期待將論文從傳統的靜態的一家之言轉化為動態的百家之壇,并建立開放的社區來收集任何一線科研者提出的問題和總結的經驗,而這些問題和經驗在經過篩選后,會更新到最新的論文中,并在致謝中進行感謝。

圖片

圖片

挑戰與未來

盡管 TSS 技術已嶄露頭角,本文總結了 TTS 當前面臨的四大挑戰:

  1. 擴展極限:在未來的 TTS 中,如何突破「暴力采樣」的邊際收益遞減?我們急需在不同方向上探索策略
  2. 本質理解:tts 中多個模塊是否真正驅動了推理改進?reward model 是否需要重新評估?我們依然需要在理論層面揭示技術有效性根源。
  3. 評估革新:傳統指標無法捕捉推理過程質量,隨著 test-time scaling 技術的發展,領域內急需開發細粒度評估體系,以便更全面地評估不同策略
  4. 跨域泛化:當前 TTS 方法在數學、代碼任務中表現突出,但如何遷移至法律、金融等高風險場景?如何在推理過程中考慮現實世界的制約?

論文還指出,目前常見的技術如 SFT、RL、Reward Modeling 等雖被頻繁使用,但背后的作用貢獻尚不清晰,值得深入探索,例如:SFT 真的不如 RL 更泛化嗎?R1 的時代下 SFT 的角色是什么?什么樣的 Reward Modeling 更加高效?等等

此外未來 TTS 的發展重點包括:1. 統一評估指標(準確率 vs 計算開銷);2. 拓展到金融、醫學等真實場景;3. 構建具備自適應推理能力的通用智能體。

推理擴展策略正引領 AI 推理范式轉變:讓模型在「用」的時候持續變強。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-12 01:00:00

2024-09-11 12:31:59

2025-10-15 09:05:05

2025-07-30 02:00:00

TTD-DRagent測試

2025-06-18 09:06:00

2025-09-04 17:16:59

2025-08-07 09:16:41

2024-06-19 16:11:22

2025-03-18 09:33:13

2024-03-06 09:00:00

大語言模型人工智能

2025-04-30 16:48:07

2025-09-24 09:10:24

2025-07-16 10:08:57

2025-06-04 13:56:06

英偉達訓練模型

2022-09-13 15:40:56

模型分析

2025-02-21 13:20:00

2024-10-25 14:30:00

模型AI

2024-11-29 18:37:07

2023-09-25 07:31:19

算力AI框架
點贊
收藏

51CTO技術棧公眾號

国产在线一区二| 久久久www成人免费精品| 激情深爱综合网| 裸体xxxx视频在线| 久久99久久99小草精品免视看| 最近2019中文字幕第三页视频| 99精品视频国产| 国产在线美女| 中文字幕在线不卡国产视频| 国产精品久久久久久久免费大片| 成人一二三四区| 欧美日韩免费| 亚洲精品之草原avav久久| 五月婷婷之婷婷| 亚洲美女炮图| 亚洲美女一区二区三区| 免费看污久久久| 精品国产无码一区二区三区| 日韩av电影一区| 久久久久久国产精品三级玉女聊斋| 香蕉视频黄色在线观看| 91麻豆精品一二三区在线| 日韩欧美有码在线| 91香蕉视频在线下载| 一级一级黄色片| 亚洲视频一二| 免费91在线视频| 亚洲av毛片基地| 色愁久久久久久| 日韩一区二区不卡| 无需播放器的av| 欧美黑人粗大| 精品久久久久久国产| 99久热在线精品视频| 日韩精品黄色| 亚洲国产精品av| 欧美一区二区在线视频观看| 午夜福利视频一区二区| 懂色av噜噜一区二区三区av| 亚洲aⅴ男人的天堂在线观看 | 狠狠色丁香婷婷综合影院| 日韩精品资源二区在线| 国产女同无遮挡互慰高潮91| 素人啪啪色综合| 在线免费观看成人短视频| 国产视频九色蝌蚪| av在线视屏| 亚洲电影在线播放| 久久av综合网| hd国产人妖ts另类视频| 亚洲国产一区二区在线播放| 人妻无码一区二区三区四区| 污片视频在线免费观看| 一区二区三区在线看| 秋霞在线一区二区| 成人影院在线观看| 亚洲综合丁香婷婷六月香| 欧美黄色免费网址| 黄色的视频在线观看| 亚洲免费在线播放| 激情五月六月婷婷| 成人爽a毛片免费啪啪动漫 | 久久人人爽人人爽人人片av免费| 久久久久国产精品一区三寸 | 男女啪啪免费观看| 影音先锋在线视频| 午夜精品一区二区三区免费视频| 欧美日韩一道本| 在线观看特色大片免费视频| 一本色道久久综合亚洲91| 欧美精品成人网| 国内欧美日韩| 欧美一区二区成人| 欧美成人精品一区二区综合免费| www.豆豆成人网.com| 日韩精品999| 国产高潮呻吟久久| 91影院成人| 欧美大片在线看免费观看| 久久久久久久久久一区二区三区| 999在线观看精品免费不卡网站| 日本一区二区不卡| 国产精品久久影视| 成人免费观看av| 日本免费高清不卡| 国产秀色在线www免费观看| 亚洲国产精品尤物yw在线观看| 免费成人在线视频网站| 欧美综合社区国产| 欧美成人性战久久| 国产成人精品无码免费看夜聊软件| 水蜜桃久久夜色精品一区| 欧美精品免费在线观看| 久久精品国产成人av| 美女性感视频久久| 国产精品国产一区二区| 福利视频在线导航| 一区二区欧美精品| 色哟哟精品视频| 国产成人福利av| 一区二区三区动漫| 精品无码久久久久久久| 日本不卡的三区四区五区| 粉嫩av免费一区二区三区| 国产视频在线看| 亚洲成人午夜电影| 中文字幕国产免费| 亚洲美女15p| 免费av一区二区| 成人黄色片在线观看| 波多野洁衣一区| 在线免费一区| 日日夜夜天天综合| 亚洲高清免费观看高清完整版| 国产黄色片在线| 免费在线欧美黄色| 超碰97国产在线| 久久黄色美女电影| 色av一区二区| 欧美高清性xxxx| 国产精品mv在线观看| 成人久久精品视频| 91精品大全| 91久久精品网| asian性开放少妇pics| 狠狠入ady亚洲精品| 国产综合福利在线| 国产精品秘入口| 色诱视频网站一区| 亚洲国产果冻传媒av在线观看| 中文在线日韩| 国产原创欧美精品| 超碰免费在线观看| 91久久精品一区二区三| 亚洲自拍偷拍一区二区 | 欧美精品videossex性护士| 在线视频欧美亚洲| 国产三级欧美三级日产三级99| 亚洲 高清 成人 动漫| 国产精品chinese在线观看| 久久91精品国产91久久跳| 国产精品无码久久av| 国产精品欧美精品| 最近中文字幕一区二区| 精品美女久久| 国产精品视频99| 成年人在线视频| 欧美色成人综合| 乱老熟女一区二区三区| 卡一卡二国产精品| 在线丝袜欧美日韩制服| 99久久999| 欧美精品在线观看| 性一交一乱一色一视频麻豆| 亚洲一区自拍偷拍| 婷婷五月精品中文字幕| 99伊人成综合| 欧美日韩综合网| 九九热这里有精品| 久久精品亚洲一区| 精品久久久无码中文字幕| 一区二区在线免费| 黄色av电影网站| 亚洲在线观看| 日产精品一线二线三线芒果| 欧美风情在线视频| 久久夜精品香蕉| 国产三级漂亮女教师| 夜夜夜精品看看| 疯狂揉花蒂控制高潮h| 久久亚洲欧美| 日本三级福利片| 久久99精品久久久久久欧洲站| 91wwwcom在线观看| 成人好色电影| 日韩欧美国产精品| 亚洲伊人成人网| 国产精品福利电影一区二区三区四区| 成人av毛片在线观看| 一区二区亚洲| 午夜午夜精品一区二区三区文| 精品国产一级| 啪一啪鲁一鲁2019在线视频| 幼a在线观看| 精品久久国产老人久久综合| 中文字幕一区二区人妻电影| 亚洲欧洲成人精品av97| 看全色黄大色黄女片18| 青青草97国产精品免费观看| 日韩精品手机在线观看| 亚洲v天堂v手机在线| 成人免费直播live| 成人三级高清视频在线看| 在线视频免费一区二区| 高潮一区二区三区乱码| 在线观看视频一区| 免费在线观看日韩| 国产欧美日韩另类一区| 无码人妻丰满熟妇啪啪网站| 首页综合国产亚洲丝袜| 日韩成人手机在线| 成人一级毛片| 精品欧美一区二区三区久久久| 四虎国产精品成人免费影视| 91精品国产成人| 黄色av电影在线播放| 日韩精品在线视频美女| 99精品在线看| 欧美在线观看一区二区| 久久久综合久久| ...av二区三区久久精品| 亚洲av片不卡无码久久| 成人午夜av电影| 亚洲午夜精品一区| 日韩国产精品久久久| 男的插女的下面视频| 午夜影院欧美| 色阁综合av| 丝袜久久网站| 精品久久久久久一区二区里番| 国产精品久一| 国产欧美欧洲在线观看| 大胆人体一区二区| 91精品国产色综合| 不卡的av影片| 欧美大片在线看| 羞羞的视频在线看| 久久艳片www.17c.com| 蜜桃视频在线观看www社区 | 91精品欧美久久久久久动漫| 波多野结衣家庭主妇| 精品国产福利视频| 国产午夜激情视频| 亚洲福中文字幕伊人影院| 性欧美videos| 亚洲欧美区自拍先锋| 日本裸体美女视频| 国产精品国产三级国产a| 欧美a在线播放| 国产精品人成在线观看免费| 性欧美精品男男| 日本一区二区在线不卡| 美女被到爽高潮视频| 久久精品视频一区二区三区| 91成年人网站| 国产视频一区二区在线| 91中文字幕永久在线| 久久先锋影音av| 鲁丝一区二区三区| 国产情人综合久久777777| 欧美老女人性生活视频| 国产精品嫩草影院com| 自拍偷拍第9页| 亚洲人成亚洲人成在线观看图片| 亚洲最大的黄色网址| 亚洲激情图片qvod| 国产一级一片免费播放放a| 亚洲国产成人精品视频| 激情五月色婷婷| 在线欧美日韩精品| 一级aaaa毛片| 日韩美一区二区三区| 蜜桃久久一区二区三区| 精品一区二区三区四区在线| 国产一区二区三区福利| 日韩在线资源网| 羞羞污视频在线观看| 68精品国产免费久久久久久婷婷| xxxxxx欧美| 国产有码一区二区| 粉嫩一区二区三区四区公司1| 鲁丝片一区二区三区| 日本不卡电影| 日韩 欧美 视频| 在线亚洲一区| 污视频网站观看| 国产98色在线|日韩| 亚洲自拍偷拍一区二区| 成人欧美一区二区三区在线播放| 久久久一二三区| 在线免费观看视频一区| 精品女同一区二区三区| 日韩国产精品一区| 麻豆影院在线| 97成人在线视频| 在线观看欧美| 精品久久sese| 亚洲高清影视| 国产欧美在线一区| 久久99精品久久久久久动态图| 国产精品成人99一区无码| 国产欧美精品一区二区色综合 | 国产吃瓜黑料一区二区| 国产亚洲欧美日韩俺去了| 91视频综合网| 欧美专区日韩专区| 亚洲精品一区二区三区蜜桃| 国产一区二区三区欧美| 污污片在线免费视频| 国产大片精品免费永久看nba| 日韩最新av| 色爱区成人综合网| 99精品国产一区二区青青牛奶| 五月激情婷婷在线| 久久精品人人做人人爽人人| 91成人福利视频| 欧美日韩国产首页| 深夜视频在线免费| 精品国产视频在线| 亚洲女同av| 国产精品青青草| 天天综合一区| 在线观看的毛片| wwwwww.欧美系列| 国产精品99re| 欧美一区二区三区喷汁尤物| 成人一区二区不卡免费| 欧美亚洲国产精品| eeuss鲁片一区二区三区 | 99riav1国产精品视频| 免费人成视频在线播放| 中文字幕一区二区三区不卡 | 日韩高清在线不卡| 亚洲欧美日本一区| 亚洲小说欧美激情另类| 国产精品无码天天爽视频| 一本色道久久综合狠狠躁篇的优点 | 2021年精品国产福利在线| 亚洲一卡二卡| 免费美女久久99| 国产综合精品久久久久成人av | 国产精品视频无码| 伊人av综合网| 素人啪啪色综合| 亚洲国产欧美不卡在线观看| 日日摸夜夜添夜夜添精品视频| 亚洲狠狠婷婷综合久久久久图片| 亚洲a一区二区| 色窝窝无码一区二区三区| 色与欲影视天天看综合网| 久久久久久亚洲精品美女| 韩国黄色一级大片| 国产美女娇喘av呻吟久久| 国产又粗又硬又长又爽| 7777精品伊人久久久大香线蕉的| 日本韩国在线视频爽| 成人黄色大片在线免费观看| 小说区亚洲自拍另类图片专区| 97人人爽人人| 一区二区三区四区中文字幕| 国产成人三级一区二区在线观看一| 欧美xxxx18性欧美| 亚洲高清在线一区| av在线播放天堂| 91色综合久久久久婷婷| 国产三级精品三级在线观看| 国产午夜精品全部视频播放| 99久久婷婷国产综合精品首页| 亚洲午夜精品一区二区三区| 激情综合色丁香一区二区| 黄色a级片在线观看| 日韩精品一区二区三区四区| 7777kkk亚洲综合欧美网站| 国模一区二区三区私拍视频| 性欧美videos另类喷潮| 免费一级做a爰片久久毛片潮| 欧美亚洲动漫精品| 伦xxxx在线| 国产成人精品福利一区二区三区| 亚洲一区二区伦理| 日本猛少妇色xxxxx免费网站| 欧美精品vⅰdeose4hd| 人人超在线公开视频| 精品久久一区二区三区蜜桃| 日韩av电影天堂| 麻豆精品一区二区三区视频| 亚洲国产精品va在线看黑人| 亚洲高清黄色| 中文字幕第一页亚洲| 成人91在线观看| 中文字幕视频二区| 欧美日本中文字幕| 美女久久99| 在线免费黄色小视频| 福利一区福利二区微拍刺激| 三区四区在线视频| 国内不卡一区二区三区| 美女视频黄免费的久久| 国产无遮挡又黄又爽又色| 伊人av综合网| 国产精品极品在线观看| 午夜一区二区视频| 无码av中文一区二区三区桃花岛| 男人影院在线观看| 精品亚洲第一| 国产精品影视在线| 波多野结衣高清视频| 久久久这里只有精品视频| 欧美电影《睫毛膏》| 亚洲国产精品无码久久久久高潮 |