精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小而美!1B模型如何通過測試時優化逆襲405B LLM?

發布于 2025-2-24 11:01
瀏覽
0收藏

今天分享一篇來自上海人工智能實驗室、清華大學、哈爾濱工業大學和北京郵電大學聯合的一篇文章,標題是:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling(1B 的 LLM 能否超越 405B 的 LLM?重新思考計算最優的測試時縮放)。

這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計算量來提高性能的測試時縮放」(Test-Time Scaling, TTS)方法。作者們「系統地分析了策略模型、過程獎勵模型(PRMs)和問題難度如何影響 TTS」,并提出了兩個核心問題:「(1) 在不同的策略模型、PRMs 和問題難度水平下,擴展測試時計算的最佳方法是什么?(2) 擴展計算能在多大程度上提高 LLMs 在復雜任務上的性能,以及較小的語言模型是否能通過這種方法超越較大的模型?」

該方法的主要特點包括:

  1. 「全面評估」:對不同的 TTS 方法進行了全面的評估,使用了各種最新的策略模型、多個 PRMs、不同的縮放方法和更具挑戰性的任務。
  2. 「獎勵感知」:強調了在 TTS 過程中考慮獎勵的必要性,并引入了獎勵感知的計算最優 TTS。
  3. 「小模型潛力」:實證結果表明,較小的語言模型通過 TTS 有可能超越較大的模型。

一、概述

1 Motivation

  • 當前測試時間縮放(TTS)的研究缺乏對策略模型、過程獎勵模型(PRM)和問題難度如何影響TTS的系統分析,限制了對TTS方法理解和實際應用。
  • 如何在不同的策略模型、PRM和問題難度級別上優化測試時間計算的縮放方法?
  • 擴展計算能在多大程度上提高LLM在復雜任務上的性能,以及小模型是否可以通過這種方法超越大模型?

2 Methods

「省流版總結:」

本文提出了一種計算最佳的TTS策略,通過綜合實驗分析了策略模型、PRM和問題難度對TTS的影響。實驗使用了MATH-500和AIME24數據集,以及不同大小的Llama 3和Qwen2.5模型。研究發現,計算最佳的TTS策略高度依賴于策略模型、PRM和問題難度的選擇。

  • 「問題建模」: 將推理問題建模為馬爾可夫決策過程 (MDP)。
  • 「測試時縮放方法」: 考慮了三種 TTS 方法:Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
  • 「計算最優的測試時縮放」: 選擇超參數以最大化給定測試時策略的性能。
  • 「Reward-Aware Compute-Optimal TTS:」將獎勵集成到計算最優的 TTS 策略中,形成更通用的框架。

「詳細方法和步驟:」

論文通過以下步驟詳細闡述了其方法:

  • 「問題形式化」

將推理問題定義為馬爾可夫決策過程(MDP),包括狀態空間、動作空間、轉移函數、獎勵函數和折扣因子。

策略根據當前狀態生成動作,狀態根據動作進行轉移,并獲得獎勵。

目標是找到最優策略,最大化累積獎勵。

  • 「測試時縮放方法」

特征

Best-of-N (BoN)

Beam Search

Diverse Verifier Tree Search (DVTS)

核心思想

生成多個獨立響應,選擇最優

逐步擴展候選序列,擇優保留

多樣性搜索,并行探索多個子樹

生成方式

一次性生成N個完整響應

逐步生成,每步選擇Top N個擴展

分成多個子樹并行Beam Search

選擇標準

PRM評分、投票等

驗證器(PRM)評分

驗證器(PRM)評分

計算量

與N成正比

每步計算量與Beam Width成正比

計算量較大,與子樹數量和Beam Width相關

優點

實現簡單,易于并行

逐步優化,效果通常優于BoN

探索多樣性,避免局部最優

缺點

缺乏探索性,易受初始生成質量影響

容易陷入局部最優

計算量大,實現復雜

適用場景

簡單任務,計算資源有限

中等復雜度任務

復雜任務,需要多樣性探索





  • 「Best-of-N (BoN)」:策略模型生成 N 個響應,然后應用評分和投票方法選擇最終答案。
  • 「Beam Search」:給定束寬 N 和束大小 M,策略模型首先生成 N 個步驟。驗證器選擇最佳的 N/M 個步驟進行后續搜索。下一步,策略模型對每個選定的先前步驟采樣 M 個步驟。此過程重復,直到達到最大深度或生成標記。
  • 「Diverse Verifier Tree Search (DVTS)」:通過將搜索過程劃分為 N 個子樹來擴展 Beam Search,每個子樹使用 Beam Search 獨立探索。

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

「目標:」  這個公式旨在找到一個最優的測試時計算縮放策略(compute-optimal test-time scaling strategy),簡單來說就是「怎么用最合理的計算資源,讓模型在推理的時候表現最好」

「符號說明:」

「公式含義:」

提出了一個測試時計算最優縮放策略,該策略選擇超參數以最大化給定測試時策略在特定提示上的性能收益。

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

「符號說明 (與公式2對比):」

「公式含義:」

「公式3與公式2的區別:」

  • 提出應將獎勵整合到計算最優 TTS 策略中。
  1. 「絕對問題難度標準」
  • 使用絕對閾值而不是分位數來衡量問題難度。
  • 基于 Pass@1 準確率定義了三個難度級別:easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。

3 Conclusion

  • 計算最佳的「TTS策略高度依賴于策略模型、PRM和問題難度的選擇。」
  • 通過「計算最佳的TTS策略,極小的策略模型可以勝過更大的模型。例如,一個1B的LLM可以在MATH-500上超過一個405B的LLM。」
  • 實驗結果表明,「與CoT和多數投票相比,計算最佳的TTS可以提高LLM的推理性能。」

4 Limitation

  1. 將TTS擴展到更多任務,如編碼和化學任務。
  2. 探索更有效的計算最佳TTS方法。


二、詳細內容

1 獎勵會顯著影響生成的過程和結果

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216224908584

說明:

  1. RLHFlow-PRM-Mistral-8B對短響應給予高獎勵,卻產生了錯誤的答案;
  2. 使用RLHFlow-Deepseek-PRM-8B進行搜索雖然產生正確答案,但使用了更多token。

結論:獎勵應該被整合到計算最優的TTS策略中。

2 PRM的過程監督能力是決定其在TTS中性能的關鍵因素

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216225517615

說明:PRM的過程監督能力越強,其在TTS中通常能帶來更好的性能。

結論:應該注重提高PRM的過程監督能力,而不僅僅是增加參數量。

3  策略模型大小對TTS參數的影響

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216225948348

說明:使用了Qwen2.5系列的不同大小LLM(從0.5B到72B)進行實驗,分析最優TTS參數。

結論:

  • 小型策略模型:基于搜索的方法優于BoN3。對于大型策略模型,BoN比基于搜索的方法更有效。
  • 最優的TTS方法依賴于策略模型的大小,在選擇TTS方法時需要考慮模型的推理能力。

4 題目難度對TTS參數的影響

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216230308416

結論:

  • 「小規模策略模型(參數少于7B)」:BoN在簡單問題上表現更好,而束搜索更適合解決較難問題。
  • 「中等規模策略模型(參數7B至32B)」:DVTS在簡單和中等問題上表現優異,束搜索則在困難問題上更具優勢。
  • 「大規模策略模型(參數72B)」:BoN在所有難度級別上均為最佳選擇。

5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

結論:

  • 1B模型在TTS加持下能超過405B的模型。
  • TTS加持下,DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過DeepSeek-R1。

6 TTS最優相對COT能顯著提升推理能力同時提高效率

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

結論:

  • 對于推理能力較弱的模型,Scaling測試時計算會帶來顯著改進;
  • 而對于推理能力較強的模型,提升效果則較為有限。

7 TTS比RL或者SFT加持更有效但是比不過R1蒸餾的模型

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

三、總結

本文對計算最優的測試時縮放進行了深入的實證分析,從不同的策略模型、PRMs 和更具挑戰性的評估任務的角度出發。研究結果「驗證了較小的語言模型在應用計算最優 TTS 時可以表現得比更大的模型更好。」 結果表明,一個 1B 模型可以通過 TTS 實現比 405B 模型更好的性能。此外,還證明了一個 7B PRM 可以通過監督一個更有能力的 72B 策略模型來實現強大的 TTS 結果,這表明了研究真正的“弱到強”方法的重要性,而不是目前用于策略優化的“強到弱”監督。為了實現這一目標,需要開發更有效的監督方法,因為基于 PRM 和基于 RL 的方法由于依賴于高質量的監督而存在局限性。未來的工作應側重于開發更具適應性和通用性的監督機制,以提高小型語言模型在復雜任務上的性能,并提供開發高效推理策略的新方法。

「結論1:」 通過自適應地調整測試時計算量,「小規模語言模型在特定任務上可以達到甚至超過大規模模型的性能,實現了更高的效率。」

「結論2:」  最佳的「測試時計算縮放策略高度依賴于所使用的策略模型、過程獎勵模型(PRM)以及問題的難度。」 這意味著沒有一種通用的TTS策略適用于所有情況,需要根據具體任務和模型進行調整。

「結論3:」 本文通過實證分析揭示了「計算最佳TTS策略的依賴性,強調了在實際應用中考慮獎勵信息的重要性」,并為未來的研究方向提供了指導。

本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

已于2025-2-24 12:17:08修改
收藏
回復
舉報
回復
相關推薦
色婷婷综合久久| 亚洲国产综合在线看不卡| 欧美亚日韩国产aⅴ精品中极品| 亚洲国产激情一区二区三区| 国产精品人人妻人人爽| 亚洲国产清纯| 色综合影院在线| 天天躁日日躁狠狠躁av| 国产亚洲欧美日韩精品一区二区三区| 伊人婷婷欧美激情| 色综合影院在线观看| 亚洲国产精彩视频| 久久午夜电影| 欧美激情第6页| 中文字幕黄色网址| 免费日韩一区二区三区| 欧美日本精品一区二区三区| 久草视频国产在线| 日本免费在线观看| 99热在这里有精品免费| 国产精品色婷婷视频| 激情综合网五月婷婷| 日本a级不卡| 国产午夜精品久久久| 欧美人与性动交α欧美精品 | 欧美成人免费一级人片100| www.自拍偷拍| 凹凸成人在线| 欧美一区二区三区四区在线观看| 亚洲视频在线a| 在线免费av资源| 亚洲无线码一区二区三区| 中文字幕一区二区三区精彩视频 | 亚洲综合免费视频| 蘑菇福利视频一区播放| 国内伊人久久久久久网站视频| 天堂а√在线中文在线鲁大师| 国产va免费精品观看精品视频| 欧美xxxxxxxx| 乱码一区二区三区| 91午夜精品| 欧美一区二区三区日韩视频| 亚洲欧美自拍另类日韩| 素人啪啪色综合| 欧洲精品视频在线观看| 午夜精品久久久内射近拍高清| 国产黄色大片在线观看| 亚洲综合在线视频| 国产美女永久无遮挡| av大大超碰在线| 少妇一区二区三区四区| 久久精品伊人| 日本一区二区不卡| 日韩毛片一区二区三区| 亚洲女人av| 国产不卡av在线| 中文字幕在线欧美| 久久综合伊人| 国产精品igao视频| 欧美成人精品网站| 日本aⅴ精品一区二区三区| 日产精品久久久一区二区福利 | 欧美在线|欧美| www日韩在线观看| 成人在线免费av| 欧美日韩在线播| 中文字幕久久av| 欧美成人精品一级| 亚洲а∨天堂久久精品9966| 菠萝菠萝蜜网站| 网友自拍区视频精品| 亚洲欧美另类在线观看| 一级二级黄色片| 久久美女精品| 亚洲三级在线播放| 高清国产一区二区| 国产日韩欧美三级| 超碰97人人做人人爱少妇| 国产三级国产精品国产国在线观看| 无需播放器亚洲| 欧美第一页在线| 久久久久久少妇| 美女诱惑一区二区| 国产成人精品福利一区二区三区 | 超碰aⅴ人人做人人爽欧美| 在线影院国内精品| 特级黄色片视频| 欧美偷窥清纯综合图区| 国产性猛交xxxx免费看久久| 波多野结衣欲乱| 欧美日韩精品免费观看视频完整| 午夜精品久久久99热福利| 波多野结衣视频免费观看| 激情图区综合网| 精品国产综合久久| 色的视频在线免费看| 亚洲国产一区在线观看| 免费观看成人在线视频| 亚洲日本视频在线| 国产亚洲欧美日韩美女| 国产亚洲欧美精品久久久www | 亚洲黄色av一区| 日韩欧美精品在线观看视频| 伊人久久大香伊蕉在人线观看热v| 精品少妇一区二区三区在线播放 | 亚洲国产精品久久久久婷婷884| 777米奇影视第四色| 国产精品久久免费视频| 亚洲男人天堂2024| 久久免费精彩视频| 美女精品一区二区| 久久青青草综合| av大大超碰在线| 欧美午夜电影在线播放| 午夜av免费看| 欧美日韩国产综合网| 国产美女精品视频免费观看| 亚洲av成人精品毛片| 专区另类欧美日韩| 我看黄色一级片| 亚洲国产合集| 欧美国产第一页| 在线免费观看一级片| 26uuu欧美| 免费网站在线观看视频| 亚洲男女网站| 最好看的2019年中文视频| 青青草免费观看视频| 国产91丝袜在线18| 欧美a级免费视频| 国产999精品在线观看| 中文字幕欧美精品在线| 无码人妻精品一区二区三区9厂 | 水蜜桃亚洲精品| 色偷偷色偷偷色偷偷在线视频| 精品久久久网站| 校园春色 亚洲| 国产一区在线观看麻豆| 亚洲午夜精品一区二区| 国产v综合v| 亚洲女人被黑人巨大进入| 日本三级中文字幕| 成人av免费在线观看| 久久国产精品网| 在线视频亚洲欧美中文| 久久91亚洲人成电影网站| 99热这里只有精品在线| 亚洲欧美一区二区三区久本道91 | 亚洲乱码国产乱码精品| 99这里只有久久精品视频| 成年人看的毛片| 福利在线一区| 8x拔播拔播x8国产精品| 日日夜夜精品免费| 欧美日韩国产精品一区二区不卡中文| 日本三级日本三级日本三级极| 禁久久精品乱码| 国产欧美日韩伦理| 亚洲国产福利| 国产午夜精品视频免费不卡69堂| 欧美日韩 一区二区三区| 国产精品对白交换视频 | 欧美视频在线观看视频| 久久大胆人体视频| 日韩免费在线看| 男人天堂手机在线| 日韩一区二区在线看片| 国产精品成人国产乱| 99精品桃花视频在线观看| 久久婷婷五月综合色国产香蕉| 精品国产不卡| 91精品在线影院| a级片在线免费| 亚洲人在线观看| 91亚洲国产成人精品一区| 亚洲黄色av一区| 成人免费无码大片a毛片| 久久成人精品| youjizz.com亚洲| 国产成人aa在线观看网站站| 欧美一区二区三区艳史| 福利片在线看| 日韩一二三区不卡| 久久久免费高清视频| 国产精品第13页| 91亚洲一线产区二线产区| 嫩草成人www欧美| 国产一区一区三区| 天天躁日日躁狠狠躁欧美| 成人免费看吃奶视频网站| 成人三级小说| 自拍偷拍免费精品| 天堂在线中文网| 欧美三级韩国三级日本一级| 麻豆changesxxx国产| 久久久五月婷婷| 不卡的一区二区| 日韩精品一二三| 奇米777四色影视在线看| 精品日韩免费| 99免费在线观看视频| 五月激情久久| 午夜精品久久久久久久男人的天堂| 国产精品秘入口| 亚洲国产精品人人爽夜夜爽| 一区二区三区在线免费观看视频| 午夜精品久久久久久久久久| 国产一区二区三区视频播放| 99国产精品久久久| 国产chinesehd精品露脸| 免费精品视频在线| 美女av免费在线观看| 欧美在线高清| 亚洲综合网中心| 国产伦一区二区三区| 国产精品一区二区三区在线 | 亚洲欧美影院| 免费久久久久久久久| 国产99在线免费| 电影91久久久| 国产日韩欧美在线视频观看| 国产精品粉嫩| 亚洲91精品在线| 欧美亚洲系列| 欧美日韩999| 激情成人四房播| 色老头一区二区三区在线观看| 欧美一区二区少妇| 日韩精品免费综合视频在线播放| 蜜桃91麻豆精品一二三区| 欧美电影影音先锋| 中文字幕在线2019| 欧美艳星brazzers| 日韩精选在线观看| 欧美亚一区二区| 中文字幕一区二区三区波野结 | 欧美在线亚洲在线| 国产精品一二三产区| 久久久久久亚洲精品| 性直播体位视频在线观看| 久久国产精品网站| 在线观看电影av| 欧美多人爱爱视频网站| 欧美黄色视屏| 午夜精品久久久久久久久久久久| 538视频在线| 91精品国产一区| 亚洲风情在线资源| 国产97在线播放| 日韩中文视频| 国产在线不卡精品| 99久热在线精品视频观看| 国产在线视频欧美| 精品午夜av| 高清一区二区三区视频| 久久99国产精品久久99大师| 久久久久久久久久久久久9999| 日韩丝袜视频| 色999日韩自偷自拍美女| 日韩一区电影| av动漫在线免费观看| 亚洲高清自拍| 能在线观看的av| 日本强好片久久久久久aaa| 色免费在线视频| 国产毛片一区二区| 亚洲av成人片无码| 欧美国产丝袜视频| 国产av 一区二区三区| 亚洲高清视频的网址| 无码人妻av免费一区二区三区| 欧美视频一区二| 超碰在线人人干| 国产午夜精品理论片a级探花| 国产www.大片在线| 美乳少妇欧美精品| 国产亚洲成av人片在线观看| 国产精品久久久久久久久久久久久| 天堂久久一区| 国产视频在线观看一区| 国产精品嫩草影院在线看| 懂色av粉嫩av蜜臀av| 悠悠资源网久久精品| 91国产精品视频在线观看| 国产传媒一区在线| 日本免费www| 亚洲在线视频一区| 亚洲中文无码av在线| 日韩女优av电影| 欧美日韩激情视频一区二区三区| 中文欧美日本在线资源| 羞羞视频在线观看免费| 日本人成精品视频在线| 久久久久久爱| 日韩精品一线二线三线| 黄色成人91| 亚洲欧美国产日韩综合| 99免费精品视频| 黑鬼狂亚洲人videos| 欧美视频专区一二在线观看| a网站在线观看| 亚洲午夜性刺激影院| 久久国产精品黑丝| 国产欧美在线观看| 亚洲v天堂v手机在线| 国产精品视频一二三四区| 奇米四色…亚洲| 在线观看国产网站| 亚洲精品国产成人久久av盗摄| 一级特黄免费视频| 日韩国产欧美精品一区二区三区| 岛国成人毛片| 国产精品视频999| 三级小说欧洲区亚洲区| 91看片淫黄大片91| 蜜臀av一级做a爰片久久| 中文字幕一区二区三区人妻| 亚洲一区二区影院| 国产免费叼嘿网站免费| 中文字幕九色91在线| 三上悠亚一区二区| 精品一区二区三区视频日产| 欧美特黄一区| 在线观看免费看片| 中文字幕佐山爱一区二区免费| 中文字幕无线码一区| 亚洲丝袜在线视频| 男人最爱成人网| 蜜桃精品久久久久久久免费影院 | 亚洲v精品v日韩v欧美v专区| 国产伦精品一区二区三区四区| 中文字幕久久精品| 成人精品高清在线视频| 欧美日韩综合久久| 久久久久99| a级大片在线观看| 日韩欧美亚洲综合| 涩爱av在线播放一区二区| 91国产视频在线| 美女av一区| 波多野结衣家庭教师在线播放| 暴力调教一区二区三区| 五月婷婷激情网| 日韩高清a**址| 成人爽a毛片免费啪啪| 欧美一区三区二区在线观看| 欧美在线综合| 日本美女xxx| 欧美精品在线一区二区| 精品欧美色视频网站在线观看| 91日本在线视频| 欧美成人国产| 亚洲精品乱码久久久久久蜜桃图片| 亚洲午夜久久久久久久久久久 | 中文字幕精品一区二区三区精品| 日本视频网站在线观看| 一本久久综合亚洲鲁鲁| 国产精品久久久久久吹潮| 中文字幕一区二区三区四区五区六区| 精品一区二区在线视频| 午夜少妇久久久久久久久| 欧美变态tickle挠乳网站| 爱啪视频在线观看视频免费| 国产精品久久精品视| 国产亚洲精品bv在线观看| 亚洲精品午夜视频| 欧美日韩精品一区视频| 国产视频在线播放| 国产精品日韩欧美一区二区| 国产免费成人| 免费看一级黄色| 精品日韩欧美一区二区| 成人美女视频| 伊人久久婷婷色综合98网| 国产91在线观看丝袜| 无码人妻精品一区二区三区蜜桃91| 深夜福利一区二区| 91国内精品白嫩初高生| 成人精品小视频| 一区二区三区自拍| 国产在线视频福利| 99久久精品久久久久久ai换脸| 国产欧美日韩一级| 日本二区三区视频| 亚洲电影免费观看高清完整版在线 | 天天摸天天碰天天添| 自拍偷在线精品自拍偷无码专区| 免费成人在线看| 国产精品女主播视频| 国内精品福利| 欧美三级视频网站| 精品少妇一区二区三区日产乱码| 超级碰碰久久| 九一免费在线观看| 欧美国产国产综合| 免费观看国产视频| 国产综合视频在线观看| 国产午夜精品一区二区三区欧美| 成年人二级毛片| 亚洲男人天堂久|