精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擴展外部測試時Scaling Law,中關村學院新發(fā)現(xiàn):輕量級驗證器可解鎖LLM推理最優(yōu)選擇

人工智能 新聞
TrajSelector 給大模型推理優(yōu)化提供了一個重要思路:與其追求更大的模型,不如更聰明地利用現(xiàn)有模型的能力。

本文由北京中關村學院、哈爾濱工業(yè)大學、中科院自動化所等多家單位作者共同完成,第一作者為北京中關村學院與哈爾濱工業(yè)大學聯(lián)培博士生俞斌,指導教師包括:哈爾濱工業(yè)大學教授 & 哈工大青島研究院院長王佰玲,北京中關村學院 & 中關村人工智能研究院具身智能方向負責人陳凱。

研究背景:Test-Time Scaling 的兩種范式

在大語言模型(LLM)席卷各類復雜任務的今天,“測試時擴展”(Test-Time Scaling,TTS)已成為提升模型推理能力的核心思路 —— 簡單來說,就是在模型 “答題” 時分配更多的計算資源來讓它表現(xiàn)更好。嚴格來說,Test-Time Scaling 分成兩類:

  • 內部 Test-Time Scaling:以 DeepSeek-R1 為代表的推理型大模型通過拉長思維鏈來實現(xiàn)內部的測試時擴展。
  • 外部 Test-Time Scaling:讓模型在回答問題時進行并行推理得到多個推理路徑,然后通過聚合這些不同的推理路徑來得到最終的答案。

隨著各種改進推理思維鏈方案的提出,通過內部 Test-Time Scaling 來提高模型性能的方法逐漸接近瓶頸,這時更好的選擇則是轉向去回答另一個問題:如果通過外部 Test-Time Scaling 來繼續(xù)實現(xiàn)模型性能的增長?

Best-of-N 范式是測試時擴展的一種典型代表:對于一個數(shù)學問題,模型生成 N 條推理路徑并從中選擇一項最有可能正確的路徑作為最終答案,如下圖所示:

傳統(tǒng)實現(xiàn) Best-of-N 的方法有兩種:

1. 投票法(Majority Voting):哪個答案出現(xiàn)最多就選哪個;

2. 過程獎勵模型(Process Reward Model,PRM):用一個額外的模型給每一步打分,再選總分最高的路徑。

然而兩者都存在各自的問題:投票法相對粗糙,且近期的研究也發(fā)現(xiàn),“正確的答案往往存在于少數(shù)中”,這也進一步揭示了投票法在 Best-of-N 任務中的不足;過程獎勵模型的相關方法則存在性能不穩(wěn)定現(xiàn)象,這種現(xiàn)象源于當前的各類過程獎勵模型并非針對外部 Test-Time Scaling 和推理型模型所設計,從而導致了這些模型在應用于 Best-of-N 任務時存在明顯的魯棒性和性能問題。

本文的研究試圖去彌補這類研究的缺陷,并提出了 TrajSelector 方法:一種輕量級但強大的 Best-of-N 策略,它通過復用大模型自身的 “隱藏狀態(tài)” 來評估推理路徑質量,無需昂貴的過程標注或 7B 參數(shù)的獎勵模型,就能在數(shù)學推理任務中取得顯著性能提升。

  • 論文標題:TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
  • 論文地址:https://arxiv.org/abs/2510.16449
  • 項目主頁:https://zgca-ai4edu.github.io/TrajSelector/

TrajSelector:利用大模型隱狀態(tài),解鎖大模型推理的 “最優(yōu)選擇” 

論文首先分析現(xiàn)有 Best-of-N 方法的兩個致命缺陷:

  • 重量級過程獎勵模型(PRM)的成本太高:主流方法用 7B 參數(shù)的 PRM 給每個推理步驟打分,部署和推理成本幾乎和策略模型(比如 8B 的 Qwen3)持平,成本驟增;
  • 模型隱狀態(tài)被浪費:另一些方法嘗試用策略模型的內在狀態(tài)評估答案,但這些狀態(tài)沒有被系統(tǒng)化利用,在不同任務上性能波動極大,可靠性差。

為什么需要隱狀態(tài)?因為大模型的隱狀態(tài)里往往藏著 “自我反思信號”—— 比如解數(shù)學題時,某個步驟的隱狀態(tài)可能已經(jīng)編碼了 “這個推導是否合理” 的信息,只是沒有被顯式利用。

TrajSelector 的核心目標就是解決這兩個問題:用最小的參數(shù)開銷,充分利用策略采樣模型的隱狀態(tài),實現(xiàn) Effective 且 Efficient 的 Best-of-N 范式。該方法的架構圖如下:

TrajSelector 的框架非常簡潔,本質是 “并行采樣 - 步驟打分 - 聚合選優(yōu)” 的三步流水線:

1. 并行采樣:使用一個凍結的策略模型進行并行采樣,得到多個推理路徑及其隱狀態(tài)。 

2. 步驟打分:TrajSelector 方法用一個僅 0.6B 參數(shù)的輕量級打分模型(即 Qwen3-0.6B-Base),通過復用策略模型的隱狀態(tài)給每個推理步驟打分。這種隱狀態(tài)的利用使得輕量級的小模型能夠復用來自于策略模型的編碼能力,使得在顯著減小模型參數(shù)規(guī)模的前提下,實現(xiàn)了更優(yōu)的打分效果。

3. 聚合選優(yōu):TrajSelector 使用了最簡單的算術平均來計算每個推理路徑的得分情況,得出每一個的全局分數(shù),進行選擇出全局分數(shù)最高的路徑作為最終答案。

訓練方案

傳統(tǒng) PRM 需要大量 “步驟級標注”—— 比如人工給每個推理步驟標 “對 / 錯”,成本極高。而 TrajSelector 的訓練完全不用手動標注,僅靠 “弱監(jiān)督” 就能實現(xiàn)模型的訓練。

訓練時的核心挑戰(zhàn)在于:一個最終正確的軌跡,未必每個步驟都正確(比如步驟有冗余,但結果對了)。如果直接把 “軌跡標簽” 當成 “步驟標簽”,會引入大量噪聲。TrajSelector 借鑒了來自于 FreePRM 的損失函數(shù)設計方案,額外引入了一個 “buffer” 選項來吸收噪聲,從而設計出一個特殊的三分類損失函數(shù):

  • 對于標簽為 “正確” 的軌跡,要求模型預測 “正確 + 中性” 的概率和為 1(允許部分步驟是中性,吸收噪聲);
  • 對于標簽為 “錯誤” 的軌跡,要求模型預測 “錯誤 + 中性” 的概率和為 1。

這樣的訓練方案擺脫了對人工過程標注的依賴,從數(shù)據(jù)驅動的角度讓模型自主學習如何 “抓重點”,在大規(guī)模數(shù)據(jù)的訓練下實現(xiàn)了一個智能且輕量級的過程驗證器。

實驗效果

論文給出了 Best-of-N 任務中多個 N 值設置下的模型性能表現(xiàn),包括 N = 1,5,10,16,32,64 ,基準選用了主流的 AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25 等多個基準。

下表給出了以 Qwen3-8B 為基座的 N=16 和 N=32 時 Best-of-N 表現(xiàn):

匯總各個 baselines 的平均表現(xiàn),可以繪制出一個由 Best-of-N 實現(xiàn)的外部 Test-Time Scaling 曲線圖:

與各基線相比,隨著 N 的增大,TrajSelector 方案實現(xiàn)了更穩(wěn)定的性能增長。

總結

TrajSelector 給大模型推理優(yōu)化提供了一個重要思路:與其追求更大的模型,不如更聰明地利用現(xiàn)有模型的能力。它用 0.6B 的輕量級驗證器,實現(xiàn)了比 7B PRM 更好的效果,證明了 “隱藏狀態(tài)中的自我反思信號” 是未被充分挖掘的寶藏。對于需要落地大模型推理的場景(比如教育、科研計算),TrajSelector 的高效性和低成本特性,讓 “Best-of-N” 從 “實驗室方案” 真正走向 “實用化”。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2016-10-09 13:19:43

2025-03-10 09:30:00

2019-03-25 22:04:19

編程PythonJava

2016-07-06 11:38:10

移動 出海

2019-04-04 13:00:19

Linuxshell命令

2013-02-28 10:24:18

2012-06-20 09:39:02

惡意網(wǎng)站

2022-08-16 08:35:45

Black Hat網(wǎng)絡安全

2020-05-08 10:12:25

腦機接口機器翻譯人工智能

2025-06-25 09:28:38

2024-11-13 12:48:30

2024-04-17 13:22:55

人工智能

2021-10-15 10:11:00

遠程管理監(jiān)控數(shù)據(jù)中心

2025-10-31 08:55:00

2024-11-13 09:43:03

2025-02-25 10:34:10

2021-06-06 16:19:46

微軟Windows 10Windows

2013-03-05 09:04:38

Java 60day

2021-01-15 07:22:51

APP時間規(guī)劃局證件照相機
點贊
收藏

51CTO技術棧公眾號

国产制服丝袜在线| 国产毛片视频网站| 国产美女精品视频国产| 黑人一区二区三区四区五区| 亚洲精品ady| 91网址在线播放| 任你弄在线视频免费观看| 97se亚洲国产综合自在线| 国产精品男人的天堂| 五月天丁香激情| 国产乱码精品一区二区亚洲| 欧美一级高清片在线观看| 十八禁视频网站在线观看| 视频在线观看入口黄最新永久免费国产 | 欧美高清一级片| 欧美日韩中文字幕综合视频| 日日噜噜噜夜夜爽爽| 四季av日韩精品一区| 免费看日韩精品| 97久久国产精品| 国产福利视频网站| av在线不卡免费观看| 亚洲国产精品久久久久| 国产成人在线综合| 日韩电影免费观| 亚洲h在线观看| 异国色恋浪漫潭| 91成人高清| 久久久久久久一区| 精品视频高清无人区区二区三区| 国产老妇伦国产熟女老妇视频| 亚洲免费一区二区| 性欧美暴力猛交69hd| www欧美com| 日韩综合精品| 最近更新的2019中文字幕| 中文字幕一区二区三区人妻电影| 国产66精品| 欧美r级电影在线观看| 中文字幕 欧美日韩| 精品欧美日韩精品| 日本久久一区二区| 久久精品香蕉视频| 国产精品av一区二区三区 | 国产乱码久久久久| 美女一区二区视频| 国产精品久久久久久久电影| 国产污视频网站| 丝袜亚洲另类欧美综合| 日本亚洲欧洲色α| 亚洲图片欧美日韩| 丝袜亚洲另类丝袜在线| 国产精品免费小视频| 中文字幕日韩经典| 久久成人免费日本黄色| 国产日韩视频在线观看| 国产精品伦一区二区三区| 免费高清在线一区| 91精品久久久久久久久不口人| 亚洲香蕉在线视频| 国产一区二区三区在线观看精品| 91色在线观看| 亚洲精品久久久久久无码色欲四季 | 欧美激情性爽国产精品17p| 久青草国产97香蕉在线视频| 欧美三级日本三级| 日韩亚洲在线| 日韩免费观看在线观看| 在线视频1卡二卡三卡| 精品午夜一区二区三区在线观看 | 亚洲一二区视频| 国产精品中文字幕欧美| 国产精华一区| 裸体xxxx视频在线| 国产精品理论片| 国产日韩第一页| 国产丝袜在线观看视频| 一本高清dvd不卡在线观看| 天堂av在线网站| 韩国一区二区三区视频| 精品99999| 免费人成又黄又爽又色| 亚洲不卡av不卡一区二区| 欧美另类交人妖| 日韩一区二区视频在线| 奇米四色…亚洲| av一本久道久久波多野结衣| 青春有你2免费观看完整版在线播放高清| 久久久99久久| 日本美女爱爱视频| 成人av免费电影网站| 91麻豆精品国产91久久久久久 | 日批视频在线看| 神马香蕉久久| 久久精品国产2020观看福利| 日韩精品一卡二卡| 久久国产精品区| 久久99精品久久久久久青青日本| 亚洲成人三级| 欧美视频在线免费看| 日本在线播放一区二区| 美女呻吟一区| 久久精品国产96久久久香蕉| 精品国产免费观看| 韩日精品视频一区| 欧美高清性xxxxhdvideosex| 日本一级理论片在线大全| 91成人免费在线视频| 亚洲欧美日韩色| 欧美国产一区二区三区激情无套| 国内精品久久久久久久久| 在线观看视频二区| 久久精品一区二区三区av| 91大学生片黄在线观看| 97精品国产99久久久久久免费| 精品国产乱码久久久久久老虎 | 国产高清美女一级毛片久久| 亚洲国产精品久久人人爱| 99九九精品视频| 欧美色网址大全| 欧美亚洲国产成人精品| 精品久久久无码中文字幕| 国产精品视频免费| 50路60路老熟妇啪啪| 日韩精品社区| 久久久亚洲天堂| 亚洲AV无码精品色毛片浪潮| 国产精品久久久久久久浪潮网站| 成年人免费在线播放| 天美av一区二区三区久久| 欧美大片免费观看| 99久久夜色精品国产亚洲| 国产精品色哟哟| 男人添女人下面免费视频| 神马影视一区二区| 欧美一区亚洲一区| 四虎影视在线观看2413| 亚洲第一激情av| 妖精视频一区二区| 亚洲性色视频| 精品久久久久久一区| 波多野结衣在线播放| 欧美一区日韩一区| 99视频只有精品| 国产一区二区91| 女女百合国产免费网站| 精品精品视频| 欧美国产视频日韩| 人妻视频一区二区三区| 亚洲成人av电影| a级一a一级在线观看| 日韩亚洲国产精品| 六月婷婷久久| 欧美黄色三级| 少妇av一区二区三区| 一起草av在线| 亚洲综合成人在线| 欧美xxxxx精品| 国产精品婷婷| 日本在线观看一区| 97人人做人人爽香蕉精品| 日韩在线欧美在线国产在线| 国产露脸国语对白在线| 一区二区三区精密机械公司| 一级欧美一级日韩片| 亚洲专区一区| 亚洲一区二区三区精品动漫| 亚洲欧美一级| 国内精品小视频| 久久经典视频| 欧美精品在欧美一区二区少妇| 午夜成人亚洲理伦片在线观看| 国产一区二区三区综合| www.射射射| 国产欧美日韩影院| 91色在线视频| 精精国产xxxx视频在线野外| 国产一区二区av| 国产福利小视频| 精品久久久久久中文字幕一区奶水| 免费看黄色的视频| 国产综合一区二区| 尤物av无码色av无码| 全球成人免费直播| 国产精品免费一区二区三区四区| 巨茎人妖videos另类| 久久久精品国产网站| 婷婷五月综合久久中文字幕| 欧美日韩精品电影| 国产在线欧美在线| 国产精品久线观看视频| 美女久久久久久久久| 美女国产一区二区| 日韩精品 欧美| 国产精品久久久久久久久久10秀| 国产精选在线观看91| 天天综合91| 91成人福利在线| 国产成人午夜| 亚洲视频在线观看免费| 亚洲xxx在线| 欧美午夜电影网| 日韩精品一卡二卡| 亚洲另类在线一区| 免费看裸体网站| 91网上在线视频| 97免费公开视频| 精品一区二区三区在线观看国产| 国产原创popny丨九色| 亚洲女同中文字幕| 四虎永久在线精品免费一区二区| 牛牛视频精品一区二区不卡| 91久久大香伊蕉在人线| 国产精品伦一区二区| 91精品国产一区| 在线免费观看的av| www.亚洲男人天堂| 丁香婷婷在线| 亚洲乱亚洲乱妇无码| 蜜臀久久久久久999| 91精品国产日韩91久久久久久| www.久久久久久久| 欧美日韩美女在线| 国产在线综合网| 一区二区三区美女| 天天鲁一鲁摸一摸爽一爽| 中文字幕巨乱亚洲| 亚洲第一综合网| 久久影院午夜论| 亚洲天堂成人av| 91在线porny国产在线看| 精品人妻二区中文字幕| 国产精品资源在线观看| av噜噜在线观看| 激情成人午夜视频| 91欧美视频在线| 麻豆久久久久久| 亚洲国产日韩欧美在线观看| 免费xxxx性欧美18vr| 在线免费观看视频黄| 奇米色777欧美一区二区| 亚洲无吗一区二区三区| 青草av.久久免费一区| 亚洲欧美国产日韩综合| 美女www一区二区| 视频免费1区二区三区 | 国产日韩欧美日韩| 九九热这里有精品| 成人av在线网址| 高清一区二区| 国产成人精品一区二区三区福利| 中文在线免费一区三区| 国产精品视频免费一区| 女同另类激情重口| 欧美精品一区三区在线观看| 国产中文字幕一区二区三区| 先锋影音网一区| 五月激情综合| 日本天堂免费a| 亚洲免费成人| 日本人视频jizz页码69| 久久99国产精品久久99| 中文字幕欧美视频| 成人h动漫精品一区二区| 懂色av粉嫩av蜜乳av| 欧美高清在线一区二区| 波多野结衣在线网址| 一区二区日韩av| 五月婷婷亚洲综合| 欧美日韩不卡一区二区| 成人福利小视频| 国产视频精品在线| 日本免费视频在线观看| 欧美激情视频播放| 玛雅亚洲电影| 91久久久国产精品| 久久动漫网址| 性欧美精品一区二区三区在线播放| 五月天久久网站| 男女超爽视频免费播放| 久久99九九99精品| 亚洲中文字幕无码一区| 国产日韩精品一区二区三区| 午夜激情福利网| 欧美性69xxxx肥| 国产视频一区二区三| 日韩精品久久久久| 乱人伦中文视频在线| 91精品国产高清自在线| 久久久久久久性潮| 国产一级精品aaaaa看| 91亚洲国产| 欧美日韩在线视频一区二区三区| 久色婷婷小香蕉久久| 成年人的黄色片| 亚洲欧美日韩国产一区二区三区| 精品欧美一区二区三区免费观看| 欧美人牲a欧美精品| 四虎精品成人影院观看地址| 久久精视频免费在线久久完整在线看| а√在线中文在线新版| 91牛牛免费视频| 欧美日韩中文字幕一区二区三区| 成人小视频在线观看免费| 精品亚洲一区二区| 亚洲v国产v欧美v久久久久久| 国产精品久久三| 欧美福利视频一区二区| 欧美一区二区黄| yiren22综合网成人| 韩剧1988免费观看全集| 爱情电影网av一区二区| 日本高清不卡三区| 国产精品草草| 99re6在线观看| 国产视频一区二区在线| 日本三级视频在线| 日韩三级在线观看| 日本在线免费网| 国产成人亚洲综合| 蜜臀91精品国产高清在线观看| 韩日视频在线观看| 国产精品99久久久久久有的能看 | 日韩精品一区二区三区中文在线| 欧美一级二级三级| 99精品久久久| 日本一区二区免费视频| 最新国产成人在线观看| 亚洲天堂男人网| 一本色道久久综合狠狠躁篇怎么玩| 538在线视频| 成人性色av| 欧美视频二区| 亚洲成a人片在线www| 亚洲黄色av一区| www.黄色片| 欧美另类极品videosbest最新版本 | 翡翠波斯猫1977年美国| 亚洲一区 二区 三区| 久久精品亚洲天堂| 亚洲日本一区二区三区| 97精品人妻一区二区三区在线| 中文字幕亚洲激情| 色综合久久久| 在线观看18视频网站| 国产黄人亚洲片| 欧美日韩大片在线观看| 精品国精品国产| a国产在线视频| 久久久久久久久四区三区| 中文欧美日韩| 日本一级免费视频| 欧美在线观看你懂的| 日本美女在线中文版| 亚洲free性xxxx护士hd| 韩日成人在线| 一起草在线视频| 色呦呦网站一区| 1769在线观看| 91午夜理伦私人影院| 欧美性色综合| 一女三黑人理论片在线| 在线免费亚洲电影| 日本中文字幕在线视频| 亚洲va国产va天堂va久久| 欧美日韩p片| 中文人妻一区二区三区| 在线看国产一区| 超碰在线最新| 国产一区二区三区高清视频| 免费亚洲一区| 一本在线免费视频| 日韩一二三区视频| 阿v视频在线观看| 亚洲欧美国产不卡| 国产成人精品亚洲777人妖| 日韩 欧美 综合| 中文字幕日韩av综合精品| 精品视频在线播放一区二区三区 | 韩日视频在线观看| 久久久久久一级片| av加勒比在线| 欧美最猛性xxxxx免费| 久久人体视频| 大乳护士喂奶hd| 欧美丰满一区二区免费视频| 久久亚洲导航| 日韩一区免费观看| 盗摄精品av一区二区三区| 中文字幕精品视频在线观看| 久久久精品一区二区三区| 欧美日韩夜夜| 永久免费黄色片| 色先锋久久av资源部| 91三级在线| 日本精品一区二区三区高清 久久| 国内精品自线一区二区三区视频| 日本一区二区网站| 久久天天躁狠狠躁老女人| 羞羞答答一区二区|