精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

推理時也能做偏好優化,無需額外重訓練,來自上海AI Lab港中文等

人工智能 新聞
提出推理時偏好優化(TPO)方法,通過在推理過程中與獎勵模型交互,將獎勵模型信號轉化為”文本損失”和”文本梯度”,以此迭代優化模型輸出。

隨著大語?模型(LLMs)在各類任務中展現出令人矚目的能力,如何確保它們?成的回復既符合預期又安全,始終是?項關鍵挑戰。

傳統的偏好對??法,如基于?類反饋的強化學習(RLHF)和直接偏好優化(DPO),依賴于訓練過程中的模型參數更新,但在?對不斷變化的數據和需求時,缺乏?夠的靈活性來適應這些變化。

為了突破這?瓶頸,上海人工智能實驗室、香港中文大學等聯合提出了推理時偏好優化(TPO)方法,通過在推理階段與獎勵模型交互,借助可解釋的文本反饋,迭代優化模型輸出,實現了即時的模型對?,??需重新訓練。

實驗結果表明,TPO能夠有效提升未對?模型的表現,甚?超越經過訓練的對?模型,為模型偏好對?提供了?種全新的思路。


△訓練時偏好優化VS推理時偏好優化

TPO特點

(1)推理時對?、?需訓練:TPO通過與獎勵模型的推理階段交互,實現即時對?偏好,無需更新模型參數。

(2)基于?本反饋:TPO使?可解釋的文本反饋(而非純數值梯度)來指導優化,讓模型“理解?并“執行”文本評價。

(3)優于傳統?法:在推理階段,未對?的模型(例如Llama-3.1-70B-SFT)經過數次TPO迭代,能夠持續逼近獎勵模型的偏好。在多個基準測試中,其表現甚至超越了已在訓練時對?的版本(例如Llama-3.1-70B-Instruct)。

(4)靈活適應性:TPO能夠靈活應對不斷變化的數據和需求,具有較強的適應性,并且能夠在資源有限的環境下?效運?。

研究方法

為實現這??標,已有多種方法用來實現評分函數,如RLHF和DPO通過訓練時偏好優化來對??類偏好。這些?法通過基于梯度的?法(如隨機梯度下降,SGD)優化模型參數(如神經?絡中的權重θ),使得?成符合?類偏好的輸出概率更?。每次更新的步驟如下:

TPO通過解釋和執行文本損失文本梯度,為模型生成的回復提供可解釋的優化信號。

如圖所示,TPO包含四個關鍵組件,類似于標準的梯度優化?法:變量定義、損失計算、梯度計算和變量優化。

研究人員使用獎勵模型R作為人類偏好的代理,提供生成回復質量的反饋。在推理時對?過程中,系統通過迭代調整輸出,使其逐步更符合獎勵模型的偏好。

△測試時間偏好優化(TPO)框架(AlpacaEval2的真實示例)

該過程最多進行D次迭代,類似于訓練過程,稱為推理時訓練(test-time training)。最終,選擇緩存中評分最高的回復作為最終輸出。

實驗與結果

策略模型

  • 未對齊模型:Llama-3.1-70B-SFT
  • 已對齊模型:
    -Llama-3.1-70B-Instruct
    -Llama-3.1-70B-DPO(UltraFeedback訓練得來)

獎勵模型

  • FsfairX-LLaMA3-RM-v0.1
  • Llama-3.1-Tulu-3-8B-RM

benchmark與評價指標

  • 指令跟隨:Alpaca Eval 2(原始勝率WR和長度控制勝率LC)和ArenaHard(勝率WR)
  • 偏好對齊:HH-RLHF(采樣500條,FsfairX-LLaMA3-RM-v0.1的平均獎勵分數)
  • 安全:BeaverTails-Evaluation(FsfairX-LLaMA3-RM-v0.1的平均獎勵分數)XSTest(WildGuard的準確率)
  • 數學能力:MATH-500(使用0-shot配置和CoT提示,pass@1準確率)

推理時訓練效果

TPO在推理時對模型進行優化,通過少量的迭代步數逐漸擬合獎勵模型偏好,顯著提升未對齊模型的性能,使其達到與對齊模型相當的水平;在已對齊模型上,TPO進一步增強了對齊效果,而Revision版本(迭代優化選定回復而不參考被拒絕回復)的提升有限。

benchmark性能

TPO能夠顯著提升模型性能指標,未對齊模型通過TPO超越了訓練時對齊的模型,而對齊模型在經過TPO迭代后也獲得了進一步的優化。D和N分別表示最大迭代次數和樣本數量。

* 表示使用獎勵模型FsfairX-LLaMA3-RM-v0.1優化的模型,而?表示Llama-3.1-Tulu-3-8B-RM。

推理穩定性

TPO能夠有效地根據獎勵模型的反饋調整模型輸出,顯著改善推理穩定性,表現為采樣樣本的獎勵分數標準差的降低。

TPO的特性分析

TPO的寬度:增加TPO的搜索寬度(即每次TPO迭代中采樣的回復數量)能夠顯著提升性能,直到達到飽和。

TPO的深度:增加TPO的搜索深度比單純增加樣本數量更有效地發現更高質量的回復。

TPO的計算成本:TPO無需更改模型參數,與訓練時偏好優化相比,在計算成本上具有顯著優勢。TPO的計算成本(FLOPs)僅為一輪DPO訓練(64,000條數據)所需開銷的0.01%。而Instruct模型通常在百萬級語料上多輪迭代,訓練成本遠高于DPO,進一步凸顯了TPO在相對計算成本方面的優勢。

TPO的指令跟隨前提:TPO的成功依賴于策略模型具備基礎的指令跟隨能力,因為模型必須準確解釋和響應數值形式的獎勵模型偏好。

總結

提出推理時偏好優化(TPO)方法,通過在推理過程中與獎勵模型交互,將獎勵模型信號轉化為”文本損失”和”文本梯度”,以此迭代優化模型輸出。

無需重新訓練,即可讓大語言模型與人類偏好對齊。TPO為訓練時偏好優化提供了輕量、高效且可解釋的替代方案,充分利用了大語言模型在推理時的固有能力。

推理時優化的靈活性:TPO通過即時文本反饋實現推理時對?,增強了模型在多樣化場景中的適應能力,能快速響應變化的需求和任務的變化。此外,TPO充分利用大語言模型在推理、指令跟隨等方面的內在優勢,從?實現了更靈活的偏好對?。

未來研究?向:未來的研究可聚焦于優化文本交互?法,使其能夠適應更多專門任務,探索更魯棒的獎勵模型以提升偏好捕捉能?,并研究如何提升較弱模型在TPO中的表現,從而進一步拓展其應用場景和優化效果。

論?鏈接:https://arxiv.org/abs/2501.12895
Github鏈接:https://github.com/yafuly/TPO
Huggingface鏈接:https://huggingface.co/papers/2501.12895

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-05 13:40:00

2022-09-30 15:15:41

模型框架

2025-03-13 09:47:29

2025-04-25 09:20:00

數據模型AI

2022-05-12 13:39:48

AI研究模型

2025-02-17 09:33:00

AI算法模型

2025-04-27 09:16:00

模型AI數據

2024-12-26 07:20:00

2025-08-11 08:54:00

AI模型數據

2025-09-15 08:53:00

AI模型推理

2025-06-11 09:17:00

2025-11-19 08:51:13

2025-07-29 09:10:00

2024-08-28 08:43:58

2025-05-19 08:37:00

2025-02-27 13:00:00

2025-04-11 09:35:34

2024-07-22 15:34:21

2025-06-03 09:05:00

2025-07-21 08:47:00

AI框架模型
點贊
收藏

51CTO技術棧公眾號

亚洲一区在线观看网站| 国产精品一级片| 一区二区中文字幕| www.99r| 免费在线毛片网站| 国产精品一区一区三区| 26uuu亚洲国产精品| 影音先锋制服丝袜| 韩国三级成人在线| 偷拍日韩校园综合在线| 色就是色欧美| 国产绳艺sm调教室论坛| 亚洲午夜电影| 这里只有精品久久| 国产熟女高潮一区二区三区| 中韩乱幕日产无线码一区| 亚洲精选一二三| 欧美高清一区二区| av网站在线观看免费| 久久av一区二区三区| 久久中文字幕一区| 国产精品扒开腿做爽爽| 日韩精品视频一区二区三区| 91精品办公室少妇高潮对白| 久久在线中文字幕| 日本在线天堂| 成人免费av网站| 成人在线中文字幕| 亚洲欧美一区二区三区在线观看| 综合天堂av久久久久久久| 日韩久久精品电影| 男人的天堂免费| 国产精品亲子伦av一区二区三区| 亚洲福利一区二区| 好吊色视频988gao在线观看| 国产日韩精品在线看| 99精品欧美一区二区蜜桃免费| 91亚洲国产精品| 中文字幕在线观看免费| 久久精品30| 国模叶桐国产精品一区| a级片在线观看免费| 日韩国产在线| 国产亚洲欧洲黄色| 中文字幕一区二区人妻在线不卡| 国产精品45p| 日韩色视频在线观看| 蜜臀一区二区三区精品免费视频| 性欧美freehd18| 日本韩国精品在线| 久久精品一区二| 一区二区三区短视频| 欧美日韩日本国产| 国产69精品久久久久久久| 美女91在线| 亚洲激情成人在线| 欧美一二三不卡| 宅男在线观看免费高清网站| 亚洲欧美日韩国产综合在线| 国产又爽又黄ai换脸| 免费在线看a| 亚洲色图欧美激情| 黄色录像特级片| 羞羞的视频在线看| 亚洲国产中文字幕| 欧美一级在线看| 免费成人动漫| 欧美中文字幕亚洲一区二区va在线 | 色狠狠久久av综合| 日韩精品免费电影| 无码一区二区三区在线| sdde在线播放一区二区| zzijzzij亚洲日本成熟少妇| 欧美日韩午夜视频| 国产一区二区中文| 57pao国产成人免费| 无码人妻久久一区二区三区不卡| 日韩电影网1区2区| 91精品视频在线| 超碰免费在线97| 99精品国产91久久久久久| 日本一区视频在线观看| 免费在线看黄网站| 亚洲国产日韩av| 成人在线看视频| 婷婷久久免费视频| 精品久久国产字幕高潮| 无码人妻精品一区二区三应用大全| 少妇精品久久久| 久久久国产一区二区| 国产精品不卡av| 日韩激情av在线| 91久久久一线二线三线品牌| 天天干天天操av| 日本一区二区视频在线| 欧美日韩中文字幕在线播放| 国产精品蜜芽在线观看| 欧美日韩一级黄| 无码国产69精品久久久久网站| 国产真实有声精品录音| 欧美成人精品激情在线观看| 久久精品国产成人av| 久久精品国产免费| 精品一区国产| 理论片午午伦夜理片在线播放| 亚洲国产精品一区二区www在线 | 最新欧美色图| 欧美日韩精品二区第二页| 9.1在线观看免费| 日韩免费高清| 68精品国产免费久久久久久婷婷| 亚洲无码精品在线观看| 99久久精品国产麻豆演员表| 综合操久久久| 欧美电影免费看| 精品成人佐山爱一区二区| 少妇视频一区二区| 亚洲欧美清纯在线制服| 51蜜桃传媒精品一区二区| 国产在线中文字幕| 亚洲成人综合网站| 国产精品嫩草影视| 成人在线电影在线观看视频| 97久久精品国产| www香蕉视频| 国产精品久久久久久久久果冻传媒| 久久久久久久久久久99| 中文字幕av一区二区三区四区| 一区二区成人精品| 波多野结衣 久久| 99re热这里只有精品视频| 国内自拍中文字幕| 豆花视频一区| 日韩中文字幕在线精品| 亚洲成人av网址| 久久婷婷国产综合精品青草| 五十路熟女丰满大屁股| 日韩精品成人| 欧美人交a欧美精品| 国产精品系列视频| 国产精品免费人成网站| 蜜臀视频一区二区三区| 亚洲精品国产动漫| 欧美伊久线香蕉线新在线| 日韩性xxxx| 偷拍一区二区三区| 黄色短视频在线观看| 亚洲理论在线| 黄色国产精品一区二区三区| 成入视频在线观看| 亚洲第一福利网站| 国产精品久久久久久久妇| 不卡一区二区在线| 凹凸国产熟女精品视频| 亚州国产精品| 国产成人在线一区二区| wwwww在线观看免费视频| 欧洲国产伦久久久久久久| 极品人妻videosss人妻| 麻豆91在线播放| 欧美 日韩 国产 在线观看| 91麻豆精品| 九九精品视频在线| 亚洲精品911| 午夜视频在线观看一区二区| 中国av免费看| 久久久久久夜| 亚洲黄色一区二区三区| 国产一区二区三区亚洲综合 | www.99re7| 国产91丝袜在线播放| 免费国产a级片| 国产欧美日韩| 91精品视频在线免费观看| huan性巨大欧美| 精品国产1区二区| 国产免费av一区| 国产精品色婷婷久久58| 麻豆精品国产传媒| 国产精品久久久一区二区| 日韩三级电影网站| 亚洲国产欧美国产第一区| 国内自拍欧美激情| 国产三级在线免费| 日韩三级.com| 亚洲天堂一区在线| 中文字幕亚洲不卡| 伊人网综合视频| 日韩精品亚洲专区| www.xxx麻豆| 精品一区二区三区的国产在线观看| 国产日韩视频在线观看| heyzo高清在线| 中文字幕欧美日韩精品| 亚洲国产精品久久久久久6q| 色美美综合视频| 黄色一级视频免费观看| 国产欧美一区二区精品婷婷| 亚洲av无码成人精品区| 日韩精品91亚洲二区在线观看| 国产成人一二三区| 国产毛片一区二区三区| 91在线高清视频| 一根才成人网| 久久久久国产精品免费网站| 国产高清视频在线| 亚洲精品一线二线三线| 又骚又黄的视频| 精品人伦一区二区三区蜜桃网站| 波多野结衣久久久久| 91视频www| 国产又黄又嫩又滑又白| 免费日本视频一区| 日韩黄色片视频| 午夜精品剧场| 亚洲一区精彩视频| 中文精品一区二区| 国产乱码精品一区二区三区卡 | 国产亚洲精品bv在线观看| 99re99热| 第四色成人网| 欧美精品与人动性物交免费看| 91麻豆精品国产91久久久久推荐资源 | 欧美爱爱免费视频| 国产欧美1区2区3区| 亚洲一区二区乱码| 成人精品一区二区三区四区| 三日本三级少妇三级99| 久久99九九99精品| 亚洲老女人av| 日韩综合一区二区| 女人另类性混交zo| 美女日韩在线中文字幕| 僵尸世界大战2 在线播放| 欧美国产三区| 99精品一区二区三区的区别| 久久国产综合| 亚洲自拍偷拍二区| 国产精品久久久久久| 亚洲不卡1区| 精品国产一区二区三区久久久樱花| 国产亚洲情侣一区二区无| 99国产精品久久一区二区三区| 91影视免费在线观看| 国产精品一区二区精品视频观看| 国产欧美日韩免费| 久久青草视频| 国产啪精品视频网站| 国产人妖一区| 国产日韩欧美中文| 国产日韩在线观看视频| 91久久精品www人人做人人爽| 欧洲大片精品免费永久看nba| 亚洲最大福利网站| 中文字幕一区二区三区四区久久 | 欧美在线导航| 免费日韩av电影| 欧美女优在线视频| 视频一区视频二区视频三区高| 禁果av一区二区三区| 天天综合狠狠精品| 久久久久久久久国产一区| 五月天综合婷婷| 红桃视频国产一区| 欧美 日韩 国产在线观看| 香蕉久久国产| 亚洲无吗一区二区三区| 韩日av一区二区| 日批免费观看视频| 久久色.com| 蜜桃av免费在线观看| 亚洲三级视频在线观看| 国产在线拍揄自揄拍无码视频| 黄色一区二区在线观看| 91青青草视频| 91精品国产色综合久久不卡蜜臀 | 国产精品.www| 欧美性黄网官网| 中文字幕久久久久| 日韩欧美在线网站| 三级无遮挡在线观看| 日韩专区在线播放| 爱啪啪综合导航| 国产精品久久久久秋霞鲁丝| 欧美成人精品一级| 久久综合福利| 天天射综合网视频| 国产黄色一级网站| 狠狠色狠狠色综合| 影音先锋黄色资源| 国产精品大尺度| 久久免费在线观看视频| 91高清视频免费看| 成人激情四射网| 国产性猛交xxxx免费看久久| www久久日com| 国产精品96久久久久久| ccyy激情综合| 亚洲在线色站| 亚洲精品影视| 91精品国产三级| 国产亚洲欧美一级| 久久免费小视频| 欧美高清你懂得| 日本天堂在线| 久久久免费高清电视剧观看| 国产亚洲精彩久久| 国产在线视频欧美一区二区三区| 亚洲成人99| 中文字幕第80页| 99国产精品99久久久久久| 亚洲国产美女视频| 欧美色图天堂网| 日本国产在线| 午夜精品久久久久久久白皮肤 | 欧美一区二区三区免费| 国产精品视频一区二区久久| 国内外成人免费激情在线视频| 9999精品| 亚洲一区二区自拍偷拍| 日韩经典中文字幕一区| 狠狠人妻久久久久久综合蜜桃| 亚洲综合色噜噜狠狠| 国产日韩一级片| x99av成人免费| 第四色男人最爱上成人网| 国内一区在线| 亚洲电影av| 中文字幕一区二区三区人妻在线视频 | 国产精品免费一区二区三区观看| 91精品综合久久久久久久久久久| 热久久精品免费视频| 久久久久久电影| 九九热精品视频在线| 精品亚洲国产成av人片传媒| av岛国在线| 国内精品国语自产拍在线观看| 国产精品地址| 亚洲女则毛耸耸bbw| 一区二区高清视频在线观看| www.97av.com| 欧美成人午夜免费视在线看片| 99热这里有精品| 裸体大乳女做爰69| 国内外成人在线| 欧美黑人性猛交xxx| 欧美一级国产精品| 色老头在线观看| 国产精品视频一区二区三区经| 海角社区69精品视频| 涩视频在线观看| 午夜私人影院久久久久| 飘雪影院手机免费高清版在线观看| 欧美中文字幕在线观看| 国产一区二区三区站长工具| 免费涩涩18网站入口| 国产精品久久久久一区二区三区| 91片黄在线观看喷潮| 伦伦影院午夜日韩欧美限制| 秋霞一区二区| 国产婷婷一区二区三区| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 丝袜连裤袜欧美激情日韩| 精品久久一二三| 国产日韩一级二级三级| 一区二区三区www污污污网站| 久久精品国产亚洲精品| 97青娱国产盛宴精品视频| 精品中文字幕av| 中文字幕va一区二区三区| 国产精品久久久久久免费播放 | 国内精彩免费自拍视频在线观看网址 | 久久精品66| chinese少妇国语对白| 中文字幕在线视频一区| 亚洲av综合色区无码一二三区| 性欧美长视频免费观看不卡| 国产精品片aa在线观看| av在线免费看片| 精品av在线播放| 婷婷激情在线| 国产精品久久久一区二区三区| 久久婷婷久久| 国产女人18水真多毛片18精品| 亚洲а∨天堂久久精品9966| 国产亚洲一区二区手机在线观看 | 欧美黄色一级生活片| 9191久久久久久久久久久| 白浆视频在线观看| 亚洲国产欧美不卡在线观看| 国产精品资源网| 成人午夜视频在线播放| 久久激情五月丁香伊人| 欧美色资源站| 亚洲第一色av| 欧美日韩精品二区| a级毛片免费观看在线| 欧美人与物videos另类| 国产成人亚洲精品青草天美| 国产女主播喷水视频在线观看 |