精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓SFT重新偉大!CMU等華人學者提出全新「批判式微調」,媲美復刻版DeepSeek

人工智能 新聞
在面對復雜的推理任務時,SFT 往往讓大模型顯得力不從心。最近,CMU等機構的華人團隊提出了「批判性微調」(CFT)方法,僅在 50K 樣本上訓練,就在大多數基準測試中優于使用超過200萬個樣本的強化學習方法。

模仿是傳統語言模型訓練的主要方式。LLM在解決現實世界問題方面之所以表現出前所未有的性能,其中一項核心技術是監督微調(SFT)。

在SFT的過程中,模型被要求模仿人類標注或合成的高質量回復,以增強通用指令遵循能力。這類SFT數據集通常使用Self-Instruct和Evol-Instruct等方法進行構建。

然而,這種方法存在明顯的局限性。隨著數據集規模和質量的提升,SFT面臨著邊際收益遞減的問題,尤其是在訓練本身效果就不錯的基礎模型時,使用SFT甚至可能會導致性能下降。

最近,CMU、滑鐵盧大學等機構的3名華人學者就發表了一篇論文,針對SFT做出了更進一步的改進,提出批判式監督微調方法(CFT,Critique Fine-Tuning),旨在讓模型更有效地模仿模仿數據集。

圖片

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監督微調:讓SFT重新偉大

CFT將重點從簡單模仿轉向基于批判的學習,核心思想是讓模型學會批判,而不是簡單地模仿,其靈感來源于人類的學習過程。

學霸們在學習過程中,不僅僅是復制提供的答案,而是分析、批判和改進它們。同樣,CFT數據集中為錯誤響應提供相應的批評供模型學習,讓LLM能夠識別響應中存在的缺陷,進而提出改進建議并驗證正確性。

這種方法不僅能夠提升推理能力,還能使模型在面對復雜任務時表現出更強的適應性和靈活性。

比如,針對這個問題:在直角三角形的直角邊長分別為3個單位和4個單位的情況下,構造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會一步步的進行運算,先運用勾股定理計算斜邊長度為5,再計算正方形的面積為25,以及三角形面積6,之后模型給出回答25-6。

而在CFT模式下,會由模型對上述回答給出批評,指出錯誤點是應該加上而非減去三角形的面積,并給出正確答案31。

圖片

下圖展示了典型的SFT和CFT數據樣例。

圖片

SFT讓大模型直接模仿答案,CFT讓大模型模仿對錯誤回答的批評

CFT的高訓練效率

那么,如何獲得CFT訓練所需的數據呢?

論文基于WebInstruct,構建了一個50K個帶批評意見的問答對作為訓練數據集,其中的批評由GPT-4o等高級模型生成,上述的題目是其中一個例子。這些問題主要聚焦數學領域(65%),也包括物理、化學、商業等主題。

圖片

CFT數據集與其他SFT數據集對比

之后在CFT數據集上訓練7B大小的、沒有經過指令微調的LLM,如DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT方法的訓練目標相當直接:將問題x和錯誤響應y拼接為作為輸入,然后優化模型參數以生成評論c ,相當于訓練模型學會批判性思維。

圖片

實驗中,作者考察了LLM在經過指令微調與批判性微調后,在數學相關基準上的性能提升。結果顯示:CFT訓練的模型可以持續優于SFT訓練的最佳模型。

相比SFT,CFT的準確率平均高出4-10個百分點。不僅如此,訓練效率也更高,能在更少的訓練數據上實現更快的收斂,因此有望成為開發數學推理模型的一種更有效的方法。

圖片

Qwen2.5-Math-7B在MATH和Minerva-Math上不同方法的訓練動態比較,包括CFT與兩種SFT變體,橫軸代表訓練步數,縱軸顯示準確率

圖片

在同樣是50k個樣本上時,不同的基座模型使用CFT和SFT訓練后的性能提升

如果只聚焦于Qwen2.5-Math-7B這一個模型就可以看到,在各種數據集和任務上,CFT的訓練效果都能全方位超越SFT。

圖片

論文將訓練后的Qwen2.5-Math-7B-CFT與知名的Llama、GPT系列,以及尤其擅長推理的Deepseek、Mathstral、Numina等系列模型進行了對比,結果如下表所示。

圖片

Qwen2.5-Math-7B-CFT的平均性能(48.1%)甚至優于參數量10倍的Llama-3.1-70B-Instruct(40.4%)和 NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相近。

此外,CFT訓練的模型在性能上也能夠與使用140倍計算資源訓練的SimpleRL模型(Deepseek R1的公開復制版)相媲美,使用的GPU時長降低到144分之一,相當于大幅削減了計算成本。

圖片

研究人員還對 CFT 的多個因素進行了消融研究。結果表明,CFT對于數據集來源、噪聲響應來源以及教師批判模型的選擇都具有較強的魯棒性。

例如,即使使用較弱的GPT-4o-mini模型生成批評意見,CFT仍然能夠取得顯著的性能提升。

圖片

局限與擴展

CFT訓練數據集中,作為gold standard的批評數據是由LLM生成的。作者手動檢查其中50個后,發現其中20%的批評意見本身就包含錯誤。這些錯誤可能會對模型的訓練產生一定的干擾,影響其最終性能。

此外,CFT訓練的模型目前還無法進行自我批評,因此尚未觀察到自我改進的效果。

該研究使用的數據集也存在代表性不足的問題,目前只是集中在數學問題上,而在編程以及科學,甚至人文相關的推理問題上,是否仍能采用類似的CFT模式進行訓練,有待研究。

CFT的優勢在于其對模型推理能力的顯著提升以及對訓練數據的高效利用。通過讓模型學會批判,等效于讓大模型進行單次的強化學習。

與現有的自我修正(Self-Correction)、獎勵模型(Reward Models)等方法相比,CFT的目標是通過批判學習來提升模型對問題的深入理解,而不是直接估計獎勵分數或進行自我修正。這種方法在推理任務中表現出了更強的適應性和靈活性。

更為關鍵的是,CFT的數據集構建和訓練過程相對簡單,計算成本較低,因此在實際應用中具有較高的可行性和經濟性。未來的研究可能會在提升批判數據質量和探索模型自我批判機制方面取得突破。

首先是開發自動驗證工具或創建人類驗證的批判數據集,提升批判數據的質量;而要發展出自我批判和自我改進的能力,則需要讓大模型通過用戶的反饋,實現模型的持續優化。

進一步的研究也可能包括將CFT與其他訓練范式,如SFT和RL相結合,擴展到多模態環境,并研究其理論基礎。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-04-10 11:25:54

DebiansystemdDevuan Linu

2024-07-09 12:54:57

2017-09-07 09:56:07

復刻版現身筆記本

2020-03-25 20:30:59

火狐水狐瀏覽器

2025-05-12 08:24:01

2025-03-11 08:42:04

2018-02-07 15:05:10

Commodore 6電腦復刻版

2025-04-03 08:30:00

AI科學論文

2025-03-07 14:32:59

AI模型訓練

2020-05-21 11:29:58

復刻手機屏幕

2021-03-15 14:54:47

編譯器工具代碼

2024-11-15 14:00:00

AI論文

2025-03-25 10:27:14

SFT 指令微調

2025-01-17 11:07:28

2025-06-30 08:26:00

2023-04-06 15:45:00

博士論文

2019-12-12 10:20:30

計算機互聯網 技術

2021-04-24 16:40:55

計算機互聯網 技術

2013-04-19 09:36:26

BrightcoveKdigital云計算

2023-12-27 14:07:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

欧美色手机在线观看| 韩国欧美国产1区| 亚洲精品一区二三区不卡| 国产成人综合一区| 日本中文字幕在线看| 精彩视频一区二区| 韩国福利视频一区| 国产精品1000部啪视频| 久久精品资源| 亚洲成人www| 亚洲春色综合另类校园电影| 国产乱色精品成人免费视频| 亚洲免费成人| 久久精品人人做人人爽| 日本护士做爰视频| 亚洲资源在线| 午夜私人影院久久久久| 亚洲一区三区| 香港一级纯黄大片| 国产一区二区中文字幕| 欧美专区中文字幕| 欧美国产精品一二三| 国产欧美日韩影院| 亚洲а∨天堂久久精品9966| 亚洲精品一二三四五区| 日本资源在线| 成人免费一区二区三区视频 | 亚洲黄网在线观看| 欧美精品啪啪| 日韩有码在线电影| b站大片免费直播| 免费观看成人www动漫视频| 欧美日韩一区二区三区不卡| 亚洲中文字幕无码专区| 黄页网站在线| 亚洲男同1069视频| 一区二区三区偷拍| 岛国在线大片| 国产三级精品三级| 欧美日韩电影一区二区| 欧美自拍偷拍一区二区| 国产成人亚洲精品青草天美 | 国产精品无码AV| 日韩av电影天堂| 青青草原一区二区| 国产成人精品一区二三区| 黄色亚洲免费| 久久久久免费视频| 欧美日韩偷拍视频| 欧美一区成人| 欧美老女人性生活| 国产成人自拍网站| 综合天天久久| 欧美国产日韩中文字幕在线| 欧美三级在线免费观看| 欧美片第1页综合| 欧美日韩xxxxx| 欧美成人三级在线观看| 狠狠爱成人网| 91禁外国网站| 日韩一级片中文字幕| 日本中文在线一区| 国产精品无av码在线观看| 欧美另类高清videos的特点| 麻豆91精品91久久久的内涵| 国产综合香蕉五月婷在线| 亚洲影视一区二区| 国产乱码精品一区二区三区av| 92福利视频午夜1000合集在线观看| 国产精品呻吟久久| 丁香激情综合国产| 久久影院理伦片| 成人在线观看网站| 国产精品日韩精品欧美在线| 日本一级淫片演员| 懂色av一区| 日韩欧美主播在线| 中文字幕av不卡在线| www.91精品| 亚洲成人精品在线| 人人人妻人人澡人人爽欧美一区| av中字幕久久| 精品中文字幕在线观看| 日韩三级免费看| 免费视频一区二区| 97人人澡人人爽| 四虎精品成人影院观看地址| 国产欧美日韩不卡免费| 欧美性受xxxx黑人猛交88| 不卡av免费观看| 在线国产电影不卡| 精品国产午夜福利在线观看| 牲欧美videos精品| 日韩在线播放视频| 中日韩黄色大片| 久久精品国产99国产精品| 国产精品 日韩| eeuss影院在线播放| 亚洲一二三四在线| 91极品视频在线观看| 成人精品毛片| 色偷偷噜噜噜亚洲男人| 国产精品第二十页| 久久精品国产久精国产| 精品日产一区2区三区黄免费 | 中文字幕日韩欧美一区二区三区| 400部精品国偷自产在线观看 | 午夜久久影院| 国产99视频在线观看| 99精品视频免费看| 国产亚洲一二三区| 丰满少妇大力进入| 99热这里有精品| 国产亚洲欧洲高清| 国产精品成人av久久| 青青草成人在线观看| 国产日产精品一区二区三区四区| 日本三级视频在线播放| 欧美日韩国产丝袜另类| 亚洲av午夜精品一区二区三区| 精品国产aⅴ| 91产国在线观看动作片喷水| 国内精品久久久久久久久久久| 中文字幕av一区二区三区高| 国产成人无码精品久久久性色| 国产精品一区二区美女视频免费看 | 亚洲国产成人在线| 欧美黄色免费影院| 一区二区三区视频免费视频观看网站 | 亚洲一区二区三区四区在线| 九色porny自拍| 国产一区二区三区不卡视频网站| 97精品在线视频| 国产三级按摩推拿按摩| 国产精品视频看| 日韩欧美黄色大片| 国产精品片aa在线观看| 5278欧美一区二区三区| 色综合久久久久久| 亚洲电影在线播放| 亚洲一区二区三区黄色| 亚洲视频日本| 国产精品一区视频网站| 欧美videosex性极品hd| 日韩欧美一区在线| 青娱乐国产在线视频| 国产精品夜夜嗨| 老司机午夜网站| 亚洲精品观看| 欧美精品18videos性欧美| 亚洲经典一区二区三区| 一区二区国产盗摄色噜噜| 亚洲欧美日韩中文字幕在线观看| 91精品在线观看国产| 91亚洲精品一区二区| 国产黄色小视频在线| 91精品黄色片免费大全| 国产极品国产极品| 成人免费视频播放| 老太脱裤子让老头玩xxxxx| 欧洲精品一区| 日本精品一区二区三区在线| 国产毛片在线| 欧美片网站yy| 国产精品成人免费观看| 不卡的看片网站| av观看免费在线| 日本a级不卡| 51国产成人精品午夜福中文下载| 日日夜夜天天综合入口| 精品1区2区在线观看| 四虎成人永久免费视频| 国产欧美精品一区二区三区四区| 在线看的黄色网址| 欧美日本一区| 蜜桃臀一区二区三区| 国产精品蜜月aⅴ在线| 欧美成人精品一区二区| 人人妻人人澡人人爽精品日本| 一本久久a久久精品亚洲| 日本 欧美 国产| 成人国产精品免费网站| 日本女优爱爱视频| 亚洲精彩视频| 国产精品日本一区二区| 精品国模一区二区三区| 欧美高清不卡在线| 黄色在线网站| 欧美一区二区三区免费观看视频| 亚洲免费激情视频| 国产精品久久久久久久久免费相片| 男生和女生一起差差差视频| 午夜综合激情| 7777在线视频| 精品国产一区探花在线观看| 91国产在线播放| 蜜桃视频成人m3u8| 欧美国产中文字幕| 91在线导航| 亚洲第一区第二区| 亚洲在线观看av| 欧美日韩一区二区三区在线免费观看 | 欧美大片大片在线播放| 国产高清视频在线观看| 精品日韩成人av| 一级黄色免费看| 色综合久久综合网| 国产亚洲欧美久久久久| 国产精品看片你懂得| 日本少妇毛茸茸| 国产成人精品免费看| 性刺激的欧美三级视频| 国产日韩欧美三区| 91国在线高清视频| 三级电影一区| 日本不卡一区| 任你躁在线精品免费| www.成人三级视频| 成人自拍视频| 国产精品入口日韩视频大尺度 | 欧美性xxxxxxxxx| 欧美日韩亚洲国产另类| 中文字幕视频一区| 99国产精品免费| 国产日韩综合av| 欧美狂猛xxxxx乱大交3| 99精品国产视频| 国产av一区二区三区传媒| 国内精品免费在线观看| 黄色在线视频网| 青青青伊人色综合久久| 99久久激情视频| 老鸭窝毛片一区二区三区| 99视频在线免费播放| 激情欧美日韩一区| 免费网站在线观看视频 | 九九热最新视频//这里只有精品| a中文在线播放| 亚洲天堂男人的天堂| 美女毛片在线看| 亚洲欧美精品suv| 欧美成人片在线| 亚洲毛片在线观看.| 日本又骚又刺激的视频在线观看| 亚洲国产精品999| 天天摸夜夜添狠狠添婷婷| 亚洲韩国青草视频| 天天在线女人的天堂视频| 亚洲精品久久久久久久久久久久 | 国产免费一级视频| 欧美性色xo影院| 无码人妻aⅴ一区二区三区有奶水| 欧美日韩中文字幕| 在线永久看片免费的视频| 欧美性开放视频| 黄色片视频免费| 欧洲视频一区二区| 一本到在线视频| 欧美一卡二卡在线| 亚洲乱码在线观看| 亚洲国产精品成人一区二区| 香蕉久久一区二区三区| 亚洲国产精品久久久久秋霞蜜臀 | 国产精品理论片在线观看| 亚洲国产123| 一区二区三区在线观看欧美| 久久久综合久久| 欧美三级免费观看| 中国黄色一级视频| 91精品国产乱| 少妇高潮久久久| 国产亚洲xxx| a视频在线免费看| 国模精品视频一区二区三区| 亚洲欧美韩国| 成人信息集中地欧美| 北条麻妃一区二区三区在线观看 | 精品日韩在线| 免费成人进口网站| 性欧美精品高清| 亚洲免费一级视频| 北条麻妃一区二区三区| xxx在线播放| 亚洲男人的天堂一区二区 | 欧美日韩成人综合在线一区二区| 国产富婆一级全黄大片| 日韩av中文字幕在线| 最新真实国产在线视频| 久久久久久久一区二区三区| 丝袜美腿一区| 99视频免费观看蜜桃视频| 亚洲人成网www| 国产精品88久久久久久妇女| 亚洲一区国产一区| 超碰人人草人人| 91在线观看下载| 欧美特级一级片| 日韩欧美在线字幕| 亚洲美女综合网| 久久精品91久久香蕉加勒比| 精品众筹模特私拍视频| 国产精品香蕉av| 日韩欧美美女在线观看| 一区二区三区的久久的视频| 亚洲一区欧美二区| 国产调教打屁股xxxx网站| 国产婷婷一区二区| 国产亚洲欧美久久久久| 91精品国产综合久久久久久漫画| 三区在线视频| 久久久免费在线观看| 亚洲二区av| 日韩精彩视频| 国产精品久久777777毛茸茸 | 丰满少妇高潮在线观看| 最近中文字幕mv在线一区二区三区四区| 久久五月精品中文字幕| 成人信息集中地欧美| 成人羞羞动漫| 日本中文字幕片| av影院午夜一区| 久久久久久久福利| 91精品国产高清一区二区三区 | 成人福利视频网| 欧美一级精品片在线看| av天堂永久资源网| av色综合久久天堂av综合| 91插插插插插插| 欧美高清视频一二三区| jizz日韩| 国产成人精品免费久久久久| 亚洲ab电影| 国产午夜福利100集发布| 岛国精品在线播放| 久久精品免费在线| 欧美sm美女调教| 国模私拍视频在线播放| 成人毛片网站| 红桃视频欧美| 女同性恋一区二区三区| 亚洲成人免费在线| 五月婷婷综合久久| 国产69精品久久久久久| 日韩成人午夜| 韩国日本在线视频| 国产欧美精品国产国产专区| 999视频在线| 中文在线不卡视频| 高清在线一区| 欧美 日韩 国产 在线观看| 久久成人av少妇免费| 91麻豆免费视频网站| 日韩一二三区不卡| xxxx另类黑人| 欧美成人免费在线| 日本va欧美va瓶| 欧美色视频一区二区三区在线观看| 欧美日韩国产电影| 羞羞视频在线观看免费| 高清一区二区三区视频| 国产欧美精品| 久久国产柳州莫菁门| 6080日韩午夜伦伦午夜伦| 伊人电影在线观看| 国产亚洲福利社区| 视频一区二区国产| 久久av红桃一区二区禁漫| 日韩你懂的在线播放| 超碰91在线观看| 日韩动漫在线观看| 国模一区二区三区白浆| 国产乡下妇女做爰毛片| 亚洲视频第一页| 国产精品一站二站| 成年人视频观看| 中文字幕一区三区| 亚洲欧美另类综合| 国产aⅴ夜夜欢一区二区三区| 五月综合激情| 喷水视频在线观看| 欧美三级乱人伦电影| 羞羞视频在线观看免费| 欧美一级二级三级| 国产一区二区三区免费播放| 欧美精品亚洲精品日韩精品| 这里只有精品丝袜| 一区二区三区四区高清视频| 99免费视频观看| 亚洲综合在线五月| 国产粉嫩一区二区三区在线观看| 91在线观看免费网站| 亚欧美中日韩视频| 手机在线免费看毛片| 亚洲欧美国内爽妇网| 亚洲1区在线观看| 日本www高清视频| 亚洲午夜成aⅴ人片| 欧美a在线看| 欧美日韩在线观看一区| 丰满白嫩尤物一区二区|