精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

手術(shù)刀式去噪突破LLM能力上限,從頭預(yù)訓(xùn)練模型下游任務(wù)平均提高7.2% | 中科院&阿里

人工智能 新聞
中科院計(jì)算所與阿里Qwen等團(tuán)隊(duì)聯(lián)合提出RefineX,一個(gè)通過程序化編輯任務(wù)實(shí)現(xiàn)大規(guī)模、精準(zhǔn)預(yù)訓(xùn)練數(shù)據(jù)精煉的新框架。

在噪聲污染嚴(yán)重影響預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量時(shí),如何能夠高效且精細(xì)地精煉數(shù)據(jù)?

中科院計(jì)算所與阿里Qwen等團(tuán)隊(duì)聯(lián)合提出RefineX,一個(gè)通過程序化編輯任務(wù)實(shí)現(xiàn)大規(guī)模、精準(zhǔn)預(yù)訓(xùn)練數(shù)據(jù)精煉的新框架。

其核心優(yōu)勢(shì)在于:將專家指導(dǎo)的高質(zhì)量端到端優(yōu)化結(jié)果,蒸餾為極簡的基于編輯操作的刪除程序

圖片

通過這一高精度蒸餾流程,可以訓(xùn)練出高效可靠的優(yōu)化模型(refine model),系統(tǒng)地優(yōu)化語料中的每個(gè)實(shí)例。

在高效精煉數(shù)據(jù)的同時(shí),可靠地保留原始文本的多樣性和自然性。

用RefineX凈化后的20B token數(shù)據(jù)訓(xùn)練750M模型時(shí),其在常識(shí)推理、科學(xué)問答等10項(xiàng)任務(wù)的平均得分達(dá)到44.7,較原始數(shù)據(jù)提升7.2%。

圖片

大模型的預(yù)訓(xùn)練數(shù)據(jù)

預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量直接決定了模型的知識(shí)深度與推理能力上限。

當(dāng)互聯(lián)網(wǎng)成為海量訓(xùn)練數(shù)據(jù)的來源,噪聲污染也隨之而來——植入的廣告、破碎的HTML標(biāo)簽、無意義的亂碼等,不僅降低數(shù)據(jù)效用,更可能引發(fā)模型幻覺。

然而,大規(guī)模的去除這些噪聲來提升預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量是十分困難的,因?yàn)橥瑫r(shí)要兼顧兩個(gè)要素:

  • 高效:由于數(shù)據(jù)規(guī)模龐大,精煉必須能夠高效低成本的進(jìn)行
  • 可靠:精煉應(yīng)該最大化的保留有價(jià)值信息,并不引入額外的模型或人工偏好而破壞原始數(shù)據(jù)的本質(zhì)。

傳統(tǒng)數(shù)據(jù)精煉方案主要集中于規(guī)則過濾端到端重寫。但是,規(guī)則過濾(如C4/Gopher)只能文檔級(jí)粗篩選擇,誤傷高價(jià)值內(nèi)容,且無法做到字符級(jí)的精準(zhǔn)修正;端到端重寫盡管重寫質(zhì)量高,但推理成本極高,無法應(yīng)用于大規(guī)模數(shù)據(jù)。

更危險(xiǎn)的是,端到端重寫過程常擅自修改術(shù)語與句式從而引入模型偏好的不可控性,如:

原始: “Climate change[廣告] impacts the environment”重寫: “Climate change impacts ecosystems” # 篡改關(guān)鍵術(shù)語

而RefineX框架受ProX等新興工作的啟發(fā),選擇了一條新的去噪路徑:

圖片

上圖展示了基于程序的精煉流程,以及ProX和RefineX中精煉模型的訓(xùn)練數(shù)據(jù)構(gòu)建比較。

ProX的限制在于直接訓(xùn)練來自專家輸出的噪聲精煉程序,復(fù)雜的prompt組合極大增加了這項(xiàng)任務(wù)的生成難度,從而降低蒸餾數(shù)據(jù)質(zhì)量。

而RefineX在蒸餾數(shù)據(jù)的處理上進(jìn)行了創(chuàng)新,將蒸餾數(shù)據(jù)的構(gòu)建結(jié)構(gòu)分為兩個(gè)明確的階段:首先執(zhí)行端到端精煉,然后通過將精煉后的文本與原始文本進(jìn)行比較來生成更可靠的監(jiān)督程序。

這個(gè)兩階段過程產(chǎn)生了顯著更可靠的監(jiān)督,有效消除了生成過程中引入的過度編輯風(fēng)險(xiǎn),最終生成一個(gè)更有效且更魯棒的精煉模型。

高效可靠的規(guī)模化精煉

圖片

上圖展示了RefineX的核心工作流程。

RefineX的目標(biāo)是降低專家模型直接生成用于蒸餾的精煉程序難度,同時(shí)盡可能保留端到端輸出中的有效精煉操作。

為實(shí)現(xiàn)這兩個(gè)目標(biāo),RefineX首先在精心設(shè)計(jì)的指令下提示專家模型生成高質(zhì)量的精煉文本。然后,將精煉文本與原始輸入進(jìn)行比較,基于最小編輯距離提取可靠的刪除操作序列。

這些操作被轉(zhuǎn)換為預(yù)定義的程序函數(shù)集,作為可信的監(jiān)督信息來訓(xùn)練緊湊的精煉模型。

訓(xùn)練完成后,模型通過推理生成可靠的精煉程序,隨后執(zhí)行這些程序以高效地在語料庫中執(zhí)行細(xì)粒度精煉。

圖片

為徹底規(guī)避模型偏好帶來的新增內(nèi)容或者過度修改的風(fēng)險(xiǎn),僅保留精煉過程中的刪除操作,RefineX限制程序函數(shù)為刪行、刪字符、保留全部。上面是具體的函數(shù)定義。

“只刪不改”可以很好得保護(hù)原始文本,使拼寫偏差等非關(guān)鍵缺陷得以保留——它們將在預(yù)訓(xùn)練中被數(shù)十萬億token自然中和,而不會(huì)污染數(shù)據(jù)的多樣性本質(zhì)。

另外,RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異,并過濾非法的插入和替換操作以及低質(zhì)量數(shù)據(jù),將可靠的刪除操作與預(yù)定義好的函數(shù)對(duì)齊,和原文本組成文本-程序?qū)?/span>用于優(yōu)化模型的訓(xùn)練。

RefineX使用動(dòng)態(tài)分塊機(jī)制來保持長上下文的內(nèi)容捕獲,提升模型的長上下文處理能力。

論文使用Qwen2.5-72B-Instruct模型作為專家模型進(jìn)行端到端精煉,消耗萬卡小時(shí)來處理得到大約200萬個(gè)高質(zhì)量蒸餾樣本,用于訓(xùn)練0.6B的Qwen-3-Base模型作為優(yōu)化模型。

較小的參數(shù)量可以實(shí)現(xiàn)較高的推理速度保證精煉的高效性,嚴(yán)謹(jǐn)?shù)恼麴s數(shù)據(jù)處理方法保證了優(yōu)化模型的可靠性。

從頭預(yù)訓(xùn)練實(shí)驗(yàn)

為了評(píng)估優(yōu)化數(shù)據(jù)對(duì)模型性能的影響,RefinX團(tuán)隊(duì)使用每種方法優(yōu)化后的語料庫,從頭開始預(yù)訓(xùn)練不同規(guī)模的LLMs,并在下游任務(wù)中評(píng)估它們。

圖片

圖片

結(jié)果顯示,盡管在不同任務(wù)中表現(xiàn)最佳的變體可能來自不同的數(shù)據(jù)源,RefineX在每個(gè)單獨(dú)的任務(wù)上都取得了最佳結(jié)果。

當(dāng)用RefineX凈化后的20Btoken數(shù)據(jù)訓(xùn)練750M模型時(shí),其在常識(shí)推理、科學(xué)問答等10項(xiàng)任務(wù)的平均得分達(dá)到44.7,比原始數(shù)據(jù)提高了+7.2%,比Comb提高了+5.9%,甚至比最強(qiáng)的先前細(xì)粒度改進(jìn)方法Prox-C還要高+2.6%。

在數(shù)據(jù)效率的改善上,模型使用10B凈化token的表現(xiàn)超越其使用20B傳統(tǒng)過濾數(shù)據(jù)的性能,表明RefineX可以有效地通過刪除垃圾文本降低訓(xùn)練單文本的token開銷,從而在訓(xùn)練token總數(shù)限制下讓模型預(yù)訓(xùn)練考慮更加多樣的文本。

圖片

無論是對(duì)原始數(shù)據(jù)進(jìn)行改進(jìn)還是對(duì)先前過濾的數(shù)據(jù)集進(jìn)行改進(jìn),使用RefineX訓(xùn)練的模型始終在平均得分上獲得最高分,并贏得最多任務(wù)。

有效提升文本質(zhì)量

論文使用文本質(zhì)量打分器DataMan來對(duì)收集的混亂的文本數(shù)據(jù)進(jìn)行預(yù)分類,并觀察精煉前后的質(zhì)量變化。

圖片

圖片

可以看到,在文本質(zhì)量層面,RefineX對(duì)低質(zhì)內(nèi)容的改善率高達(dá)42.2%,且嚴(yán)格保持“零新增詞匯”,杜絕了任何幻覺風(fēng)險(xiǎn)。而端到端方案雖提升率更高,卻以每千token新增15個(gè)外部詞匯為代價(jià),埋下了語義篡改的隱患。

RefineX提供了一個(gè)可靠又高效的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)細(xì)化的新范式。真正的數(shù)據(jù)凈化不是重塑文本,而是以最小干預(yù)剝離噪聲,讓知識(shí)的原初脈絡(luò)自由呼吸。

arxiv:https://arxiv.org/abs/2507.03253

huggingface:https://huggingface.co/papers/2507.03253

github:https://github.com/byronBBL/RefineX

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2014-12-04 15:17:32

2018-02-23 12:41:05

阿里云處理器量子

2009-02-26 08:59:50

雅虎巴茨楊致遠(yuǎn)

2025-08-24 09:24:07

2017-10-11 20:03:51

阿里云南京云棲

2025-10-29 16:16:49

Auto-RAGRAG大語言模型

2017-05-15 15:07:36

納米材料農(nóng)藥

2025-11-10 17:07:13

AI模型自動(dòng)化

2025-06-13 09:29:51

2025-05-09 08:40:00

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2022-01-17 12:06:43

人工智能AI深度學(xué)習(xí)

2024-03-07 12:31:29

AI技術(shù)

2009-09-18 09:40:57

浪潮中科院合肥

2016-04-19 12:51:26

2010-05-14 10:09:21

中科院LED無線上網(wǎng)

2009-10-11 01:04:43

曙光中科院計(jì)算中心

2024-12-31 09:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩欧美你懂的| 伊人精品在线| 色噜噜狠狠色综合欧洲selulu| 国产精品视频免费一区二区三区| 97免费在线观看视频| 全国精品免费看| 一本色道亚洲精品aⅴ| 亚洲视频sss| 国内老熟妇对白hdxxxx| 精品国产精品国产偷麻豆| 欧美午夜一区二区三区| 男女激烈动态图| 青青久在线视频| 中文字幕一区二区三区欧美日韩| 日韩电影在线观看永久视频免费网站| 国产超碰在线播放| 韩国中文字幕2020精品| 久久99国产精品麻豆| 97免费视频在线| 手机av在线看| 91成人午夜| 欧美日韩一区二区三区在线| 久久成人福利视频| 亚洲国产成人在线| 中文字幕日韩欧美| 亚洲欧美高清在线| 亚洲最大网站| 亚洲综合久久av| 欧美少妇一区| 亚洲永久精品一区| 亚洲毛片网站| 大量国产精品视频| 香蕉视频黄色在线观看| 国产亚洲人成a在线v网站| 亚洲第一精品在线| 在线免费一区| 国产九九在线| 91在线播放网址| 91嫩草免费看| 国产视频一区二区三| 肉色丝袜一区二区| 2020久久国产精品| 国产精品99久久久久久成人| 欧美a一欧美| 欧美成人欧美edvon| 日韩肉感妇bbwbbwbbw| 蜜桃av在线| 亚洲国产毛片aaaaa无费看| 日本一区二区在线视频| 青草久久伊人| 91蜜桃免费观看视频| 国产精品yjizz| 国产农村妇女毛片精品| 久久国产夜色精品鲁鲁99| 国产精品高潮呻吟久久av黑人| 欧美精品入口蜜桃| 欧美精品观看| 久久久久www| 希岛爱理中文字幕| 午夜日韩电影| 毛片精品免费在线观看| tube国产麻豆| 欧美1区免费| 欧美大片在线看| 欧美日韩一级大片| 久久福利综合| 久久精品国产2020观看福利| 精品无码久久久久成人漫画| 亚洲破处大片| 久久久久久中文| 欧美福利视频一区二区| 久久av一区二区三区| 91禁国产网站| 波多野结衣视频在线观看| 亚洲深爱激情| 国产精品久久久久久久久久三级| 色老头在线视频| 久久精品国产亚洲aⅴ| 国产免费一区二区三区在线能观看 | 英国三级经典在线观看| 色综合久久九月婷婷色综合| www.色偷偷.com| 激情久久免费视频| 欧美一区二区大片| 韩国一区二区三区四区| 欧美顶级毛片在线播放| 国产一区二区三区久久精品 | 性一交一乱一透一a级| 精品亚洲免费视频| 丁香婷婷久久久综合精品国产| 好男人www在线视频| 成人sese在线| 免费在线国产精品| 黄av在线免费观看| 精品毛片网大全| 日本黄大片一区二区三区| 777久久精品| 国产一区二区三区免费视频| 91狠狠综合久久久| 欧美三级小说| 国产精品久久久久久久av大片| av免费观看在线| 97成人超碰视| 成人国产一区二区三区| 我爱我色成人网| 日韩手机在线导航| 国产精品一区二区入口九绯色| 99精品在线观看| 欧美日韩成人在线观看| 日韩人妻无码一区二区三区99| 国产一区二区三区的电影| 91免费高清视频| 国产原创av在线| 国产精品久久久久9999吃药| 国内自拍在线观看| 国产精品亚洲综合在线观看| 日韩精品中文字幕视频在线| 欧美18—19性高清hd4k| 亚洲国产激情| 92国产精品久久久久首页| 男人av在线| 亚洲精品日韩专区silk| 8x8x最新地址| 婷婷综合福利| 久久久久这里只有精品| 91在线观看喷潮| 国产视频一区二区三区在线观看| 男女私大尺度视频| 亚洲国产中文在线| 一本色道久久综合亚洲精品小说| 欧美成人免费观看视频 | 亚洲第一搞黄网站| 制服下的诱惑暮生| 香蕉视频官网在线观看日本一区二区| 国产99久久精品一区二区 夜夜躁日日躁| 成人av无码一区二区三区| 国产精品美女久久久久久久| av在线观看地址| 91精品丝袜国产高跟在线| 日韩中文字幕在线播放| 中日韩在线观看视频| 99re8在线精品视频免费播放| 26uuu成人| 99热这里有精品| 亚洲欧美日韩中文在线制服| www..com国产| 91亚洲精品久久久蜜桃| 妞干网在线观看视频| 日本一区影院| 欧美大奶子在线| 亚洲av无码国产综合专区| 国产网站一区二区三区| 国产一区二区三区播放| 一区二区三区| 久久伊人免费视频| www.黄色一片| 亚洲一二三级电影| 欧美xxxxx少妇| 91久久久久| 久久婷婷开心| 久久人体大尺度| 国产亚洲精品va在线观看| 成人小视频在线播放| 欧美极品少妇xxxxⅹ高跟鞋| 女人扒开屁股爽桶30分钟| 婷婷成人在线| 国产精品丝袜视频| 哥也色在线视频| 日韩一区二区免费电影| 日本免费在线播放| 91视频免费看| 美女少妇一区二区| 欧美在线二区| 精品国产综合| 1234区中文字幕在线观看| 日韩美女在线视频| 26uuu成人网| 97se亚洲国产综合自在线| 激情内射人妻1区2区3区| 免费av一区| 国产精品普通话| www视频在线看| 日韩亚洲欧美一区二区三区| 1级黄色大片儿| 久久久噜噜噜久噜久久综合| 在线观看亚洲色图| 黑人一区二区| 日韩av在线电影观看| 青青在线精品| 欧美伦理91i| 天天摸夜夜添狠狠添婷婷| 色婷婷综合视频在线观看| 免费看特级毛片| 成人性视频免费网站| 热久久精品免费视频| 综合精品一区| 免费久久久一本精品久久区| 欧美成人免费全部网站| 欧美国产亚洲视频| 国产毛片在线| 亚洲国产天堂久久综合网| 中文字幕男人天堂| 精品久久久久久久久久| www久久久久久久| 成人一区二区三区视频| 手机在线成人免费视频| 99在线观看免费视频精品观看| 一本久道久久综合| 亚州国产精品| 99在线视频首页| 国产精品黄色片| 91av视频在线观看| 在线不卡日本v二区707| 在线播放精品一区二区三区 | 一本大道东京热无码aⅴ| 亚洲福利天堂| 91在线免费视频| 成人开心激情| 另类专区欧美制服同性| 亚洲欧美另类综合| 91精品国产色综合久久不卡电影| 中文字幕av影院| 亚洲第一成年网| 青青草在线观看视频| 久久久久久夜精品精品免费| 黄色激情在线观看| 免费一区二区视频| 蜜桃视频一区二区在线观看| 久久亚洲在线| 午夜精品一区二区三区在线观看| 乱中年女人伦av一区二区| 91精品久久久久久久久不口人| av日韩电影| 久久久人成影片一区二区三区| 国精产品一区| 中文欧美在线视频| 加勒比一区二区三区在线| 日韩成人在线视频观看| 亚洲黄色小说网址| 欧美一区二区网站| 国产精品高潮呻吟AV无码| 色视频一区二区| 9i看片成人免费看片| 亚洲国产一区二区三区| 久久久久噜噜噜亚洲熟女综合| 亚洲麻豆国产自偷在线| 波多野结衣家庭教师| 亚洲色图制服诱惑| 你懂得在线观看| 国产精品亲子乱子伦xxxx裸| 久久久久久久无码| 成人免费视频视频在线观看免费| 性生活一级大片| 国内久久精品视频| 日韩不卡一二三| 精品在线一区二区三区| 久久国产这里只有精品| 久草这里只有精品视频| 午夜肉伦伦影院| 久久综合五月| 日韩精品综合在线| 亚洲狼人精品一区二区三区| 国产乱子夫妻xx黑人xyx真爽| 亚洲欧美日韩一区在线观看| 免费大片在线观看| 日本不卡视频一二三区| 天天色天天综合网| 国产剧情av麻豆香蕉精品| 久久发布国产伦子伦精品| 国内一区二区在线| 国产chinese中国hdxxxx| 99久久久免费精品国产一区二区| 全黄一级裸体片| 国产精品视频麻豆| 国产三级国产精品国产国在线观看| 亚洲欧美激情视频在线观看一区二区三区 | 熟女性饥渴一区二区三区| 久久亚洲精品伦理| 色七七在线观看| 国产乱妇无码大片在线观看| www.17c.com喷水少妇| 日本一区二区三区在线观看| 波多野结衣欲乱| 亚洲成人在线网站| www.色国产| 91精品欧美综合在线观看最新| 99久久精品无免国产免费| 日韩av在线影院| av在线免费观看网| 色综合91久久精品中文字幕| 成人影院av| 成人欧美一区二区三区在线观看| 秋霞蜜臀av久久电影网免费| 亚洲图片都市激情| 狠狠色综合网| 中国黄色片免费看| a美女胸又www黄视频久久| 成人一级片免费看| 亚洲欧美日韩国产中文在线| 久久国产视频播放| 日韩午夜小视频| 色多多视频在线观看| 欧美裸身视频免费观看| 久久久加勒比| 久久综合福利| 国产一区日韩一区| 免费极品av一视觉盛宴| 强制捆绑调教一区二区| 99re久久精品国产| 国产精品国产a| 亚洲欧美综合自拍| 日韩免费福利电影在线观看| 在线观看麻豆| 欧美做爰性生交视频| 精品视频在线播放一区二区三区| 欧美在线视频二区| 在线视频精品| 天天躁日日躁狠狠躁免费麻豆| 中文字幕在线不卡一区二区三区| 日本熟伦人妇xxxx| 777xxx欧美| 日本视频在线免费观看| 国产激情999| 欧洲专线二区三区| 欧美久久久久久久久久久久久| 亚洲一区二区毛片| 亚洲熟女乱综合一区二区三区| 亚洲一区二区三区自拍| 国产www视频| xxx一区二区| 欧美videossex| 成人免费观看网站| 国产精品大片免费观看| 91免费视频污| 综合色天天鬼久久鬼色| 91尤物国产福利在线观看| 一本色道久久综合亚洲精品小说| 日韩成人影音| 日本一区免费看| 蜜桃伊人久久| 88久久精品无码一区二区毛片| 亚洲成人av电影在线| 日本精品一二区| 777午夜精品福利在线观看| 伦理一区二区| 国产黄色一级网站| 国产一区二区三区不卡在线观看| 国产男女猛烈无遮挡在线喷水| 精品久久久久久亚洲国产300| 天堂成人在线视频| 国内精品久久影院| gogo亚洲高清大胆美女人体| 欧美另类一区| 久久精品国产秦先生| 调教驯服丰满美艳麻麻在线视频| 精品成人av一区| 日韩中文字幕观看| 麻豆国产va免费精品高清在线| www.26天天久久天堂| 日本日本精品二区免费| 久久精品系列| 久久久视频6r| 欧美久久久久免费| 黄色网页在线看| 成人在线观看91| 亚洲伦伦在线| 亚洲熟女一区二区| 欧美日韩中文字幕| 日韩毛片在线一区二区毛片| 国产精品激情自拍| 欧美aaaaaaaa牛牛影院| 成人3d动漫一区二区三区| 国产精品入口麻豆九色| 999精品国产| 久久视频在线看| 最近高清中文在线字幕在线观看1| 你懂的视频在线一区二区| 日韩av在线播放中文字幕| 欧美三级黄色大片| 精品福利在线导航| 国产h片在线观看| 清纯唯美一区二区三区| 国内精品在线播放| 久草视频在线资源站| 欧美岛国在线观看| 91白丝在线| 日产精品高清视频免费| 国产成人日日夜夜| 久久精品国产av一区二区三区| 精品亚洲永久免费精品 | 好吊日精品视频| 日本中文字幕精品—区二区| 亚洲高清视频的网址| 青梅竹马是消防员在线| 99精品国产高清一区二区| 宅男噜噜噜66一区二区 | 国产大片一区| 女同性αv亚洲女同志| 欧美亚洲免费在线一区| 免费a级毛片在线播放|