精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節最新大模型秘籍:只挑能有推理潛力的數據訓練!1.3B模型無需標簽自動挑選

人工智能 新聞
無需訓練,無需標簽,只需用1.3B模型給7B模型選擇數據,就能提升模型推理能力,甚至也能提升代碼生成能力。

和人工標記數據說拜拜,利用預訓練語言模型中的注意力機制就能選擇可激發推理能力的訓練數據!

字節Seed團隊最新宣布了一個重要成果——AttentionInfluence

無需訓練,無需標簽,只需用1.3B模型給7B模型選擇數據,就能提升模型推理能力,甚至也能提升代碼生成能力。

以往,篩選數據的方法通常依賴于監督分類器,需要人工或大語言模型進行標注,難免引入領域特定偏見。

字節Seed團隊注意到:

預訓練模型中的檢索頭與檢索和上下文推理緊密相關。

檢索頭在訓練早期就會出現,逐漸增強,并最終在訓練的中后期階段牢固建立,對模型性能起到至關重要的作用。

1.3B參數稠密模型中檢索頭的演化過程,be like:

圖片

但如果直接關閉它們會怎樣?

他們用小型預訓練語言模型通過簡單的注意力頭屏蔽操作,充當強大的模型的數據選擇器。

具體操作是,識別重要檢索頭,屏蔽這些頭以創建性能下降的“弱”模型,計算“弱”模型與原始“強”模型之間的損失差異,根據損失增加幅度對數據進行排名,形成影響分數。

沒想到,實驗后他們得到了一個驚人結果。

將AttentionInfluence方法應用于1.3B參數預訓練語言模型,對SmolLM語料庫進行數據選擇,篩選出73.1B tokens與完整的SmolLM語料庫組合,使用WSD方法預訓練7B模型。

在知識密集型和推理密集型基準測試中模型性能均有提升,具體來說:

MMLU+1.4個百分點、MMLU-Pro+2.7個百分點、AGIEval-en+1.8個百分點、GSM8K+2.7個百分點、HumanEval+3.5個百分點。

圖片

這項研究發布后引來不少網友關注,谷歌DeepMind研究科學家都轉發為其點贊:

圖片

有網友看后表示:

多么簡單而巧妙的數據選擇思路!

圖片

關于這項研究的更多細節,我們接著往下看。

圖片

讓預訓練模型識別重要數據

如前所述,AttentionInfluence方法的核心思想是通過比較基礎模型和弱化參考模型之間的損失差異來評估訓練數據的對推理的影響程度。

實現方法包含兩個主要步驟:檢測特定重要頭部、計算AttentionInfluence分數

檢測特定重要頭部

在本研究中,作者主要關注檢索頭,此前已有研究表明檢索頭與大語言模型的檢索和推理能力高度相關。

受CLongEval中提出的關鍵段落檢索評估任務啟發,團隊采用了一種類似的簡單proxy task,在可控環境下評估大語言模型的檢索能力,并識別與檢索和推理強相關的注意力頭。

為此,他們構建了一個包含800個樣本的合成測試數據集。每個樣本被格式化為一個3-shot自然語言檢索任務,由上下文、三個上下文中的示例和一個查詢hash_key組成。

圖片

每個上下文是一個包含k個鍵值對(key-value pairs)的JSON對象,其中每個鍵是隨機生成的32字符字母數字字符串(hash_key),每個值(text_val)是從網絡文檔語料庫中采樣的自然語言句子。

該任務要求模型從上下文中檢索text_val,并輸出與給定查詢hash_key對應的text_val。

包含三個上下文中的示例(即3-shot)旨在模擬小樣本學習場景,并幫助模型理解任務。考慮到現有預訓練模型的上下文長度限制,團隊將每個測試樣本的總長度(包括輸入提示和答案)限制為接近但不超4096token。

接下來,計算每個注意力頭在測試樣本上的檢索分數。

在這項工作中,團隊使用一個基于類Llama 2架構的1.3B參數模型作為小型預訓練語言模型,使用平均分數作為頭的最終檢索分數,并按該分數對其進行排序,選擇排名前5%的頭作為特別重要的頭

計算AttentionInfluence分數

獲得重要頭部后,接下來計算每個樣本的AttentionInfluence分數。

圖片

首先是創建參考模型,通過屏蔽在第一階段檢測到的基礎模型的重要頭部,獲得參考模型。

然后,使用基礎模型計算語料庫中每個樣本的平均token級交叉熵損失(Lbase),使用參考模型計算相應的損失(Lref)。

最后將Lbase和Lref之間的相對差值作為注意力影響分數,以量化每個樣本的推理影響程度,其計算公式如下:

圖片

由于語言模型對來自不同領域(如通用領域、數學領域、代碼領域)的數據的損失,因分布差異顯著而無法直接比較,團隊將注意力影響分數的比較限制在相同領域內。

團隊認為,注意力影響分數越高,表明樣本具有更高的推理強度。

效果全面分析

實驗設置上,團隊使用Llama2類似的1.3B參數模型作為小型預訓練語言模型,對SmolLM語料庫進行數據選擇.

根據AttentionInfluence分數選擇排名前20%的樣本,約73.1B tokens,使用選定的73.1B tokens與完整的SmolLM語料庫組合,預訓練7B參數模型。

作為對比,基線模型則是僅使用SmolLM語料庫訓練的相同架構和大小的模型。

然后,在小樣本學習設置下,團隊采用一套涵蓋四大類別的綜合基準評估,對模型與基線模型進行全面比較:

  • 綜合基準,包括AGIEval-en、MMLU、MMLU-Pro、GPQA、C-Eval;
  • 數學、代碼和推理,包括GSM8K、MATH、HumanEval、ARC Challenge、DROP、BBH;
  • 常識推理與理解,包括HellaSwag、ARC-Easy、WinoGrande、CommonSenseQA、PiQA、OpenBookQA、TriviaQA;
  • 閱讀理解,以RACE為代表。

主要研究結果顯示,使用AttentionInfluence選擇的數據訓練的模型在多個關鍵基準上顯著優于基線:

圖片

研究還跟蹤了預訓練過程中的性能演變,AttentionInfluence模型在整個預訓練過程中始終優于基線,性能差距在訓練早期(約100B tokens之前)就已顯現,并在整個訓練過程中保持穩定,即使在學習率衰減(LRD)階段,性能優勢仍然存在。

另外,當特定重要頭部被屏蔽時,1.3B模型在某些任務上的性能顯著下降,而AttentionInfluence方法選擇的數據往往能改善7B模型在這些任務上的性能,表明該方法具有預測能力。

將AttentionInfluence應用于更大的7B參數模型進行數據選擇時,能在多個知識密集型和推理密集型基準上獲得更好的性能,表明增加模型規模有助于選擇更高推理強度的樣本。

圖片

為驗證AttentionInfluence的有效性,團隊還設計了兩個指標來量化所選數據的質量:

  • Education Score:評估內容的教育價值
  • Reasoning Score:評估內容的推理強度

實驗結果顯示,AttentionInfluence和FineWeb-Edu分類器在教育相關內容上獲得相當的分數;在推理方面,AttentionInfluence獲得顯著更高的分數;在Python-Edu和OpenWebMath領域,AttentionInfluence選擇的樣本平均長度幾乎是FineWeb-Edu分類器選擇樣本的兩倍。

圖片

團隊也對所選數據進行了多樣性分析,感興趣的童鞋可以查看原論文。

圖片圖片圖片

總之,團隊表示這些結果驗證了AttentionInfluence法能有效地識別高質量的預訓練數據,從而增強大語言模型的知識和推理能力,尤其在需要綜合知識和復雜推理的基準測試中取得了顯著提升。

此外,AttentionInfluence可與 FineWeb-Edu分類器結合使用,以在需要簡單事實性知識、高級推理或兩者兼具的任務中全面提升大語言模型的性能。

論文鏈接:https://arxiv.org/pdf/2505.07293

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-22 13:30:00

2023-12-28 17:31:44

PixelLM性能模型

2023-01-05 09:33:37

視覺模型訓練

2025-10-10 01:25:00

大模型訓練數據OpenAI

2025-11-21 12:12:09

2023-10-11 12:32:53

AI模型

2025-09-08 08:50:00

AI模型訓練

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-05-16 08:58:09

2025-05-16 09:08:00

2025-10-21 08:00:00

2024-06-28 16:03:38

2025-02-12 09:20:12

2023-10-28 13:29:27

2025-07-08 03:11:00

2023-09-14 12:46:00

模型數據

2024-05-15 09:17:30

模型AI

2023-11-29 15:00:00

數據訓練

2025-07-22 10:15:44

2025-07-09 09:25:33

點贊
收藏

51CTO技術棧公眾號

日本不卡网站| 四虎成人免费在线| 天天久久综合| 欧美videos中文字幕| 久久精品视频16| 毛片网站在线| 激情综合色播五月| 性欧美xxxx视频在线观看| 无码 人妻 在线 视频| 亚洲精品伊人| 天天综合网天天综合色| 午夜精品一区二区在线观看的| 国产尤物视频在线观看| 亚洲免费高清| 久久久国产精品视频| 第四色在线视频| 欧美成a人片免费观看久久五月天| 亚洲精品国产视频| 欧美国产视频在线观看| 国产视频手机在线观看| 久久久人人人| 久久99精品视频一区97| 无码人妻丰满熟妇啪啪欧美| 91成人福利| 欧美三级电影在线观看| 99色这里只有精品| 久久久久久久久免费视频| 99国产欧美久久久精品| 91色琪琪电影亚洲精品久久| 久久久精品视频网站| 欧美视频网站| 日韩网站免费观看| 无码 人妻 在线 视频| 国产精品白丝一区二区三区| 欧美老女人在线| 日韩免费毛片视频| av成人福利| 亚洲美女视频一区| 亚洲激情电影在线| 日本1级在线| 国产精品99精品久久免费| 国产成人精品一区| 日本高清www免费视频| 亚洲乱码精品| 最近2019年日本中文免费字幕| 手机在线成人av| www.久久东京| 日韩精品一区在线| 国产欧美精品一二三| av亚洲一区| 日本道精品一区二区三区| 免费无码毛片一区二三区| 亚洲制服国产| 亚洲老司机在线| 欧美日韩一级在线| 黄色片网站在线观看| 国产精品人成在线观看免费| 日本中文不卡| www.亚洲.com| 亚洲国产精品激情在线观看| 日韩经典在线视频| 国产毛片在线| 国产精品色在线| 奇米色777欧美一区二区| 最新91在线视频| 女人黄色一级片| 精品毛片免费观看| 亚洲石原莉奈一区二区在线观看| yy6080午夜| 青青操综合网| 亚洲欧美国产另类| 日本美女xxx| 日韩毛片视频| 俺去亚洲欧洲欧美日韩| 一区二区三区影视| 一本一道久久a久久精品蜜桃| 久久夜色精品国产亚洲aⅴ| 在线观看亚洲网站| 亚洲先锋成人| 国内自拍欧美激情| 久久久精品福利| 狂野欧美性猛交xxxx巴西| 国产成人免费91av在线| 亚洲av无码不卡| 久久99国产精品免费网站| 成人免费直播live| 免费a视频在线观看| 久久夜色精品国产欧美乱极品| 欧美日韩综合精品| 最新电影电视剧在线观看免费观看| 国产精品成人免费在线| 一二三在线视频| 成人免费观看在线观看| 在线欧美日韩国产| 极品粉嫩美女露脸啪啪| 国产精品17p| 亚洲区中文字幕| 二区三区四区视频| 亚洲久久成人| 国产精品三级网站| 亚洲AV无码一区二区三区性| 337p粉嫩大胆噜噜噜噜噜91av | 精品人妻人人做人人爽| 久草在线资源站手机版| 欧美日韩国产首页| 无码成人精品区在线观看| 成人久久久久| 久久亚洲精品小早川怜子66| 在线观看亚洲欧美| 精品亚洲国产成人av制服丝袜| 电影午夜精品一区二区三区| 精品视频二区| 亚洲国产精品视频| 亚洲 激情 在线| 欧美精品国产白浆久久久久| 深夜福利国产精品| 国产精品500部| 久久99精品久久久久久动态图| 国产在线一区二| 麻豆影视在线观看_| 精品国产成人av| 伊人成人免费视频| 欧洲杯半决赛直播| 国产91精品久久久久久| 国产xxxxxx| 中文字幕精品在线不卡| 国产精品50p| 视频二区欧美| 久久精品亚洲一区| 91黑人精品一区二区三区| 国产91露脸合集magnet| 影音先锋在线亚洲| 日韩成人亚洲| 亚洲第一免费播放区| 日韩精品一区二区三区在线视频| 亚洲免费网址| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 午夜精品毛片| 国产成人aa精品一区在线播放 | 国产视频精品久久久| 欧美国产在线看| 狠狠色丁香久久婷婷综| 永久久久久久| 成人黄色在线| 亚洲三级免费看| 亚洲男人的天堂在线视频| 国产99久久久国产精品免费看 | av在线免费观看不卡| 久久亚洲国产| 国产精品久久久久久久久免费看 | 亚洲欧美国产精品va在线观看| 欧美日韩在线观看免费| 国产美女在线观看一区| 正在播放久久| 91精品福利观看| 久久影院免费观看| 国产乱淫av片免费| 亚洲人精品午夜| 亚洲国产综合av| 亚洲天天影视网| 91传媒免费看| 免费在线播放电影| 亚洲国产成人久久| 国产精品一区二区三区四| 91女厕偷拍女厕偷拍高清| 国产97在线 | 亚洲| 九九亚洲视频| 国产精品吹潮在线观看| eeuss影院www在线播放| 欧美日韩亚洲综合| 内射一区二区三区| 国产成人综合在线观看| 久久久久久www| 西野翔中文久久精品字幕| 日本视频久久久| 成人p站proumb入口| 欧美日韩1234| 欧美日韩综合一区二区| 成人精品视频一区二区三区尤物| 91免费黄视频| 国产videos久久| 国产免费亚洲高清| 日本在线视频中文有码| 亚洲精品乱码久久久久久金桔影视| 久久久久久久久精| 91蜜桃网址入口| 亚欧美在线观看| 欧美特黄视频| 欧美精品尤物在线| 国产高清亚洲| 97国产精品人人爽人人做| 美女做暖暖视频免费在线观看全部网址91 | 色综合久久中文综合久久97| 天堂在线中文视频| 粉嫩av亚洲一区二区图片| 97av视频在线观看| 99久久精品国产亚洲精品| 国产福利久久精品| 欧美影视资讯| 久久久免费观看视频| 国产在线一二| 日韩免费一区二区| 成人a v视频| 一区二区三区**美女毛片| 国产色视频一区二区三区qq号| 麻豆国产欧美一区二区三区| 日本福利视频一区| 99九九热只有国产精品| 国语精品免费视频| 亚洲国产aⅴ精品一区二区三区| 久久久中文字幕| 欧美三级理伦电影| 精品一区二区三区三区| www.国产麻豆| 欧美日韩五月天| 国产成人免费观看视频| 亚洲日本丝袜连裤袜办公室| 香蕉视频黄色在线观看| 国产成人综合网站| 午夜久久福利视频| 毛片一区二区| 91午夜在线观看| 天堂美国久久| 日韩一区不卡| 亚洲第一论坛sis| 国产高清在线一区| avtt久久| 国产精品久久久久久av福利| 伊人久久视频| 欧美激情一级二级| 图片区小说区亚洲| 久久精品国产v日韩v亚洲| 国产免费永久在线观看| 日韩国产激情在线| 欧美 日韩 国产 精品| 欧美一区在线视频| 国产精品乱码一区二区| 精品视频123区在线观看| 亚洲乱码国产乱码精品| 欧美日韩人人澡狠狠躁视频| 国产第一页在线播放| 亚洲黄一区二区三区| 麻豆网址在线观看| 国产精品福利av| 中文字幕第二区| 亚洲国产精品成人综合| 成人片黄网站色大片免费毛片| 99视频精品在线| 中文字幕人妻熟女在线| 手机电影在线观看| 亚洲国产成人精品电影| 成人免费视频国产免费麻豆| 日韩欧美国产电影| 国产女同91疯狂高潮互磨| 欧美日韩高清影院| 国产一区二区三区三州| 88在线观看91蜜桃国自产| 91成人一区二区三区| 欧美肥胖老妇做爰| 国产chinasex对白videos麻豆| 制服丝袜亚洲网站| 99在线精品视频免费观看软件 | 久久久久久黄色| 在线免费观看成年人视频| 久久欧美中文字幕| 国产18无套直看片| 国产精品久久久久aaaa樱花| 午夜成人亚洲理伦片在线观看| 中文字幕一区二区三区av| 成人在线观看高清| 亚洲国产综合色| 日韩精品在线免费看| 色综合欧美在线| 在线观看不卡的av| 日韩欧美国产麻豆| 日韩在线免费看| 一个人看的www久久| 国产在线高清视频| 高清欧美性猛交xxxx| 天天综合av| 国产精品揄拍500视频| 精品国产一区二区三区2021| 国产精品区一区| 在线亚洲a色| 在线精品亚洲一区二区| 欧美午夜在线| 女人另类性混交zo| 国产资源在线一区| 亚洲精品乱码久久| 国产精品丝袜久久久久久app| 国产精品丝袜一区二区| 精品日本美女福利在线观看| 国产精品久久久久久久久免费看| 午夜精品久久久久久久96蜜桃| 日韩电影视频免费| 91se在线| 久久久免费观看| 国产精品久久久久久久久久齐齐 | 午夜精品久久久久久久蜜桃| 欧美美女网站色| 噜噜噜久久,亚洲精品国产品| 亚洲天堂av在线免费观看| a毛片在线看免费观看| 欧美在线亚洲在线| 欧美视频二区欧美影视| 日本成人三级电影网站| 午夜久久一区| 免费观看成人在线视频| 国产成人精品免费一区二区| 欧美另类z0zx974| 亚洲午夜激情av| 亚洲综合网av| 亚洲欧美综合精品久久成人| 菠萝菠萝蜜在线视频免费观看| 日本久久精品视频| 99国产精品久久一区二区三区| 亚洲乱码国产乱码精品天美传媒| 国产欧美日本| 精品国产aⅴ一区二区三区东京热| 国产亚洲精品久| 日本一二三区视频| 欧美一级一区二区| 香蕉视频在线看| 日本a级片电影一区二区| 91夜夜蜜桃臀一区二区三区| 中文字幕人成一区| 青青草97国产精品免费观看无弹窗版| 一边摸一边做爽的视频17国产| 亚洲婷婷综合色高清在线| 中日韩在线观看视频| 日韩精品中文字幕在线| av中文字幕在线看| 99re在线国产| 亚洲成人国产| 天天干天天操天天玩| 久久久高清一区二区三区| 久草国产精品视频| 精品1区2区在线观看| 性色av免费观看| 蜜桃视频一区| 亚洲图片 自拍偷拍| 国产精品久久久久久久久动漫| 国产一级淫片a视频免费观看| 亚洲国产精品字幕| 欧美bbbxxxxx| 不卡一卡2卡3卡4卡精品在| 亚洲五月综合| 色婷婷综合在线观看| 日韩理论片在线| 国产精品自偷自拍| 久久影视电视剧免费网站| 国产一区二区三区| 永久免费在线看片视频| 国产一区在线视频| 放荡的美妇在线播放| 日韩一区二区三区免费看| 伊人222成人综合网| 超碰国产精品久久国产精品99| 欧美+日本+国产+在线a∨观看| 欧美污在线观看| 尤物视频一区二区| 日韩一级免费视频| 97在线观看免费高清| 青青草原在线亚洲| 毛片av免费在线观看| 国产日本欧美一区二区| 中文字幕1区2区3区| 久久视频这里只有精品| 日韩精品视频中文字幕| 国产成a人亚洲精v品在线观看| 成人白浆超碰人人人人| 国产超碰人人爽人人做人人爱| 亚洲人成毛片在线播放| 福利精品在线| 天堂а√在线中文在线| aaa亚洲精品一二三区| 无码无套少妇毛多18pxxxx| 中文字幕成人精品久久不卡| 精品国产亚洲一区二区三区| 自拍日韩亚洲一区在线| 久久久久亚洲蜜桃| 国产又粗又长视频| 欧美日韩高清在线观看| 日韩三区视频| 欧美成人乱码一二三四区免费| 一区二区在线观看不卡| 日韩精品系列| 成人福利网站在线观看| 亚洲激情欧美| 人妻一区二区视频| 欧美一区二区播放| 在线天堂中文资源最新版| 亚洲福利av| 国产精品白丝av| 毛片视频网站在线观看| 精品国产一区二区三区久久久狼| 东京久久高清| 国产原创精品在线| 亚洲aaa精品| 色影院视频在线|