精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越Claude 3.5和o1!8B模型靠「分層投票+測試時訓練」逆襲

人工智能 新聞
小時候完成月考測試后,老師會通過講解考試卷中吃錯題讓同學們在未來取得好成績。近日MIT的研究者,發現測試時訓練在大模型應對復雜推理問題時,能通過將任務分解,大幅提升回答的準確率。拿到題目后模型開始訓練,效果意外的好!

測試時訓練(test-time training)是一種通用的訓練方法。

該方法將單個未標記的測試實例轉化為自監督學習問題,在對測試樣本進行預測之前更新模型參數。

而對于大模型訓練,通常會使用一種稱為情境學習的技術來提高其模型在新任務上的性能。

該方法通過將新任務的幾個示例作為文本提示輸入模型,從而指導模型的輸出。

但情境學習并不總是適用于需要邏輯和推理的問題。  因為邏輯和推理問題是環環相扣的,需要先做好對問題的拆解,才能夠解決對應的問題。

只是給出例子,而不教會大模型推理方法,相當于只是給學生幾道例題和答案,卻不教解題思路,對成績的提升于事無補。

圖片

圖1:大模型測試時學習的框架

測試時訓練的第一步,是數據重構,即通過留一法,將K個示例拆分為K個偽任務,每個任務用K-1個樣本作訓練,留1個作測試。  

同時修改訓練優化的損失函數,涵蓋所有的示例,讓模型不僅學到訓練集,還能擴展到測試集上。  

測試時訓練涉及使用少量特定于當前任務的新數據來更新某些模型參數——即模型用于進行預測的內部變量。

圖片

下面的圖2,對應的是在抽象推理數據集(ARC)和BBH兩個基準測試集應用測試時訓練后,成功給出回答的示例。

圖片

圖2:使用測試時訓練解決抽象推理問題的示例

測試中使用的模型,其參數量不過是8B的lemma3,而其性能提升相當顯著,對于ARC數據集,準確性翻了近兩倍,從17.5%提高到45%;在BBH數據集上,也從50.5%提升到57.8%。

圖片

圖3:在80個隨機選擇的ARC驗證任務子集上和全部BBH任務上的準確性

讓大模型的思考邏輯問題如人類專家

為了擴展測試時給出數據集的大小,研究者還通過略微改變示例中的問題和解決方案來創建新的數據,例如通過水平翻轉一些輸入數據。

他們發現,在新增的數據集上訓練模型可以使得模型獲得最佳性能。

在使用留一法和可逆幾何變換后,可通過測使用分層投票策略,對訓練后的模型預測進行聚合:首先,在每個變換內部進行投票,然后從每個變換中選出的頂級候選者進行全局投票以產生最終的前兩個預測。

圖片

圖4:分層投票策略示例

使用分層投票和測試時訓練后,即使是1B參數的模型,其在抽象推理問題上的性能提升也相當顯著,性能與8B模型相近,如圖5所示。

圖片

圖5 1B 3B和8B參數量模型面對抽象推理問題的回答準確率對比

經過了微調并使用測試時訓練的8B模型,其在抽象推理任務上的準確率高達62.8,已經超過了人類的均值60.2%,對比主流的Claude3.5,Deepseek R1,openAI o1更是遙遙領先。

圖片

相比在提示詞中給出示例,測試時訓練這一策略模仿了人類的思維方式,將大任務分解為數個小目標,每一步都包含可管理的邏輯步驟。

不僅適用于抽象推理問題,對于很多涉及多步驟推理的問題,都會帶來顯著的性能提升。

例如物體計數問題,即跟蹤打亂順序的五個物體, 跟蹤打亂順序后的物體順序,或是電影推薦,即選擇滿足多個條件的電影。

在Big-Bench hard數據集的10類任務中,通過消融分析,也可對比使用了測試訓練及分層投票策略所帶來的性能提升(圖6)。

這意味著測試時訓練解決了大模型應用的一個核心痛點,即它們能生成流暢的文本,但在需要嚴密邏輯鏈條的復雜推理任務中,往往會走捷徑或產生邏輯謬誤。

例如雖然會計公司的大模型可能擅長總結財務報告,但如果要求該模型預測市場趨勢或識別欺詐交易,它可能會意外地失敗。

圖片

圖7:在Big-Bench hard數據集上,的特定任務進行消融實驗的完整結果

而測試時訓練的引入,讓大模型的思考方式變得類似人類專家,能夠讓大模型學習如何將一個大問題分解成多個子問題,然后按計劃、有條不紊地解決,并在得出最終答案前對中間步驟進行自我審視和驗證。

其意義不僅在于提升了模型的測試分數,更重要的是,它為構建更值得信賴的AI系統提供了可能。

一個能夠清晰展示其推理步驟并進行自我糾錯的AI,將在科學發現、醫療診斷、法律分析等高風險領域具有更廣闊的應用前景。

這些說明測試時訓練在處理新型推理任務方面的潛力,表明其在推動下一代語言模型的發展方面具有巨大前景。

然而,該研究一作Akyürek指出,即使采取了低秩適配的技術,只更新少量模型參數,從而提升測試時訓練的部署效率,由于使用該策略意味著大模型每回答一個問題,都要重新進行訓練。

這會導致一個通常在不到一分鐘內回答查詢的模型,在測試時訓練下可能需要五到十分鐘來提供答案。

因此Akyürek并不希望對所有用戶查詢都這樣做,但如果您有一個非常困難的任務,希望模型能夠很好地解決,那么測試是就是有用的。

而另一些任務,不需要使用該方法,上下文情境學習就夠用了。

而研究者的長期目標是建立一個能持續學習的大模型,可根據查詢自動判斷是否需要使用測試時訓練來更新參數,或者是否可以使用情境學習來完成任務,然后無需人工干預即可實施最佳測試時訓練策略。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-02 12:48:36

2024-12-26 17:13:17

AI模型訓練

2025-02-03 14:17:27

2024-11-25 12:50:14

2024-12-09 08:00:00

AI大模型人工智能

2025-02-19 15:40:00

OpenAI編程模型

2025-01-02 11:00:34

2025-01-10 12:58:37

2024-12-16 09:00:00

AI架構訓練

2024-10-23 09:20:00

2024-09-24 11:01:03

2025-02-06 08:45:22

2025-04-15 09:19:00

模型AI數據

2025-02-19 13:50:00

明星編程軟件

2024-10-30 14:25:00

GitHub模型

2024-09-19 17:44:04

2025-02-13 09:10:00

2025-09-28 15:35:32

AI模型強化學習

2025-03-05 10:21:04

DeepSeekLVLM

2025-10-10 01:00:00

8B模型GPT-4oAgent
點贊
收藏

51CTO技術棧公眾號

欧美系列一区二区| 韩国女主播成人在线| 日韩av在线免费观看| 国产无套内射久久久国产| 蝌蚪视频在线播放| 国产在线播放一区三区四| 欧美激情视频一区二区| 亚洲AV无码片久久精品| 韩国一区二区三区视频| 精品国产乱码久久久久久婷婷| 欧美日韩国产免费一区二区三区 | 国产精品亚洲综合色区韩国| 伊人久久久久久久久久久| a级大片免费看| 美女100%一区| 亚洲精品视频观看| 水蜜桃亚洲一二三四在线| 国产高清第一页| 精品影片一区二区入口| 精品久久人妻av中文字幕| 新狼窝色av性久久久久久| 中文字幕在线看视频国产欧美在线看完整 | 亚洲国产精品久| 国产探花在线精品| 精品久久久久久久久久久久久久久久久| 日韩中文字幕二区| √最新版天堂资源网在线| 亚洲欧洲av一区二区三区久久| 狼狼综合久久久久综合网| 北条麻妃一二三区| 极品少妇xxxx偷拍精品少妇| 国产精品va在线| 亚洲国产精一区二区三区性色| 99精品美女| 一本色道久久综合狠狠躁篇怎么玩| 中国免费黄色片| 久久免费精品| 宅男噜噜噜66一区二区66| 国产 porn| 偷拍视频一区二区三区| 黄色成人av在线| 久青草视频在线播放| 欧美日本高清| 国产精品毛片高清在线完整版 | 欧美精品一二| 亚洲男人天堂2023| 人人妻人人澡人人爽人人精品| 91精品导航| 日韩欧美123| 一级片免费在线观看视频| 欧美美女福利视频| 欧美欧美欧美欧美| 伊人影院综合在线| www.26天天久久天堂| 在线精品亚洲一区二区不卡| 北条麻妃在线视频| 国产成人a视频高清在线观看| 色婷婷狠狠综合| 国产性生交xxxxx免费| 在线成人av观看| 色狠狠色狠狠综合| 午夜久久久精品| 日日夜夜一区| 91精品国模一区二区三区| 手机av在线免费| 国产日韩在线观看视频| 欧美一区二区三区在线| 善良的小姨在线| 91亚洲无吗| 亚洲精品国产精品自产a区红杏吧| 偷偷色噜狠狠狠狠的777米奇| 欧美在线导航| 一区二区三区高清国产| 欧美一区二区三区粗大| 日韩在线综合| 欧美大片免费观看在线观看网站推荐| 久久国产露脸精品国产| 亚洲九九精品| 国产精品91久久| 国产一区二区三区四区视频 | 亚洲自拍偷拍视频| 蜜桃av中文字幕| 久久精品夜夜夜夜久久| 一级日韩一区在线观看| 在线中文字幕第一页| 欧美日韩加勒比精品一区| 久久婷婷国产91天堂综合精品| 久久亚洲精品中文字幕| 欧美sm美女调教| 一区二区三区免费在线观看视频| 久久99国产成人小视频| 俺也去精品视频在线观看| 精品一级少妇久久久久久久| 日韩和的一区二区| 91成人在线看| 久草视频在线看| 亚洲欧美激情在线| 国产中文字幕免费观看| 国产精品麻豆成人av电影艾秋| 日韩美女一区二区三区四区| 亚洲午夜久久久久久久久红桃| 久久精品国产www456c0m| 久久免费福利视频| 在线不卡免费视频| av激情综合网| 男女爱爱视频网站| 成人在线爆射| 亚洲高清久久久久久| 91香蕉视频网| 亚洲一区二区网站| 国产中文欧美精品| 欧美色图另类| 亚洲一二三四区不卡| 杨幂毛片午夜性生毛片 | 日本a在线观看| 久久黄色级2电影| 欧美韩国日本精品一区二区三区| 国产超级va在线视频| 91国内精品野花午夜精品| 91传媒理伦片在线观看| 久久国产电影| 国产a∨精品一区二区三区不卡| 精品人妻一区二区三区三区四区 | 久久国产精品免费一区二区三区| 国产亚洲美女久久| 日韩欧美亚洲视频| 国产传媒一区在线| 日韩视频在线免费播放| 亚洲天堂1区| 亚洲男人天堂2024| 国产做受高潮漫动| 成人一道本在线| 欧美aaa在线观看| 国产激情欧美| 在线播放日韩精品| 日本中文字幕第一页| 成人动漫一区二区在线| 青青青青在线视频| 一区二区在线视频观看| 久久久精品视频在线观看| 中国黄色一级视频| 亚洲国产电影在线观看| 妞干网在线免费视频| 亚洲警察之高压线| 日本亚洲精品在线观看| 日漫免费在线观看网站| 色综合中文字幕| 女~淫辱の触手3d动漫| 久久福利毛片| 快播日韩欧美| 嫩草伊人久久精品少妇av杨幂| 亚洲人成电影网站色xx| 亚洲欧美另类在线视频| 久久久精品免费观看| 91视频免费版污| 91一区二区| 91青草视频久久| 香蕉久久aⅴ一区二区三区| 欧美成人精精品一区二区频| 欧美人妻精品一区二区免费看| 国产激情一区二区三区桃花岛亚洲| 成人在线免费观看网址| 中文在线综合| 97色伦亚洲国产| 精品av中文字幕在线毛片 | 97精品在线视频| 神马电影在线观看| 色婷婷久久综合| 亚洲熟女毛茸茸| 国产福利一区二区三区在线视频| 99久久免费观看| 天堂网av成人| 国产精品久久久久久超碰 | 成人免费在线播放| 成人性生交大片免费看小说| 日本小视频在线免费观看| 亚洲成年网站在线观看| 青青视频在线免费观看| 亚洲欧洲av色图| 日韩精品视频一区二区| 日韩国产成人精品| 黑人巨茎大战欧美白妇| 欧美91在线| 国产欧美日韩中文字幕在线| 在线观看h网| 亚洲欧美国产精品专区久久| 一本久道久久综合无码中文| 亚洲午夜久久久久中文字幕久| 插吧插吧综合网| 麻豆极品一区二区三区| 久青草视频在线播放| 久久av免费| 成人免费看片网址| 欧洲一区二区三区精品| 九九热这里只有在线精品视| 免费播放片a高清在线观看| 欧美日韩国产综合视频在线观看| 国产午夜福利片| 国产精品丝袜久久久久久app| 久久久久亚洲av无码网站| 日韩极品在线观看| 美脚丝袜脚交一区二区| 全球成人免费直播| 国产亚洲精品久久飘花| 欧美一级在线| 欧亚精品在线观看| 欧美xxxx视频| www.日韩免费| 免费一级毛片在线观看| 亚洲成色777777女色窝| 国产在成人精品线拍偷自揄拍| 欧美性色视频在线| 麻豆一区二区三区精品视频| 国产精品网站在线| 中文字幕一区二区三区人妻| 国产精品一区2区| 成人中文字幕av| 在线亚洲国产精品网站| 欧美大黑帍在线播放| 91一区二区| 亚洲国产另类久久久精品极度| 精品欧美午夜寂寞影院| 99久久久精品免费观看国产 | 极品久久久久久久| 97精品国产97久久久久久久久久久久| 男男受被啪到高潮自述| 久久er99热精品一区二区| 老熟妇仑乱视频一区二区| 国产日韩欧美| 水蜜桃色314在线观看| 欧美一区影院| 成年人三级视频| 999精品一区| 亚洲一区二三| 日韩精品不卡一区二区| 台湾成人av| 精品国产中文字幕第一页 | 理论视频在线| 亚洲开心激情网| 三级av在线| 亚洲欧美一区二区激情| 黄色在线网站| 国产一区二区免费| melody高清在线观看| 亚洲天堂av在线播放| 免费资源在线观看| 亚洲性线免费观看视频成熟| www亚洲人| 国产一区二区三区在线观看网站 | 中文字幕人妻色偷偷久久| 91激情五月电影| 中文字幕乱码中文字幕| 7777精品久久久大香线蕉| 夜夜狠狠擅视频| 欧美一区二区三区视频在线| 亚洲av综合色区无码一二三区| 日韩一区二区三区四区| 狠狠躁夜夜躁av无码中文幕| 亚洲成人黄色网址| 天堂av中文在线资源库| 亚洲网址你懂得| 欧美成人hd| 欧美日韩成人在线播放| jizzjizz中国精品麻豆| 91黑丝高跟在线| 欧美日韩五码| 成人午夜在线视频一区| 中文字幕一区二区三区中文字幕| 国产精品久久久久久久免费大片| 欧美挤奶吃奶水xxxxx| 日本欧美精品久久久| 99精品视频精品精品视频 | 日韩国产欧美在线播放| 天堂av8在线| 成+人+亚洲+综合天堂| 国产免费无遮挡吸奶头视频| 一区免费观看视频| 久久久久久久久久99| 色综合夜色一区| 亚洲在线免费观看视频| 精品欧美久久久| 免费在线稳定资源站| 久久在线视频在线| 九九色在线视频| 日韩美女视频免费在线观看| 色综合.com| 精品免费二区三区三区高中清不卡 | 欧美精品中文字幕一区二区| 欧美国产一区二区三区激情无套| 黄色网在线视频| 三级一区在线视频先锋| 人妻精品久久久久中文字幕69| 不卡欧美aaaaa| 91久久久久久久久久久久久久 | 天天天天天天天干| 日韩欧美自拍偷拍| 每日更新av在线播放| 欧美国产视频一区二区| 经典三级一区二区| 国产精品亚洲一区| 国产电影一区二区在线观看| 国产精品自拍片| 国产裸体歌舞团一区二区| 日韩人妻无码精品综合区| 亚洲欧美另类图片小说| 高潮毛片又色又爽免费 | 噜噜噜噜噜在线视频| 欧美成人高清视频| 超薄肉色丝袜脚交一区二区| 国产一区二区三区奇米久涩| 国产高清一区二区| 好男人www社区| 99久久精品费精品国产一区二区| 国产免费一区二区三区四区| 色呦呦日韩精品| 熟妇人妻av无码一区二区三区| 乱亲女秽乱长久久久| 2019年精品视频自拍| 国内精品国语自产拍在线观看| 亚洲欧洲中文字幕| 亚洲第一中文av| 国产色一区二区| 黑人一级大毛片| 精品久久久久久久久久久久久久久久久| 免费黄色电影在线观看| 国产精品高潮视频| 伊人久久大香线蕉综合网站| 日本中文字幕网址| 国产91丝袜在线18| 免费无码毛片一区二区app| 欧美精品色综合| 日本网站在线免费观看视频| 国产成人福利视频| 亚洲人成网亚洲欧洲无码| 日本十八禁视频无遮挡| 成人午夜免费av| 18精品爽视频在线观看| 久久精品动漫| 日本福利一区二区三区| 欧美aaa视频| 久久亚洲午夜电影| 亚洲视频播放| 一级特黄a大片免费| 红桃av永久久久| 深夜福利在线观看直播| 97色伦亚洲国产| 欧美**vk| 亚洲第一中文av| 国产精品美女一区二区在线观看| 亚洲视屏在线观看| 中文字幕欧美日韩在线| 久久麻豆视频| 国产精品一二三在线观看| 国产麻豆一精品一av一免费| 久久国产精品国语对白| 日韩视频国产视频| 国产经典三级在线| 国产一区二区三区色淫影院| 亚洲伊人观看| 免费看裸体网站| 777xxx欧美| 2018av在线| 欧洲精品在线一区| 蜜桃久久久久久| 日韩欧美国产成人精品免费| 日韩精品在线网站| aaa在线播放视频| 欧美日韩在线高清| 精品一区二区成人精品| 免费三片在线播放| 亚洲美女www午夜| 四虎国产精品永久在线国在线| 黄网站色视频免费观看| 成年人国产精品| 一区二区视频在线免费观看| 欧美美女15p| 一区二区三区日本久久久| 91亚洲精品久久久蜜桃借种| 亚洲综合色丁香婷婷六月图片| 天天操天天干天天干| 国产精品久久久久久久久久久久久 | 在线日韩国产网站| 亚洲高清免费观看高清完整版| 日韩在线免费| 91精品国产毛片武则天| 91女人视频在线观看| ,亚洲人成毛片在线播放| 欧美激情小视频| 精品一区二区三区在线| 男人的天堂免费| 色8久久精品久久久久久蜜 | 欧美怡红院视频一区二区三区| 郴州新闻综合频道在线直播| av电影中文字幕| 欧美亚洲自拍偷拍| 超碰91在线观看| 一区二区视频在线免费| 91视频www| jizz国产视频| 国产精品免费视频久久久|