精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

連OpenAI都推不動Scaling Law了?MIT把「測試時訓練」系統研究了一遍,發現還有路

人工智能 新聞
這篇文章透露,OpenAI 下一代旗艦模型的質量提升幅度不及前兩款旗艦模型之間的質量提升,因為高質量文本和其他數據的供應量正在減少,原本的 Scaling Law(用更多的數據訓練更大的模型)可能無以為繼。

昨天,The Information 的一篇文章讓 AI 社區炸了鍋。

這篇文章透露,OpenAI 下一代旗艦模型的質量提升幅度不及前兩款旗艦模型之間的質量提升,因為高質量文本和其他數據的供應量正在減少,原本的 Scaling Law(用更多的數據訓練更大的模型)可能無以為繼。此外,OpenAI 研究者 Noam Brown 指出,更先進的模型可能在經濟上也不具有可行性,因為花費數千億甚至數萬億美元訓練出的模型會很難盈利。

這篇文章引發了業界對于未來 AI 迭代方向的討論 —— 雖然 Scaling Law 放緩這一說法令人擔憂,但其中也不乏樂觀的聲音。有人認為,雖然從預訓練來看,Scaling Law 可能會放緩;但有關推理的 Scaling Law 還未被充分挖掘,OpenAI o1 的發布就證明了這一點。它從后訓練階段入手,借助強化學習、原生的思維鏈和更長的推理時間,把大模型的能力又往前推了一步。這種范式被稱為「測試時計算」,相關方法包括思維鏈提示、多數投票采樣(self-consistency)、代碼執行和搜索等。

圖片

其實,除了測試時計算,還有另外一個近來非常受關注的概念 —— 測試時訓練( Test-Time Training ,TTT),二者都試圖在測試(推理)階段通過不同的手段來提升模型的性能,但 TTT 會根據測試時輸入,通過顯式的梯度步驟更新模型。這種方法不同于標準的微調,因為它是在一個數據量極低的環境中運行的 —— 通常是通過單個輸入的無監督目標,或應用于一個或兩個 in-context 標注示例的有監督目標。

不過,TTT 方法的設計空間很大。目前,對于哪些設計選擇對 LM(特別是對新任務學習)最有效,人們的了解還很有限。

在一篇新論文中,來自 MIT 的研究者系統地研究了各種 TTT 設計選擇的影響,以及它與預訓練和采樣方案之間的相互作用。看起來,TTT 的效果非常好,至少從論文標題上看,它的抽象推理能力驚人(surprising)。

圖片

  • 論文標題:The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
  • 論文鏈接:https://ekinakyurek.github.io/papers/ttt.pdf

具體來說,作者確定了將 TTT 有效應用于 few-shot 學習的幾個關鍵要素:

  1. 在與測試時類似的合成任務上進行初始微調;
  2. 用于構建測試時數據集的增強型 leave-1-out 任務生成策略;
  3. 訓練適用于每個實例的適應器;
  4. 可逆變換下的自我一致性(self-consistency)方法。

實驗環節,研究者在抽象與推理語料庫(ARC)中對這些方法進行了評估。ARC 語料庫收集了很多極具挑戰性的 few-shot 視覺推理問題,被認為是測試 LM 泛化極限的理想基準。目前的大多語言模型在 ARC 上均表現不佳。

圖片ARC 推理任務示例。可以看到,這是一組類似于智力測試的問題,模型需要找到圖形變換的規則,以推導最后的輸出結果。

通過對這些部分的精心選擇,TTT 可以顯著提高 LM 在 ARC 上的性能 —— 在 1B 模型上將準確率提高到原來的 6 倍,使用 8B 模型時也超過其它已發布的 SOTA 純神經模型方法。

圖片

事實上,他們的研究結果表明,當配備測試時訓練時,普通的語言模型可以在 ARC 任務上達到或超過許多神經 - 符號方法的性能。

這些結果挑戰了這樣一個假設:解決這類復雜任務必須嚴格依賴符號組件。相反,它們表明解決新推理問題的關鍵因素可能是在測試時分配適當的計算資源,也許與這些資源是通過符號還是神經機制部署無關。

數據科學家 Yam Peleg 高度評價了這項研究:

圖片

美國 Jackson 實驗室基因組學部教授 Derya Unutmaz 則表示這是一項「令人震驚的研究」,因為如果 TTT 與 LLM 相結合足以實現抽象推理,我們就有可能消除對顯式、老式符號邏輯的需求,并找到實現 AGI 的可行途徑。

圖片

不過,過完一關還有一關:Epoch AI 與 60 多位頂尖數學家合作打造的 FrontierMath,已經成為評估人工智能高級數學推理能力的新基準,恐怕接下來各位 AI 研究者有的忙了。

圖片

論文概覽

作者研究了現有的測試時訓練理念:根據測試輸入構建輔助數據集,并在預測前更新模型。但目前還不清楚的是,應該在哪些任務上進行訓練、進行哪種推理以及從哪個基礎模型開始?

他們為 ARC 挑戰賽提供了一組廣泛的消融數據。具體來說,他們進行了三項分析,以回答如何進行 TTT,以及 TTT 之前和之后要做什么。

TTT 需要什么數據?  

作者嘗試了兩種不同的 TTT 數據生成方式:一是 in-context learning(ICL)格式;另一種是端到端格式。在 ICL 中,作者從給定的測試演示中創建 leave-1-out 任務。在 E2E 中,他們將每個 i/o 對視為一個單獨的任務。

圖片

他們還應用了一些幾何變換來擴充數據;請看上圖中 ICL 任務是如何生成的。他們使用這些生成的任務,用 LoRA 更新他們的模型。他們發現,ICL 優于 e2e 任務,數據增強至關重要。

圖片

他們用 LoRA 更新了模型。但問題是,應該為每個測試任務訓練一個新的 LoRA,還是使用從所有測試任務生成的數據集訓練一個共享的 LoRA?他們發現,為每個任務訓練 LoRA 要好得多 (FT + TTT vs Shared-TTT)。

圖片

TTT 之后的推理

ARC 中沒有 CoT,因此無法通過多數投票來改進推理。研究者對此的做法與 TTT 相同:創建少量任務,然后用可逆函數對其進行變換。于是有了一堆經過變換的原始任務輸入。

圖片

研究者輸入變換后的輸入,然后將輸出反轉回來。現在,他們可以從多數表決中獲益更多。他們將其命名為「可逆變換下的 self-consistency」。它比任何單一變換的預測效果都要好,分層投票的優勢更大。

圖片

TTT 前的微調

你需要微調一個基礎 LM,但不需要太多新數據。根據訓練任務的重現 + 少量幾何變換對模型進行微調,就能獲得不錯的得分。

圖片

研究者嘗試了大量基于 LM 的合成數據,但意外地發現,這些數據并沒有什么幫助。有趣的是,TTT 縮小了不同級別模型之間的差距。

圖片

以 ARC 來檢驗

抽象推理語料庫(ARC)旨在通過語言模型解決視覺謎題的能力來評估其抽象推理能力。如圖 1 (b) 所示,每個謎題(以下簡稱任務)都是由輸入 - 輸出對組成的二維網格(最大尺寸為 30 × 30),其中包含最多 10 種不同顏色的形狀或圖案。通過應用直觀、共享的變換規則或函數 y = f (x),可以獲得每對網格的輸出。在實踐中,這些變換具有高度多樣性和復合性,既有簡單的概念,如反射和計數,也有更復雜的概念,如施加引力和路徑查找。

圖片

ARC 中的每項任務都由訓練和測試兩部分組成。給定訓練樣本集,目標是通過推理潛在變換,預測測試輸入 x^test 的測試輸出 y^test。

研究者用圖片表示一個任務,其中圖片,即 ARC 任務的集合。ARC 數據集的原始訓練集和驗證集各由 400 個任務組成。成功標準要求對所有測試輸出結果進行精確匹配(如果沒有給出部分分數)。

大多數 ARC 方法可分為兩大類:程序合成和 fully neural(全神經網絡方法)。程序合成試圖首先找到變換函數 f,然后將其應用于測試樣本。另一方面,全神經方法試圖直接預測輸出 y 測試,只是隱含地推理底層變換。在這項工作中,研究者采用了全神經網絡方法,使用 LM 來預測測試輸出。

研究者首先使用了在文本數據(沒有視覺編碼器)上預訓練過的 LM。為了向這些模型提供 ARC 樣本作為輸入,需要一個格式化函數(用 str 表示),將二維網格轉換為文本表示。以前的一些工作將樣本表示為一串數字或 color word,或標有形狀和位置的連接組件列表。給定任務的任何此類字符串表示,都可以將其呈現給 LM,并通過簡短提示進行預測。

實驗結果

最終,在對 80 項任務進行開發實驗之后,研究者展示了 ARC 全部公共評估集的綜合結果,并將本文系統與現有方法進行了比較。分析主要集中在三個方面:本文 TTT 方法的影響、本文方法與現有方法相結合的益處、全神經方法與程序合成方法之間的差異。

測試時訓練的影響。研究者將測試時訓練和推理過程應用于本文的基礎微調模型(沒有任何 LM 數據的微調 8B 模型)。TTT 將準確率從 39.3% 提高到 47.1%,超過了現有端到端神經模型的結果。

與現有方法的整合。最近的一項工作引入了 BARC,通過結合神經和程序合成方法實現了 54.4% 的準確率,這是此前公開發表的最高結果。雖然這里的全神經方法與本文系統有相似之處,但本文 TTT 和推理 pipeline 有幾個額外的組件可以提高性能。特別是,本文的測試時訓練包括每個任務的 LoRA 和更大的增強集,而預測 pipeline 包括可逆變換下的增強推理和分層 self-consistency 投票方案。為了驗證這種改進,研究者將本文的 TTT pipeline 應用于 BARC 的全神經模型,準確率達到了 53%,比最初的 TTT 方法提高了 35%。

在這些結果的基礎上,研究者探索了本文方法與 BARC 組件的各種組合:

  • 將本文的 TTT pipeline 與神經模型與 BARC 合成器相結合,準確率提高到 58.5%。
  • 將本文的 TTT pipeline 與 BARC 神經模型和合成器相結合,準確率提高到 61.9%。

圖片這一最終配置在 ARC 公共評估集上實現了新的 SOTA 水平,與 60.2% 的人類平均性能相當。當然,這是一次重大進步,但與人類 97.8% 的最佳表現仍有很大差距,表明仍有進一步提高的空間。

程序生成和端到端建模的對比。程序合成和用于 ARC 的全神經預測器具有很強的互補性,即使在相同的任務上進行訓練也是如此。此前的端到端神經模型只能解決程序合成模型所解決任務的 42.2%。然而研究者發現,當配備本文的 TTT pipeline 時,BARC 的微調全神經模型可以解決程序合成模型所解決任務的 73.5%。這表明,本文的 TTT pipeline 大大提高了神經模型學習系統推理模式的能力,與程序合成模型所捕捉到的推理模式類似。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-13 12:48:30

2024-12-16 07:15:00

2024-11-11 17:35:11

2021-03-11 07:14:01

Epoll原理線程

2024-05-21 08:40:21

分庫分表源碼

2021-03-04 08:06:13

Java代理機制

2025-09-16 12:46:04

2024-11-14 18:40:57

2024-12-23 00:43:19

2021-08-12 10:36:18

order byMySQL數據庫

2023-01-10 19:47:47

Redis原理多線程

2017-12-26 14:17:24

潤乾報表

2025-06-03 17:40:30

AIDeepSeekOpenAI

2025-09-17 14:46:05

2023-08-14 07:49:42

AI訓練

2021-09-23 16:50:19

芯片摩根士丹利半導體

2025-11-07 09:19:05

2024-11-12 13:07:44

2024-11-18 10:15:00

AI模型

2022-01-17 20:59:37

開發group by思路
點贊
收藏

51CTO技術棧公眾號

精品国产免费人成电影在线观...| 九九热精品视频国产| 美女在线视频一区二区| 看女生喷水的网站在线观看| 国产高清不卡一区| 日本成人激情视频| 精品国产视频在线观看| 老牛国内精品亚洲成av人片| 欧美午夜视频网站| 69sex久久精品国产麻豆| 男人天堂亚洲二区| 国产精品一区免费视频| 国产999精品久久久| 精品欧美一区二区久久久久| 久9久9色综合| 日韩欧美www| 91n.com在线观看| 国产99在线| 亚洲免费在线视频一区 二区| 久久国产日韩欧美| 亚洲风情第一页| 秋霞电影一区二区| 2025国产精品视频| 久久精品99国产精| 日韩午夜电影网| 精品视频偷偷看在线观看| 又黄又爽又色的视频| 视频在线日韩| 欧美色videos| 免费无码毛片一区二三区| 美女国产在线| 中文字幕乱码一区二区免费| 国新精品乱码一区二区三区18| 亚洲一区在线观| 久久久久久穴| 欧美一级淫片videoshd| 国产又色又爽又黄的| 欧美成人一品| 麻豆国产va免费精品高清在线| 亚洲午夜久久久久久久国产| 日韩最新在线| 亚洲国产私拍精品国模在线观看| 亚洲911精品成人18网站| 亚洲资源在线| 正在播放一区二区| 肉色超薄丝袜脚交| 91九色成人| 777久久久精品| aaa一级黄色片| 欧美大片网站| 欧美电影在线免费观看| 久久久久久久高清| 婷婷久久综合九色综合99蜜桃| 欧美在线你懂的| 美女一区二区三区视频| 国产成人午夜性a一级毛片| 在线观看亚洲精品视频| 国产熟人av一二三区| 欧美色999| 欧美影院精品一区| www.com污| 麻豆国产一区| 亚洲第一区第一页| 国产精品久久不卡| 欧美猛男男男激情videos| 亚洲视频综合网| 中国美女黄色一级片| 97视频热人人精品免费| 久久国产精品久久久久久久久久 | 亚洲另类第一页| 伊人久久大香伊蕉在人线观看热v| 制服丝袜亚洲精品中文字幕| 亚洲一区二区图片| 激情小说一区| 亚洲午夜未满十八勿入免费观看全集| 国产美女永久免费无遮挡| 日韩在线欧美| 欧美激情视频网| 五月激情六月丁香| 麻豆成人在线观看| 51成人做爰www免费看网站| 丰满人妻一区二区三区无码av| av资源网一区| 日本午夜一区二区三区| 免费黄色电影在线观看| 亚洲高清在线精品| 日韩精品一区二区三区不卡 | 亚洲欧美日韩国产综合精品二区| 日韩美女av在线免费观看| 中文字幕一区二区三区四区视频| 国产精品自拍在线| 欧美国产视频在线观看| 国产在线观看av| 同产精品九九九| 福利片一区二区三区| 成人精品毛片| 色爱精品视频一区| 日韩av电影网址| 捆绑调教一区二区三区| 国产精品一区二区欧美| 日韩子在线观看| 大荫蒂欧美视频另类xxxx| 色啦啦av综合| 亚洲精品456| 九九九久久国产免费| 免费黄色小视频在线观看| 国产成人免费高清| 性高潮久久久久久久久| 岛国在线视频网站| 欧美一级在线免费| 变态另类ts人妖一区二区| 欧美三级黄美女| 国产玖玖精品视频| 飘雪影院手机免费高清版在线观看| 自拍视频在线观看一区二区| 欧美黄网站在线观看| 欧美第一在线视频| 综合网中文字幕| 五月天婷婷激情| 国产激情一区二区三区四区| 午夜精品一区二区三区三上悠亚| 麻豆av免费在线| 欧美一级大片在线视频| 精品一区二区综合| 国产精品美女诱惑| 精品国产白色丝袜高跟鞋| 色综合久久天天综合网| 亚洲色偷偷色噜噜狠狠99网| 国产精品久久久久久麻豆一区软件 | 亚洲人成色77777| 狠狠一区二区三区| 欧美丰满少妇xxxx| 国产三级小视频| 国产精品不卡在线| 国产高潮免费视频| 国产精品欧美在线观看| 欧美专区在线观看| 青梅竹马是消防员在线| 婷婷亚洲久悠悠色悠在线播放| 97超碰免费在线观看| 亚洲91中文字幕无线码三区| 成人综合国产精品| 尤物视频在线免费观看| 欧美日韩午夜在线| 黑人と日本人の交わりビデオ| 日韩二区三区在线观看| 欧洲视频一区二区三区| 欧美成人精品三级网站| 国产亚洲一区精品| 精品国产www| 中文一区二区在线观看| 日日噜噜噜噜久久久精品毛片| 国产日产一区| 国产精品久久久久aaaa九色| 成黄免费在线| 91精品国产综合久久蜜臀| 777777国产7777777| 国产一区二区三区四区在线观看| 精品久久免费观看| 久久久精品区| 久久久影视精品| 亚洲av片在线观看| 色美美综合视频| 懂色av蜜臀av粉嫩av永久| 国产在线精品不卡| 99久久免费观看| 日韩精品亚洲aⅴ在线影院| 国产国语刺激对白av不卡| av午夜在线| 91精品国产综合久久蜜臀| 久久久全国免费视频| 91免费视频观看| 91香蕉视频污版| 欧美一区二区| 精品一区二区三区自拍图片区| 巨茎人妖videos另类| 日韩在线观看免费网站| 亚洲成人黄色片| 欧美性猛交xxxx乱大交| 日本视频在线免费| 从欧美一区二区三区| 国产精品免费成人| 偷偷www综合久久久久久久| 国产精品一区二区av| 欧美性片在线观看| 久久99精品视频一区97| 日韩av视屏| 制服丝袜在线91| 国产又粗又爽视频| 日韩毛片精品高清免费| aaaaaav| 久久国产精品99精品国产| 人人妻人人做人人爽| 精品日韩一区| 国产精品免费视频一区二区| 99亚洲伊人久久精品影院| 欧美黑人性生活视频| 国产精品一区在线看| 精品国产乱码久久久久久久久| 中文字幕精品视频在线观看| 一级中文字幕一区二区| 国产18无套直看片| www..com久久爱| 色噜噜狠狠一区二区三区狼国成人| 在线视频亚洲| 97在线免费视频观看| 欧美先锋资源| 久久精品一二三区| 欧美激情精品| 国产精品亚洲激情| 国产资源在线观看入口av| 久久艳片www.17c.com| 黄色电影免费在线看| 亚洲精品一区二区三区福利| 国产婷婷精品| 日韩视频中文字幕| 性xxxx视频| 宅男在线国产精品| 成人免费一级片| 亚洲国产美国国产综合一区二区| 国产精品1区2区3区4区| 91丨porny丨在线| jjzzjjzz欧美69巨大| 激情五月婷婷综合网| 男人天堂成人在线| 午夜在线视频观看日韩17c| 国产专区在线视频| 图片区亚洲欧美小说区| 亚洲欧美日韩不卡一区二区三区| 免费看av成人| 久久亚洲综合网| 欧美理伦片在线播放| 国产精品一区二区你懂得| 综合激情久久| 成人蜜桃视频| 亚洲一区二区三区免费| 91久久久久久久久久| 亚洲网站免费| 91亚洲精华国产精华| 在线观看欧美| 91免费精品国偷自产在线| 色综合一区二区日本韩国亚洲| 国产精品女主播| 亚洲成人a级片| 91在线高清视频| 白嫩亚洲一区二区三区| 亚洲精品免费网站| 清纯唯美激情亚洲| 国产精品一区二区三区免费| 成功精品影院| 黄色99视频| 天堂成人娱乐在线视频免费播放网站| 国产亚洲欧美一区二区三区| 你懂的在线观看一区二区| 久久久久久九九| 综合综合综合综合综合网| 日本不卡免费新一二三区| 精品少妇av| 国产av不卡一区二区| 欧美日韩综合| 欧美丰满熟妇bbbbbb百度| 久久青草久久| 亚洲无在线观看| 丰满白嫩尤物一区二区| 精品黑人一区二区三区观看时间| 91视频一区二区三区| 国产精品理论在线| 亚洲人吸女人奶水| 日本免费观看视| 在线免费av一区| 国产精品久久免费| 亚洲国产成人av在线| 男男激情在线| 不卡av在线播放| 99爱在线观看| 国产精品久久久久久久久免费 | 国产一区电影| 久久精品电影网| 欧美bbbxxxxx| 国产成一区二区| 97久久精品一区二区三区的观看方式 | 日本污视频在线观看| 91黄色免费网站| 99热这里只有精品5| 精品亚洲aⅴ在线观看| 黄色av电影在线播放| 91精品国产91久久| 亚洲精品大片| 久久国产精品久久精品国产| 日韩电影二区| 亚洲人成无码网站久久99热国产| 日韩精品久久理论片| jjzz黄色片| 国产精品第五页| 日本三级片在线观看| 欧美日韩成人综合在线一区二区| 蜜桃视频久久一区免费观看入口| 亚洲欧洲日产国产网站| 精品一性一色一乱农村| 国产精品色婷婷视频| 嫩草国产精品入口| 激情成人开心网| 毛片一区二区三区| 人人妻人人澡人人爽人人精品| 亚洲色欲色欲www在线观看| 国产午夜麻豆影院在线观看| 日韩精品一区二区三区在线观看| 国产精品影院在线| 欧美一级免费看| 高清精品视频| 伊人久久在线观看| 蜜臀久久久久久久| 无码国产69精品久久久久同性| 亚洲综合精品久久| 国产毛片一区二区三区va在线| 亚洲欧洲国产一区| 一个人www视频在线免费观看| 51蜜桃传媒精品一区二区| 成人影视亚洲图片在线| 狠狠爱免费视频| 99在线精品视频| 国产午夜精品无码| 日韩精品自拍偷拍| 成码无人av片在线观看网站| 国产精品视频永久免费播放| 亚洲资源网你懂的| 日本wwww视频| 91亚洲资源网| 国产精品午夜影院| 亚洲成人精品久久| 精精国产xxxx视频在线中文版| 91精品国产综合久久香蕉的用户体验 | 欧美精品乱码视频一二专区| 欧美剧情片在线观看| 69视频在线| 91久久精品久久国产性色也91| 久久精品国产亚洲夜色av网站| 杨幂毛片午夜性生毛片| 国产欧美视频一区二区三区| 无码人妻精品一区二区三区蜜桃91 | 欧美日韩久久婷婷| 亚洲啪啪综合av一区二区三区| 97av免费视频| 中文字幕一区二区三区欧美日韩| 在线精品亚洲一区二区不卡| 国产丰满美女做爰| 久精品免费视频| 美女久久精品| www婷婷av久久久影片| 国产99精品视频| 日本三级黄色大片| 亚洲女成人图区| 亚洲成人激情社区| 色狠狠久久av五月综合|| 日本特黄久久久高潮| 国产18无套直看片| 91精品黄色片免费大全| 自拍亚洲图区| 国产伦精品一区二区三区四区免费 | 亚洲区在线播放| 国产原创一区| 超碰免费在线公开| 成人免费视频视频在线观看免费 | 免费视频久久| 国产又黄又粗的视频| 欧美一区二区啪啪| 91av久久| 日韩成人av网站| 国产在线观看一区二区| 中文在线永久免费观看| eeuss影院一区二区三区| 依依成人综合网| 中文字幕亚洲欧美日韩高清| 99国内精品久久久久| 男女激情免费视频| 99国产精品视频免费观看| 在线观看亚洲黄色| 久久亚洲欧美日韩精品专区 | 欧美三级电影一区| av黄在线观看| 久久精品一二三区| 精油按摩中文字幕久久| 国产精品成人aaaa在线| 国产一区二区激情| 欧美经典一区| 日韩av一二三四| 樱桃视频在线观看一区| 青青青草原在线| 91在线国产电影| 久久亚洲欧洲| 免费在线黄色片| 一个人www欧美| 国产精品对白久久久久粗| 亚洲高清在线免费观看| 亚洲午夜av在线| 91大神在线网站| 久久大香伊蕉在人线观看热2| 国内外成人在线视频| 亚洲自拍一区在线观看| 欧美成年人网站|