精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Transformer終結者!谷歌DeepMind全新MoR架構問世,新一代魔王來了

人工智能 新聞
Transformer殺手來了?KAIST、谷歌DeepMind等機構剛剛發布的MoR架構,推理速度翻倍、內存減半,直接重塑了LLM的性能邊界,全面碾壓了傳統的Transformer。網友們直呼炸裂:又一個改變游戲規則的炸彈來了。

就在剛剛,KAIST、Mila和谷歌DeepMind團隊等放出重磅炸彈——

一個名為Mixture-of-Recursions的全新LLM模型架構。

這個嶄新的架構,被業內認為有潛力成為Transformer殺手!

它的推理速度提升2倍,訓練FLOP減少,KV緩存內存直接減半。

最終,在135M到1.7B的參數規模下,MoR直接劃出了一個新的帕累托前沿:相同的訓練FLOPs,但困惑度更低、小樣本準確率更高,并且吞吐量提升超過2倍。

全面碾壓傳統的Transformer!

圖片

論文鏈接:https://arxiv.org/abs/2507.10524

其實,學界很早就發現,Transformer復雜度太高,算力需求驚人。

比如最近CMU大牛、Mamba架構作者Albert Gu就表示,Transformer模型能力的局限太大,所謂token就是胡扯。

圖片

而谷歌產品負責人Logan Kilpatrick公開指出了注意力機制的缺陷——不可能實現無限上下文,還強調必須要在核心架構層進行全面創新。

今天谷歌DeepMind的這項研究,和這些大牛的觀點不謀而合了。

對此,網友們紛紛表示實在炸裂。

有人預測,潛在空間推理可能會帶來下一個重大突破。

圖片

顯然,對于代碼、數學、邏輯這類分層分解問題的任務,MoR都是一個改變游戲規則的重磅炸彈。

圖片

圖片

甚至還有人評論道:看起來像是Hinton的膠囊網絡重生了。

圖片

谷歌DeepMind放大招

遞歸魔法讓LLM瘦身還提速

LLM發展到如今,接下來該怎樣做?靠堆參數、加層數,讓它更聰明嗎?

這項研究告訴我們:真正的高手,從來都不是靠堆料,而是靠設計的藝術。

這次他們做出的MoR全新架構,直譯出來是「遞歸混合體」,直接讓LLM推理速度噌噌翻倍!

所以,MoR究竟做了什么?

簡而言之,它做了以下兩點。

1. 不對所有token一視同仁

LLM在處理文本時,會把句子拆成一個個token,不過,像「的」「是」「在」這種詞,并不需要多高深的推理,只需要一次前向傳播就夠了。而復雜的token,則需多次經過同一層棧。

MoR的聰明之處就在于,因token而異。

MoR的秘密武器是小型路由器,會為每個token的隱藏狀態打分,僅高分token的會繼續循環,其余的則提前退出。

圖片

2. 循環復用:一個模塊搞定全部

傳統Transformer的思路就是不斷「堆層」,堆得越高,處理能力越強。但這樣的代價,就是內存和算力:模型會越來越慢,越來越貴。

而MoR則反其道而行之,專門設計了共享塊,每個token最多循環4次,只要路由器說「完成」,就提前跳出循環。

總之,如果說Transformer是一個龐大的工廠流水線,那MoR就更像一支高效的特種部隊。未來的AI,恐怕不會再比拼誰更重,而是誰更會分工調度、節省力氣。

而谷歌DeepMind,已經敏銳地把握到了這一點,給我們演示了這一趨勢的早期范本。

真自適應計算

只靠Scaling law,把語言模型做大,確實能讓它能力暴漲,但訓練、部署所需的算力和成本也跟著暴漲。

現在常見的「瘦身」招數,要么是把參數共享(省顯存),要么是按需計算(省算力)。

但目前仍缺乏一種能將兩者有機融合的架構。

「遞歸混合」(Mixture-of-Recursions, MoR),充分發揮了遞歸Transformer的潛力(見圖1),成功融合了兩者。

圖片

圖1:遞歸混合(Mixture-of-Recursions,MoR)概覽

(左)每個遞歸步驟包含固定層堆棧和決定token是否繼續遞歸的路由器(中間灰框區域)。

(中)完整模型結構,其中共享遞歸步驟根據路由決策對每個token最多應用????次。

(右)展示token級遞歸深度的路由模式示例,顏色越深表示該token在遞歸塊中的計算越活躍。底部數字以不同顏色標注各文本token的遞歸步數:1步、2步和3步  。

在統一的架構中,MoR同時實現了三種效率優化:

通過共享權重壓縮參數量;通過動態路由減少冗余計算;通過智能緩存減少內存開銷。

遞歸混合架構

在預訓練和推理過程中,MoR為每個token動態調整遞歸步驟,依賴兩大組件:

路由機制和KV緩存策略。

路由機制:專家選擇vs.token選擇

受top-k門控機制的啟發,研究人員提出了專家選擇路由(Expert-choice routing)(見圖2a)。

在這種模式下,遞歸深度可看作「專家」,每輪遞歸時這些專家會挑選它們認為最值得處理的top-k個token。

圖片

為了讓遞歸更具一致性,團隊還引入了分層篩選機制(hierarchical filtering):只有在第r層中被選中的token,才有資格參與第r+1層的評估。

這一設計模擬了早退出機制,讓模型在訓練初期就能自動「篩選」出需要深度處理的token,把算力集中到最困難的token上。

與前者不同,token選擇路由(token-choice routing)(見圖2b),在一開始就決定了每個token要走多少次遞歸流程。

具體來說,根據第1層的隱藏狀態,模型會計算每個專家的打分(如通過softmax或sigmoid)。

假設有????個專家,每個專家對應一次遞歸,那么模型將token分配給得分最高的專家。 token將被送入前i層遞歸,每層都按順序進行處理。

在這種方式中,token在進入網絡時就確定好遞歸深度,同時避免了每一層的重新選擇,提升了推理效率。

表2左比較了兩種方法:

expert-choice路由的優點在于,它可以實現理想的計算負載均衡。然而,它容易信息泄露。

相比之下,token-choice路由天然不會泄露信息。但這種方式負載分配不均。

圖片

表2:路由策略與鍵值緩存策略的比較。(左)兩種路由策略總結:專家選擇與令牌選擇;(右)緩存策略相對于普通Transformer的相對成本效率

圖片

圖2:混合遞歸(MoR)的架構組件。(a)專家選擇路由;(b)token自主選擇路由;(c)KV緩存策略

KV緩存策略:按遞歸層緩存vs.跨層共享

針對MoR模型,研究人員提出了兩種KV緩存策略:按遞歸層緩存和跨遞歸共享。

1.按遞歸層緩存(見圖2c上)是「選擇性緩存」:只有被路由到某一遞歸層的Token,才會在該層生成并存儲它的KV對。

注意力計算僅在當前遞歸層的緩存內進行,這種設計有助于實現局部化計算,顯著提升了內存使用效率,并減少I/O負擔。

2.跨遞歸共享(見圖2c):只在第一個遞歸層生成并緩存KV對,然后在之后所有層中重復使用。這種機制下,每一層參與注意力計算的Query數量可能會減少。

也就是說,所有Token無論在后續層是否繼續參與計算,都可以完整地訪問歷史上下文,無需重新計算。

表2右對比了兩種緩存策略:

  • 按遞歸層緩存:KV內存與I/O負擔,被壓縮為原來的一半左右。
  • 跨遞歸共享:只能線性壓縮注意力計算量,而且KV的讀寫次數較高,可能會成為性能瓶頸。

圖片

表3:在等計算量與等token數條件下,MoR、遞歸Transformer、普通Transformer的比較

實驗

研究者從零開始預訓練模型,采用基于Llama的Transformer架構,參考了SmolLM開源模型的配置,在FineWeb-Edu的驗證集和六個few-shot基準測試集上進行了評估。

主要結果

在相同訓練計算預算下,MoR以更少參數優于基線模型

在相同的訓練預算(16.5e18 FLOPs)下,研究者將MoR模型與標準Transformer和遞歸Transformer進行了對比。

圖片

在四種模型規模(135M、360M、730M和1.7B參數)下,不同計算預算對應的驗證損失對如圖

如表3所示,MoR模型采用專家選擇路由和兩次遞歸(Nr=2),不僅在驗證損失上更低,在few-shot平均準確率上也優于標準基線。

這得益于MoR更高的計算效率,使其在相同FLOPs預算下能處理更多的訓練token。

在相同數據量下,MoR用更少計算量仍優于基線模型

為了隔離架構差異的影響,研究者在固定訓練token數量(20B)的前提下進行分析。

結果證實,在少了25%訓練FLOPs的情況下,MoR模型(????=2)仍然實現了更低的驗證損失和更高的準確率,超越了標準和遞歸基線。

與標準基線相比,MoR模型的訓練時間減少了19%,峰值內存使用量降低了25%。

這就要歸功于專門設計的分層過濾機制和按遞歸進行的注意力機制。

此外,MoR的性能也會受路由與緩存策略的影響。

IsoFLOP分析

評估一種新模型架構設計的核心標準之一,是其在模型規模和計算量增長時,性能是否能持續提升。

因此,研究團隊全面對比了MoR與標準Transformer(Vanilla)和遞歸Transformer。

實驗設置

實驗的模型規模有四種:135M、360M、730M 和1.7B 參數。

對于遞歸Transformer和MoR配置,遞歸次數統一設為3。

在三個不同的計算預算下,進行預訓練:2e18、5e18和16.5e18 FLOPs。

MoR架構:可擴展且參數高效

如圖3所示,在所有參數規模和算預算力下,MoR始終優于遞歸基線模型。

盡管在最小規模(135M)時,MoR表現略遜于標準Transformer,但隨著模型規模擴大,這一差距迅速縮小。

當參數規模超過360M時,MoR不僅能夠與標準Transformer持平,甚至在低計算量和中等計算預算下,表現更加優越。

總體而言,這些結果表明,MoR具備良好可擴展性和高參數效率,可替代舊架構。

推理吞吐量評估

通過參數共享,MoR能利用連續深度批處理技術,在推理階段顯著提升了吞吐量。

這種機制在解碼過程中,舊序列完成后立刻填入新tokens,持續保持了GPU的高利用率。

實驗設置

在360M參數規模下,在不同遞歸深度(2、3和4)下,團隊測試了MoR模型。

利用深度批處理,MoR顯著提升推理吞吐量

如圖4a所示,在兩種設置下,MoR變體的推理吞吐量都超過了普通Transformer。

遞歸深度越高,越多tokens會提早退出,從而減少KV緩存的使用,進一步大幅提升了推理速度。例如,在最大批設置(??=Max)下,MoR-4速度可提升2.06倍。

實驗表明,結合深度批處理機制與提前退出策略,可大幅加速MoR模型在實際的推理速度。

圖片

消融實驗等更多內容和細節,請參閱原文。

責任編輯:張燕妮 來源: 量子位
相關推薦

2013-09-24 10:38:23

2009-11-18 10:53:57

思科路由交換機

2012-07-02 16:39:26

谷歌電視

2010-01-06 15:50:05

軟交換技術

2015-11-26 15:33:36

AMD處理器Radeon Crim

2009-11-17 15:24:38

GPON路由器

2024-08-07 10:19:00

2020-03-19 10:31:14

AI 數據人工智能

2025-01-03 09:24:10

模型架構論文

2022-02-07 23:03:07

Python工具管理庫

2021-05-31 09:40:59

華為MatePad Pro鴻蒙系統

2010-03-12 15:07:08

2012-09-10 09:28:51

2017-07-03 13:44:11

2018-05-06 16:52:51

2011-04-21 16:34:45

聯想筆記本終結者B

2023-12-30 16:30:29

開發者工具Vite

2009-03-23 09:00:19

ChromeGoogle瀏覽器

2022-03-10 16:01:29

Playwright開源

2012-07-02 10:36:19

菲亞特
點贊
收藏

51CTO技術棧公眾號

免费看a在线观看| 潘金莲一级黄色片| 国模私拍视频在线播放| 国产成人午夜视频| 久久久久久噜噜噜久久久精品| 国产乱叫456| 在线三级中文| 99国产欧美另类久久久精品| 欧美亚洲成人免费| 高清国产在线观看| 久久久加勒比| 亚洲综合丁香婷婷六月香| 国产成人亚洲欧美| 亚洲天堂一区在线| 日韩久久综合| 欧美成人国产一区二区| 欧美日韩精品在线一区二区| 久草在线免费福利资源| 久久精品国产第一区二区三区| 久久中文字幕国产| 久久久久成人精品无码中文字幕| 伊人久久国产| 中文字幕一区二区三区在线观看| 91在线播放视频| 欧美片一区二区| 久操成人av| 日韩小视频在线观看专区| 国产妇女馒头高清泬20p多| 国产小视频免费在线网址| 另类的小说在线视频另类成人小视频在线 | 天天干天天干天天干| 快she精品国产999| 欧美黄色片在线观看| 国产日韩精品推荐| 91免费精品视频| 欧美成人免费看| 国产成人精品一区二区免费看京| 777欧美精品| 北条麻妃视频在线| 欧美aa一级| 亚洲午夜久久久久中文字幕久| 视频在线观看成人| 欧美性孕妇孕交| 成人av综合一区| 国产精品一区二区你懂得| 国产精品呻吟久久| 久久精品国产亚洲高清剧情介绍 | 亚洲午夜视频在线观看| 亚洲午夜精品久久| 国产黄在线看| 欧美国产一区在线| 青娱乐国产91| 国产成人天天5g影院在线观看| 99精品视频在线免费观看| 国产精品久久久久久久小唯西川 | 亚洲欧洲在线播放| 草草地址线路①屁屁影院成人| 亚洲一区二区三区免费| 日韩精品在线网站| 在线看黄色的网站| 日韩av黄色在线| 精品视频在线播放色网色视频| 日韩成人av一区二区| 国产精品x8x8一区二区| 亚洲成在人线av| 欧美无人区码suv| 免费一区二区| 中文字幕日本精品| 九九精品视频免费| 午夜精品av| 欧美高清视频在线观看| 99免费在线观看| 新67194成人永久网站| 国产精品白嫩初高中害羞小美女| 这里只有精品999| 国产一区中文字幕| 国产二区不卡| 国产在线三区| 日韩一区中文字幕| 日韩中文字幕亚洲精品欧美| 成人高潮aa毛片免费| 日韩欧美中文免费| 色一情一区二区三区| 天堂精品久久久久| 精品一区电影国产| 三级黄色录像视频| 亚洲精华国产欧美| 国产精品扒开腿做爽爽爽男男 | 亚洲精品成人网| 美女爆乳18禁www久久久久久| 日韩欧美不卡| 久久久免费高清电视剧观看| 91久久国产综合久久91| 九九精品视频在线看| 国产日韩在线一区二区三区| 国产尤物视频在线| 亚洲午夜一区二区| 最近中文字幕一区二区| 国产成人精品亚洲线观看| 亚洲视频电影图片偷拍一区| 欧美亚洲日本在线| 日韩中文字幕区一区有砖一区 | 午夜av一区二区三区| 99热手机在线| 果冻天美麻豆一区二区国产| 伊人久久精品视频| 日本中文字幕免费| 国模一区二区三区白浆| 欧美一级爽aaaaa大片| 欧美人体视频xxxxx| 欧美日韩一本到| 亚洲调教欧美在线| 永久亚洲成a人片777777| 热久久视久久精品18亚洲精品| a级片在线视频| 欧美国产激情一区二区三区蜜月| 久操网在线观看| 亚洲伦理久久| 夜夜嗨av一区二区三区四区| 中文字幕在线观看免费视频| 久久精品99国产国产精| 欧美一区二区高清在线观看| av资源一区| 日韩一级大片在线| 农村老熟妇乱子伦视频| 99精品免费视频| 高清视频在线观看一区| 久草免费在线观看| 欧美日韩一级二级三级| 欧美熟妇激情一区二区三区| 国产亚洲精品v| 成人免费看片网站| 最新超碰在线| 欧美一区二区三区在线电影| 99自拍偷拍视频| 视频在线观看一区| 欧洲精品一区色| 日韩影片中文字幕| 日韩不卡在线观看| 国产污视频在线看| 成人午夜电影久久影院| 国产91视频一区| 91麻豆精品国产91久久久久推荐资源| 久久精品色欧美aⅴ一区二区| 久久久久在线视频| 久久久国产午夜精品| 亚洲乱码国产一区三区| 少妇精品久久久| 国产成人综合亚洲| av免费在线一区二区三区| 色欧美88888久久久久久影院| 人妻精品久久久久中文字幕| 亚洲欧美日韩国产一区二区| 久久久免费看| 韩国成人动漫| 一色桃子一区二区| 7777久久亚洲中文字幕| 亚洲免费av高清| 国产成人av片| 日韩视频免费| 日本视频一区二区在线观看| 成人一级视频| 中文字幕av一区| 国产又黄又大又爽| 亚洲尤物视频在线| 国产亚洲无码精品| 美女视频网站久久| 九九久久九九久久| 日韩精品福利一区二区三区| 日本精品一区二区三区在线| 99精品老司机免费视频| 51精品秘密在线观看| 男人的午夜天堂| 成人性色生活片免费看爆迷你毛片| 国产高清不卡无码视频| 久久亚洲道色| 国产精品日韩欧美| 在线观看三级视频| 日韩精品视频在线| 中文字幕人妻色偷偷久久| 亚洲精品第1页| 在线免费观看污视频| 日韩成人精品在线观看| 午夜啪啪福利视频| 日韩精品免费一区二区三区竹菊| 国产精品草莓在线免费观看| 国产黄a三级三级三级av在线看| 日韩欧美第一区| 黄色片中文字幕| 最新国产精品久久精品| 老熟妇精品一区二区三区| 丝袜美腿亚洲色图| 免费看日b视频| 最近国产精品视频| 5566中文字幕一区二区| 成人性生交大片免费观看网站| 日韩视频免费看| 天天舔天天干天天操| 精品视频一区二区不卡| 国产一级特黄aaa大片| 中文字幕欧美国产| 男人网站在线观看| 狠狠色狠狠色综合| 日韩黄色片视频| 好看不卡的中文字幕| 四虎影院一区二区三区| 老司机精品在线| 亚洲bt天天射| 嫩草伊人久久精品少妇av杨幂| 欧美激情在线视频二区| 自拍视频在线免费观看| 国产丝袜精品视频| wwwxxxx国产| 欧美日韩激情一区| 亚洲不卡在线视频| 亚洲成人自拍偷拍| 69av视频在线| 亚洲欧洲综合另类| 中文天堂资源在线| 2014亚洲片线观看视频免费| 国产精品久久久久野外| 理论电影国产精品| 嫩草av久久伊人妇女超级a| 亚洲国产高清一区| 欧美大黑帍在线播放| 久久亚洲成人| 婷婷久久青草热一区二区 | 精品一区二区三区av| 男人亚洲天堂网| 一区二区三区国产在线| 国产黄色激情视频| 欧美激情性爽国产精品17p| 亚洲最新在线| 97色伦图片97综合影院| 午夜精品视频在线观看一区二区| 香蕉视频一区二区三区| 精品免费日产一区一区三区免费| 99久热这里只有精品视频免费观看| 国产日韩中文字幕在线| 国产成人77亚洲精品www| 日韩av手机在线| 丝袜美腿一区| 国产成人高清激情视频在线观看 | 一级特级黄色片| 91在线视频播放地址| 偷偷色噜狠狠狠狠的777米奇| 成人精品小蝌蚪| 国产精品久久久久久亚洲色| 成人黄色大片在线观看 | 亚洲欧美在线视频| 操她视频在线观看| 日韩毛片精品高清免费| 亚洲一二三在线观看| 亚洲女人****多毛耸耸8| 天天操天天操天天操天天操天天操| 亚洲欧洲国产日韩| 黄色片在线观看网站| 亚洲一级片在线观看| 国产真实乱偷精品视频| 午夜欧美在线一二页| 国产成人免费看| 欧洲色大大久久| 一区二区三区免费在线| 日韩欧美激情在线| 欧美一级一区二区三区| 亚洲美女又黄又爽在线观看| 麻豆导航在线观看| 最近2019中文免费高清视频观看www99| 在线免费观看的av网站| 欧美黄色性视频| 无遮挡在线观看| 国产精品丝袜白浆摸在线| 中文字幕成人| 国产一区二区三区黄| 你懂的一区二区三区| 亚洲国产一区二区三区在线| 一区二区三区网站| 日韩欧美视频网站| 蜜臀久久99精品久久久久宅男| 中文字幕色网站| 成人aa视频在线观看| 黄色片网站免费| 亚洲欧美另类小说| 久久艹免费视频| 欧美日韩高清一区二区不卡| 丰满熟女一区二区三区| 亚洲色图第一页| 日本三级韩国三级欧美三级| 欧美一级电影免费在线观看| 青青久久精品| 激情视频一区二区| 亚洲a在线视频| 成年人观看网站| 国产精品18久久久久| 99久久久久久久久久| 亚洲精品成人悠悠色影视| 亚洲伊人成人网| 欧美成人r级一区二区三区| 免费一级在线观看| 欧美高清电影在线看| 国产成人免费| 欧洲精品在线一区| 一区二区自拍| 爱爱爱爱免费视频| 26uuu亚洲综合色欧美| 婷婷色中文字幕| 欧美在线|欧美| 午夜成人免费影院| 欧美第一黄网免费网站| 欧美xxxx性| 欧美日韩国产综合视频在线| 欧美激情亚洲| www.日本久久| 国产喂奶挤奶一区二区三区| 黄色小说在线观看视频| 制服丝袜中文字幕一区| 国产精品视频一区二区久久| 97在线观看免费| jizz国产精品| 日本福利视频网站| 精品一区二区成人精品| 精品人伦一区二区| 欧美日韩在线视频一区二区| 成人毛片在线免费观看| 久久久国产一区二区三区| 福利一区视频| 日韩欧美99| 日韩高清一区二区| 亚洲午夜久久久久久久久红桃| 亚洲国产人成综合网站| 亚洲国产福利视频| 精品综合久久久久久97| www.久久爱.com| 正在播放91九色| 精品在线亚洲视频| 精品视频第一页| 欧美色涩在线第一页| 2021av在线| 国产精品自产拍高潮在线观看| 波多野结衣在线播放一区| 青青草av网站| 中文字幕二三区不卡| 国产美女www爽爽爽| 亚洲一区二区久久久| 51一区二区三区| 亚洲欧美精品| 久久99精品一区二区三区| 国产日产在线观看| 欧美精品国产精品| 久cao在线| 99在线视频首页| 一本色道久久综合亚洲精品不卡| 2一3sex性hd| 日韩欧美第一页| 国产在线电影| 国产欧美 在线欧美| 日韩精品看片| 色18美女社区| 亚洲精选在线视频| 欧美一区二区三区激情| 98精品国产高清在线xxxx天堂| 香蕉视频一区| jizzzz日本| 亚洲精品videosex极品| 国产综合在线播放| 69**夜色精品国产69乱| 国产精品亚洲二区| 手机在线国产视频| 亚洲精品成人精品456| 五月天激情婷婷| 国产精品国产三级国产专播精品人 | 久久激情五月婷婷| 欧美人与禽zozzo禽性配| 亚洲国产毛片完整版| 精品裸体bbb| 天天综合五月天| 91网站最新网址| 一区二区三区www污污污网站| 欧美理论片在线观看| 欧美激情影院| 乌克兰美女av| 亚洲一二三四在线| 二人午夜免费观看在线视频| 亚洲伊人第一页| 蜜桃av一区| 亚洲精品卡一卡二| 亚洲国产高潮在线观看| 电影一区二区| 国产69精品久久久久999小说| 国产亚洲精品福利| 不卡的日韩av| 国产精品高清在线观看| 国户精品久久久久久久久久久不卡| 美女100%无挡| 日韩美女天天操| 在线日本欧美| 亚洲美免无码中文字幕在线| 国产精品久久久久桃色tv| 天天干天天做天天操| 91久久久久久久久久久久久|