精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

新架構(gòu)RNN反超Transformer:每個(gè)隱藏狀態(tài)都是一個(gè)模型,一作:從根本上改變語言模型

人工智能
將來在對(duì)長(zhǎng)視頻進(jìn)行建模時(shí),我們可以密集地采樣幀而不是采樣1 FPS,這些密集幀對(duì)Transformer來說是一種負(fù)擔(dān),但對(duì)TTT層來說是一種福音。

新架構(gòu),再次向Transformer發(fā)起挑戰(zhàn)!

核心思想:將RNN中的隱藏狀態(tài)換成可學(xué)習(xí)的模型。

甚至在測(cè)試時(shí)都可以學(xué)習(xí),所以該方法稱為TTT(Test-Time Training)。

共同一作UC伯克利的Karen Dalal表示:我相信這將從根本上改變語言模型。

圖片圖片

一個(gè)TTT層擁有比RNN表達(dá)能力更強(qiáng)的隱藏狀態(tài),可以直接取代Transformer中昂貴的自注意力層。

在實(shí)驗(yàn)中,隱藏狀態(tài)是線性模型的TTT-Linear表現(xiàn)超過了Transformer和Mamba,用更少的算力達(dá)到更低的困惑度(左),也能更好利用長(zhǎng)上下文(右)。

圖片圖片

此外,隱藏狀態(tài)是MLP模型的TTT-MLP在32k長(zhǎng)上下文時(shí)表現(xiàn)還要更好。

圖片圖片

Karen Dalel還指出,理論上可學(xué)習(xí)的隱藏狀態(tài)可以是任意模型,對(duì)于更長(zhǎng)上下文來說,可以是CNN、甚至可以是完整的Transformer來套娃。

目前剛剛出爐的TTT論文已經(jīng)在學(xué)術(shù)界引起關(guān)注和討論,斯坦福博士生Andrew Gao認(rèn)為,這篇論文或許能成為下一篇Attention is all you need。

圖片圖片

另外有人表示,眾多新架構(gòu)能否真正擊敗Transformer,還要看能不能擴(kuò)展到更大規(guī)模。

Karen Dalel透露,馬上就會(huì)推出7B模型。

圖片圖片

用機(jī)器學(xué)習(xí)模型來壓縮上下文

傳統(tǒng)RNN,隱藏狀態(tài)固定大小表達(dá)能力受限,也不好并行訓(xùn)練。

Transformer強(qiáng)大,但自注意力機(jī)制隨上下文長(zhǎng)度呈平方復(fù)雜度,非常昂貴。

最近一系列基于RNN的架構(gòu)創(chuàng)新中:

RWKV,用線性注意力結(jié)合RNN和Transformer的優(yōu)點(diǎn),在訓(xùn)練時(shí)可以并行計(jì)算。

Mamba,賦予模型選擇性記住或遺忘信息的能力來壓縮上下文,同時(shí)設(shè)計(jì)了面向硬件的高效并行算法。

它們的表現(xiàn)在短上下文時(shí)追上甚至超越了Transformer,但在32k超長(zhǎng)上下文以上,Trasformer依舊稱霸。

圖片圖片

TTT團(tuán)隊(duì)的想法來自于:與其讓隱藏狀態(tài)被動(dòng)地儲(chǔ)存信息,不如讓它主動(dòng)學(xué)習(xí)。

就像Transformer模型作為一個(gè)整體在壓縮互聯(lián)網(wǎng)數(shù)據(jù)到參數(shù)中一樣,可學(xué)習(xí)的隱藏狀態(tài)模型也在少量參數(shù)上不斷縮上下文信息。

這種“隱藏狀態(tài)模型”隨著時(shí)間的推移仍然具有固定的大?。ü潭ǖ哪P蛥?shù)),但表達(dá)能力更強(qiáng)了。

論文的聯(lián)合指導(dǎo)UCSD助理教授王小龍認(rèn)為:

Transformer顯式地儲(chǔ)存所有輸入token,如果你認(rèn)為個(gè)神經(jīng)網(wǎng)絡(luò)是壓縮信息的好方法,那么壓縮這些token也將是有意義的。

圖片圖片

如此一來,整個(gè)框架的時(shí)間復(fù)雜度還是線性的,

圖片圖片

至此,序列建模被拆解為兩個(gè)嵌套的學(xué)習(xí)循環(huán),外循環(huán)負(fù)責(zé)整體的語言建模,內(nèi)循環(huán)通過自監(jiān)督學(xué)習(xí)壓縮上下文信息。

外循環(huán)的參數(shù)變成了內(nèi)循環(huán)的超參數(shù),也就是元學(xué)習(xí)的一個(gè)變種了。

標(biāo)準(zhǔn)的元學(xué)習(xí)是訓(xùn)練一個(gè)適應(yīng)不同任務(wù)的模型,而TTT是讓模型去適應(yīng)每一個(gè)測(cè)試樣本。單個(gè)樣本雖然信息量小,但用來訓(xùn)練隱藏狀態(tài)模型也綽綽有余。

圖片圖片

特別的,在內(nèi)循環(huán)是一個(gè)線性模型時(shí),相當(dāng)于線性注意力。當(dāng)內(nèi)循環(huán)是一個(gè)Nadaraya-Watson estimator時(shí),TTT等價(jià)于自注意力。

圖片圖片

在測(cè)試時(shí)學(xué)習(xí)

在TTT層里,使用自監(jiān)督學(xué)習(xí)方法將上下文壓縮到隱藏狀態(tài)。

上下文就是未標(biāo)記的數(shù)據(jù)集,隱藏狀態(tài)不再是一個(gè)固定的向量,可以是線性模型、小型神經(jīng)網(wǎng)絡(luò)或任何機(jī)器學(xué)習(xí)模型,更新規(guī)則采用了在自監(jiān)督損失上的一步梯度下降。

這樣一來,隱藏狀態(tài)模型可以記住產(chǎn)生大梯度的輸入,并且可以獲得比選擇性遺忘機(jī)制更強(qiáng)的擬合和泛化能力,并且在測(cè)試時(shí)仍然為每個(gè)輸入序列訓(xùn)練不同的參數(shù)。

圖片圖片

到目前為止,樸素的TTT層已經(jīng)有效了,但還無法并行化。

團(tuán)隊(duì)提出的解決方案為mini-batch梯度下降,把一個(gè)batch內(nèi)的梯度計(jì)算并行化。

再通過Dual form方法,只在mini-batch結(jié)束時(shí)計(jì)算權(quán)重以及輸出token,避免冗余計(jì)算。在JAX版實(shí)現(xiàn)中快了5倍以上。

圖片圖片

TTT能否成為“Transformer殺手”?

理論上都走的通了,那么TTT在實(shí)驗(yàn)中表現(xiàn)到底如何?

最簡(jiǎn)單干凈的測(cè)試方法,應(yīng)該是直接替換掉Transformer中的自注意力層。

但是在研究過程中,團(tuán)隊(duì)發(fā)現(xiàn)Mamba等現(xiàn)代RNN的骨干中在RNN層之前還包含時(shí)間卷積,對(duì)TTT也有幫助。

所以實(shí)驗(yàn)中TTT-Linear和TTT-MLP主要應(yīng)用到Mamba骨干上,其他訓(xùn)練細(xì)節(jié)也嚴(yán)格遵照Mamba論文中的設(shè)置。

最終在Pile數(shù)據(jù)集短上下文測(cè)試中:

  • 2k上下文時(shí),TTT-Linear、Mamba和Transform具有相當(dāng)?shù)男阅?,TTT-MLP的表現(xiàn)略差。
  • 8k上下文時(shí),TTT-Linear和TTT-MLP都優(yōu)于Mamba和Transformer,應(yīng)用在Transformer骨干的TTT-MLP(T)在1.3B參數(shù)左右也略好與Mamba。

總的來說,隨著上下文長(zhǎng)度的增長(zhǎng),TTT層相對(duì)于Mamba的優(yōu)勢(shì)也會(huì)擴(kuò)大。

另外團(tuán)隊(duì)猜測(cè),線性模型比MLP表達(dá)能力差,因此從Mamba骨干的卷積中受益更多。

圖片圖片

長(zhǎng)上下文實(shí)驗(yàn)使用Pile的子集Books3:

  • 32k上下文,TTT-Linear和TTT-MLP的表現(xiàn)都優(yōu)于曼巴,類似于Pile 8k的觀察。即使是帶有Transformer骨干的TTT-MLP(T)表現(xiàn)也略好于曼巴。
  • 1.3B參數(shù)尺度上,TTT-MLP(T)僅比TTT-MLP(M)稍差,Transformer骨干可能更適合論文評(píng)估范圍之外的更大模型和更長(zhǎng)的上下文。

圖片圖片

在A100上測(cè)試速度,TTT-Linear在預(yù)填充階段比Mamba稍快,解碼階段幾乎與Mamba速度相同。TTT-MLP相比Transformer整體上也有線性復(fù)雜度的優(yōu)勢(shì)。

圖片圖片

共同一作Karan Dala表示:我一直被問到的一個(gè)問題是,我們是否相信TTT就是“Transformer殺手”,我仍然認(rèn)為我們需要繼續(xù)努力。

隱藏狀態(tài)可以是任意模型,但目前的研究只涉及了線性模型和小型MLP,更復(fù)雜的還有待研究。

隱藏狀態(tài)模型的學(xué)習(xí)可以用Adam代替普通的梯度下降等等。

還可用于視頻建模

三位共同一作中:

Yu Sun博士畢業(yè)于UC Berkeley,目前是斯坦福大學(xué)博士后。

圖片圖片

Xinhao Li是電子科技大學(xué)校友,碩士畢業(yè)于UCSD。

圖片圖片

Karan Dalel本科畢業(yè)于UC Berkley,正在機(jī)器人初創(chuàng)公司1X實(shí)習(xí)。

圖片圖片

最后,聯(lián)合指導(dǎo)UCSD助理教授王小龍還透露,TTT方法除了語言模型,還適用于視頻。

TTT就是“Transformer殺手”,我仍然認(rèn)為我們需要繼續(xù)努力。

將來在對(duì)長(zhǎng)視頻進(jìn)行建模時(shí),我們可以密集地采樣幀而不是采樣1 FPS,這些密集幀對(duì)Transformer來說是一種負(fù)擔(dān),但對(duì)TTT層來說是一種福音。

圖片圖片

論文地址:https://arxiv.org/abs/2407.04620

參考鏈接:[1]https://x.com/karansdalal/status/1810338845659131940[2]https://x.com/xiaolonw/status/1810387662060269668

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2009-06-30 19:32:16

SUN云計(jì)算IT

2023-03-20 14:08:00

元宇宙

2012-10-22 16:34:37

JavaJava8Lambda

2022-02-15 14:58:29

區(qū)塊鏈娛樂加密貨幣

2023-11-30 15:17:21

人工智能業(yè)務(wù)流程

2020-04-26 10:00:48

大數(shù)據(jù)文件傳輸

2023-09-26 14:31:51

元宇宙

2022-01-11 14:05:01

區(qū)塊鏈技術(shù)數(shù)據(jù)

2014-12-31 10:37:09

2024-04-15 07:50:00

AI架構(gòu)

2025-10-29 16:42:06

DeepSeekOCR 模型

2018-11-05 15:28:05

2025-07-10 08:55:00

模型AI論文

2021-11-19 10:13:01

模型人工智能計(jì)算

2025-01-16 08:20:00

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語言模型

2023-11-22 09:00:00

NLP語言模型LSTM

2025-02-25 10:34:10

2023-02-25 16:14:36

AIMeta語言模型

2011-03-02 14:34:54

NVIDIA工作站
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91制片厂在线| 草草草在线视频| 天天综合网在线| 久久久精品五月天| www欧美日韩| 亚洲一二三四五| 日本黄色一区| 亚州成人在线电影| 一级日韩一区在线观看| 韩国av永久免费| 久久av资源网| 91av在线免费观看| 小早川怜子一区二区的演员表| 中文字幕一区二区三区四区久久 | 久久99精品久久只有精品| 久久久中文字幕| 国产又粗又长又硬| 日韩av资源网| 日韩精品一区二区三区三区免费| 国产成人无码av在线播放dvd| 色呦呦在线视频| 欧美激情一区二区三区| 国精产品99永久一区一区| 91丨九色丨蝌蚪丨对白| 先锋影音久久久| 欧美疯狂xxxx大交乱88av| 538精品视频| 亚洲福利网站| 亚洲激情中文字幕| www.四虎精品| 亚洲日本va午夜在线电影| 欧美日韩国产免费| 日韩在线xxx| 国产精品一二三产区| 亚洲男人的天堂av| 亚洲欧美精品| 搞黄视频在线观看| 久久久久久久久岛国免费| 精品在线视频一区二区| www.污视频| 国产精品综合在线视频| 成人黄色大片在线免费观看| 少妇又紧又色又爽又刺激视频| 国产人成精品一区二区三| 亚州av一区二区| 国产成人在线免费观看视频| 午夜精品剧场| 欧美成人三级视频网站| a级片在线观看免费| 欧美fxxxxxx另类| 久久这里只有精品99| 情侣偷拍对白清晰饥渴难耐| 久久大综合网| 久久精品视频中文字幕| 婷婷伊人五月天| 亚洲欧美一级二级三级| 久久99久久99精品免观看粉嫩| 国产女片a归国片aa| 在线中文一区| 欧美国产日韩xxxxx| 久久亚洲AV无码| 18成人免费观看视频| 国产+人+亚洲| www欧美在线| 日韩精品欧美精品| 国产精品爽爽爽| 国产情侣小视频| 麻豆精品在线观看| 92国产精品视频| 国产成人无码www免费视频播放| 成人激情免费网站| 麻豆亚洲一区| av在线免费一区| 中文字幕视频一区二区三区久| 黄色网络在线观看| 91福利在线免费| 色先锋资源久久综合| 深夜黄色小视频| 亚洲电影一区| 亚洲精选中文字幕| a一级免费视频| 欧美午夜一区二区福利视频| 欧美有码在线观看| 亚洲最大成人av| 成人免费视频国产在线观看| 噜噜噜噜噜久久久久久91| 国产高清视频在线| 亚洲精品一二三区| 虎白女粉嫩尤物福利视频| 欧美日韩免费电影| 欧美精品一区视频| 九九热免费在线| 欧美日韩1区| 国产精品久久久久久久久久久久久久 | 久久一区视频| 999日本视频| 国家队第一季免费高清在线观看| 国产精品久久夜| 131美女爱做视频| 日韩成人精品一区二区三区| 亚洲国产成人在线视频| 国产又色又爽又高潮免费| 在线看片一区| 成人免费视频a| 久草在线青青草| 一区二区三区欧美久久| 玩弄japan白嫩少妇hd| 亚洲超碰在线观看| 在线播放精品一区二区三区| 免费在线观看国产精品| 日本一区中文字幕| 久久av免费一区| av大全在线| 欧美亚一区二区| 在线免费观看污视频| 午夜国产一区二区| 日本精品在线视频| 免费国产羞羞网站视频| 日韩美女久久久| 日韩亚洲在线视频| 欧美一性一交| 久久人91精品久久久久久不卡 | 精精国产xxx在线视频app| 91精品国产色综合久久| 日韩黄色中文字幕| 欧美综合国产| 久久精品丝袜高跟鞋| 免费污视频在线| 51精品秘密在线观看| 精品无码在线观看| 久久精品网址| 欧美人与物videos另类| 草草在线视频| 亚洲精品动漫久久久久| 久久中文字幕无码| 国产一区二三区| 亚洲一区美女| 国产毛片精品久久| 色一情一乱一区二区| 波多野结衣网站| 国产午夜精品一区二区三区四区| 久久精品视频16| 美国十次av导航亚洲入口| 久久久久久久国产精品视频| 99热这里只有精品3| 亚洲免费在线观看| 天天干天天曰天天操| 中文字幕亚洲综合久久五月天色无吗''| 国产精品丝袜久久久久久高清| 久久免费看视频| 色综合天天在线| 日韩av在线看免费观看| 丝袜a∨在线一区二区三区不卡 | 残酷重口调教一区二区| 国产精品一区二区久久久| av电影在线观看| 欧美日韩一级片网站| 人成免费在线视频| 极品少妇一区二区三区精品视频| 97超碰人人爱| 伊人精品久久| 91wwwcom在线观看| 国产精品免费播放| 欧美女孩性生活视频| 18岁成人毛片| 丁香婷婷综合网| 播放灌醉水嫩大学生国内精品| 美女亚洲一区| 成人精品网站在线观看| 三级福利片在线观看| 亚洲国产精品推荐| 久久精品视频2| 一区在线中文字幕| 少妇献身老头系列| 国产精品腿扒开做爽爽爽挤奶网站| 欧美精品久久久| 伊人亚洲精品| 91av国产在线| 老司机精品影院| 亚洲高清av在线| 中文字幕自拍偷拍| 亚洲国产视频在线| 天天躁日日躁aaaxxⅹ| 激情文学综合丁香| 九色自拍视频在线观看| 韩日一区二区三区| 97视频资源在线观看| 毛片无码国产| 久久精品视频在线| 亚洲欧美丝袜中文综合| 欧美日本韩国一区二区三区视频| 一级黄色录像视频| 国产无人区一区二区三区| 亚洲三级在线观看视频| 99综合视频| 99re99热| 久久av电影| 国产91精品入口17c| 欧洲精品一区二区三区| 久久99热精品这里久久精品| 青青草在线免费观看| 制服.丝袜.亚洲.另类.中文| 特黄视频免费看| 有码一区二区三区| 奇米网一区二区| a级精品国产片在线观看| 色乱码一区二区三区在线| 亚洲裸体俱乐部裸体舞表演av| 亚洲高清在线播放| 网友自拍一区| 99久久无色码| 99久热在线精品视频观看| 日本电影亚洲天堂| av伦理在线| 久久伊人91精品综合网站| 国产一级片在线| 亚洲国产黄色片| 亚洲第一黄色片| 8x8x8国产精品| 亚洲男人天堂网址| 天天影视网天天综合色在线播放| 伊人在线视频观看| 国产精品私房写真福利视频| 亚洲综合自拍网| 成人午夜免费视频| 韩国三级与黑人| 韩国三级在线一区| xxx国产在线观看| 老妇喷水一区二区三区| 国产伦精品一区二区三区四区视频_| 亚洲国产不卡| 超碰97免费观看| 国产精品久久久久蜜臀| 亚洲精品中文字幕在线| 欧美日韩精品在线一区| 欧美一区二区三区成人久久片 | 国产精品一级二级三级| 成人性视频欧美一区二区三区| 亚洲一区视频| 国产高清精品在线观看| 99精品欧美| 日本国产在线播放| 国产日韩欧美高清免费| 噜噜噜久久亚洲精品国产品麻豆| 亚洲精品字幕| 欧美视频在线播放一区| 久久福利影视| 动漫av免费观看| 男人的天堂亚洲一区| 天天色综合社区| 欧美另类z0zx974| 久久久久91| 国产激情在线观看视频| 日韩av电影免费观看高清完整版| www.四虎成人| 日本 国产 欧美色综合| 色噜噜狠狠永久免费| 久久精品国产亚洲a| 天天操天天干天天做| 国产麻豆成人传媒免费观看| 性生活在线视频| 成人毛片视频在线观看| 中文字幕在线播放视频| 久久久久国产精品麻豆| 少妇愉情理伦三级| 中文字幕一区在线观看| 亚洲伦理一区二区三区| 亚洲综合一区二区| 久久露脸国语精品国产91| 色呦呦国产精品| 一区二区不卡视频在线观看| 91麻豆精品国产91久久久久| 精品久久久中文字幕人妻| 亚洲变态欧美另类捆绑| 日本五码在线| 色悠悠国产精品| 亚洲理论片在线观看| 日韩久久精品网| www国产无套内射com| 一本久道久久综合狠狠爱| 日本爱爱免费视频| 国产福利91精品一区| 不卡一区二区在线观看| 国产精品乱人伦中文| 久久久久久久中文字幕| 色国产综合视频| 国产精品一品二区三区的使用体验| 欧美大片一区二区| 激情小说 在线视频| 欧美精品日韩三级| 成人软件在线观看| 5g影院天天爽成人免费下载| 久久av网址| 久久手机在线视频| 青草国产精品久久久久久| 一区二区三区四区影院| 国产精品丝袜在线| 日韩欧美三级视频| 欧美一级片免费看| 可以免费看污视频的网站在线| 欧美精品一区二区免费| 欧美magnet| 国产欧美日韩综合一区在线观看| jvid福利在线一区二区| 国产97在线 | 亚洲| 国产乱码精品一区二区三| caopeng视频| 亚洲香蕉伊在人在线观| 国产又黄又猛又爽| 亚洲日本欧美日韩高观看| 欧美videosex性极品hd| 国产日韩欧美在线播放| 国产精品欧美在线观看| 黄色片免费在线观看视频| 美美哒免费高清在线观看视频一区二区 | 亚洲精品一区| 国产91一区二区三区| 欧美激情理论| 日韩精品免费播放| 99久久99久久精品免费看蜜桃| 日本高清不卡免费| 欧美怡红院视频| 欧洲天堂在线观看| 久久久之久亚州精品露出| 高清一区二区中文字幕| 先锋影音一区二区三区| 宅男噜噜噜66国产日韩在线观看| 九色91porny| 自拍视频在线观看一区二区| 黄色污污视频软件| 国产香蕉精品视频一区二区三区 | 大乳护士喂奶hd| 亚洲视频你懂的| 中文字幕一区二区人妻视频| 日韩电影中文字幕| www在线观看黄色| 国产成人免费观看| 国模吧视频一区| 亚洲av无码成人精品区| 亚洲免费大片在线观看| 国产女人18毛片水真多| 日韩一二三在线视频播| 欧美高清你懂的| 在线看无码的免费网站| 麻豆久久一区二区| 美女视频久久久| 69av一区二区三区| 91一区二区三区在线| 91久久伊人青青碰碰婷婷| 欧美三级乱码| 波多野结衣一二三区| 精品久久久香蕉免费精品视频| 神宫寺奈绪一区二区三区| 91精品国产乱码久久久久久久久 | bt欧美亚洲午夜电影天堂| 精品91久久久| 亚洲欧美国产精品久久久久久久| 中文字幕在线直播| 欧美在线日韩精品| 日av在线不卡| 天海翼在线视频| 91精品国产全国免费观看| 怡红院av在线| 国产一区二区无遮挡| 久久精品女人| 亚洲 欧美 变态 另类 综合| 欧美一区二区播放| av资源中文在线| 欧美区高清在线| 免费av成人在线| 青青操视频在线播放| 亚洲精品久久视频| 欧美韩国亚洲| 警花观音坐莲激情销魂小说| 成人综合激情网| 7799精品视频天天看| 日韩午夜在线视频| 高清一区二区三区| 亚洲xxxx2d动漫1| 亚洲黄色av一区| 你懂的在线视频| 92看片淫黄大片欧美看国产片| 国内揄拍国内精品久久| 精品人妻无码一区二区三区换脸| 欧美日韩mp4| 日韩脚交footjobhd| 一区二区三区四区五区精品| 国产成人精品免费| 波多野结衣视频在线观看| 欧美日韩国产123| 九色精品国产蝌蚪| 欧美性猛交乱大交| 欧美在线免费视屏| 精品精品导航| 色播五月综合| 成人av在线一区二区三区| 亚洲熟女乱色一区二区三区久久久 | 精品国产乱码久久久久久丨区2区| 日本欧美久久久久免费播放网| 老妇女50岁三级|