精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

國內高校打造類Sora模型VDT,通用視頻擴散Transformer被ICLR 2024接收

人工智能 新聞
這項工作由中國人民大學研究團隊主導,并與加州大學伯克利分校、香港大學等進行了合作,最早于 2023 年 5 月公開在 arXiv 網站。

2 月 16 日,OpenAI Sora 的發布無疑標志著視頻生成領域的一次重大突破。Sora 基于 Diffusion Transformer 架構,和市面上大部分主流方法(由 2D Stable Diffusion 擴展)并不相同。

為什么 Sora 堅持使用 Diffusion Transformer,其中的原因從同時期發表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的論文可以窺見一二。

這項工作由中國人民大學研究團隊主導,并與加州大學伯克利分校、香港大學等進行了合作,最早于 2023 年 5 月公開在 arXiv 網站。研究團隊提出了基于 Transformer 的 Video 統一生成框架 - Video Diffusion Transformer (VDT),并對采用 Transformer 架構的原因給出了詳細的解釋。

  • 論文標題:VDT: General-purpose Video Diffusion Transformers via Mask Modeling
  • 文章地址:Openreview: https://openreview.net/pdf?id=Un0rgm9f04
  • arXiv地址: https://arxiv.org/abs/2305.13311
  • 項目地址:VDT: General-purpose Video Diffusion Transformers via Mask Modeling
  • 代碼地址:https://github.com/RERV/VDT

1.VDT 的優越性與創新之處

研究者表示,采用 Transformer 架構的 VDT 模型,在視頻生成領域的優越性體現在:

  • 與主要為圖像設計的 U-Net 不同,Transformer 能夠借助其強大的 token 化和注意力機制,捕捉長期或不規則的時間依賴性,從而更好地處理時間維度。
  • 只有當模型學習(或記憶)了世界知識(例如空間時間關系和物理法則)時,才能生成與現實世界相符的視頻。因此,模型的容量成為視頻擴散的一個關鍵組成部分。Transformer 已經被證明具有高度的可擴展性,比如 PaLM 模型就擁有高達 540B 的參數,而當時最大的 2D U-Net 模型大小僅 2.6B 參數(SDXL),這使得 Transformer 比 3D U-Net 更適合應對視頻生成的挑戰。
  • 視頻生成領域涵蓋了包括無條件生成、視頻預測、插值和文本到圖像生成等多項任務。以往的研究往往聚焦于單一任務,常常需要為下游任務引入專門的模塊進行微調。此外,這些任務涉及多種多樣的條件信息,這些信息在不同幀和模態之間可能有所不同,這就需要一個能夠處理不同輸入長度和模態的強大架構。Transformer 的引入能夠實現這些任務的統一。

VDT 的創新之處,主要包括如下幾個方面:

  • 將 Transformer 技術應用于基于擴散的視頻生成,展現了 Transformer 在視頻生成領域的巨大潛力。VDT 的優勢在于其出色的時間依賴性捕獲能力,能夠生成時間上連貫的視頻幀,包括模擬三維對象隨時間的物理動態。
  • 提出統一的時空掩碼建模機制,使 VDT 能夠處理多種視頻生成任務,實現了技術的廣泛應用。VDT 靈活的條件信息處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模態的信息。同時,通過與該工作提出的時空掩碼建模機制結合,VDT 成為了一個通用的視頻擴散工具,在不修改模型結構的情況下可以應用于無條件生成、視頻后續幀預測、插幀、圖生視頻、視頻畫面補全等多種視頻生成任務。

2.VDT 的網絡架構詳細解讀

圖片

VDT 框架與 Sora 的框架非常相似,包括以下幾部分:

輸入 / 輸出特征。VDT 的目標是生成一個 F×H×W×3 的視頻片段,由 F 幀大小為 H×W 的視頻組成。然而,如果使用原始像素作為 VDT 的輸入,尤其是當 F 很大時,將導致計算量極大。為解決這個問題,受潛在擴散模型(LDM)的啟發,VDT 使用預訓練的 VAE tokenizer 將視頻投影到潛在空間中。將輸入和輸出的向量維度減少到潛在特征 / 噪聲的 F×H/8×W/8×C,加速了 VDT 的訓練和推理速度,其中 F 幀潛在特征的大小為 H/8×W/8。這里的 8 是 VAE tokenizer 的下采樣率,C 表示潛在特征維度。

線性嵌入。遵循 Vision Transformer 的方法,VDT 將潛在視頻特征表示劃分為大小為 N×N 的非重疊 Patch。

時空 Transformer Block。受到視頻建模中時空自注意力成功的啟發,VDT 在 Transformer Block 中插入了一個時間注意力層,以獲得時間維度的建模能力。具體來說,每個 Transformer Block 由一個多頭時間注意力、一個多頭空間注意力和一個全連接前饋網絡組成,如上圖所示。

對比 Sora 最新發布的技術報告,可以看到 VDT 和 Sora 在實現細節上僅存在一些細微差別

首先,VDT 采用的是在時空維度上分別進行注意力機制處理的方法,而 Sora 則是將時間和空間維度合并,通過單一的注意力機制來處理。這種分離注意力的做法在視頻領域已經相當常見,通常被視為在顯存限制下的一種妥協選擇。VDT 選擇采用分離注意力也是出于計算資源有限的考慮。Sora 強大的視頻動態能力可能來自于時空整體的注意力機制。

其次,不同于 VDT,Sora 還考慮了文本條件的融合。之前也有基于 Transformer 進行文本條件融合的研究(如 DiT),這里猜測 Sora 可能在其模塊中進一步加入了交叉注意力機制,當然,直接將文本和噪聲拼接作為條件輸入的形式也是一種潛在的可能。

在 VDT 的研究進程中,研究者將 U-Net 這個常用的基礎骨干網絡替換為 Transformer。這不僅驗證了 Transformer 在視頻擴散任務中的有效性,展現了便于擴展和增強連續性的優勢,也引發了他們對于其潛在價值的進一步思考。

隨著 GPT 模型的成功和自回歸(AR)模型的流行,研究者開始探索 Transformer 在視頻生成領域的更深層次應用,思考其是否能為實現視覺智能提供新的途徑。視頻生成領域有一個與之密切相關的任務 —— 視頻預測。將預測下一個視頻幀作為通往視覺智能的路徑這一想法看似簡單,但它實際上是許多研究者共同關注的問題。

基于這一考慮,研究者希望在視頻預測任務上進一步適配和優化他們的模型。視頻預測任務也可以視為條件生成,這里給定的條件幀是視頻的前幾幀。VDT 主要考慮了以下三種條件生成方式:

圖片

自適應層歸一化。實現視頻預測的一種直接方法是將條件幀特征整合到 VDT Block 的層歸一化中,類似于我們如何將時間信息整合到擴散過程中。

交叉注意力。研究者還探索了使用交叉注意力作為視頻預測方案,其中條件幀用作鍵和值,而噪聲幀作為查詢。這允許將條件信息與噪聲幀融合。在進入交叉注意力層之前,使用 VAE tokenizer 提取條件幀的特征并 Patch 化。同時,還添加了空間和時間位置嵌入,以幫助我們的 VDT 學習條件幀中的對應信息。

Token 拼接。VDT 模型采用純粹的 Transformer 架構,因此,直接使用條件幀作為輸入 token 對 VDT 來說是更直觀的方法。研究者通過在 token 級別拼接條件幀(潛在特征)和噪聲幀來實現這一點,然后將其輸入到 VDT 中。接下來,他們將 VDT 的輸出幀序列分割,并使用預測的幀進行擴散過程,如圖 3 (b) 所示。研究者發現,這種方案展示了最快的收斂速度,與前兩種方法相比,在最終結果上提供了更優的表現。此外,研究者發現即使在訓練過程中使用固定長度的條件幀,VDT 仍然可以接受任意長度的條件幀作為輸入,并輸出一致的預測特征。

在 VDT 的框架下,為了實現視頻預測任務,不需要對網絡結構進行任何修改,僅需改變模型的輸入即可。這一發現引出了一個直觀的問題:我們能否進一步利用這種可擴展性,將 VDT 擴展到更多樣化的視頻生成任務上 —— 例如圖片生成視頻 —— 而無需引入任何額外的模塊或參數

通過回顧 VDT 在無條件生成和視頻預測中的功能,唯一的區別在于輸入特征的類型。具體來說,輸入可以是純噪聲潛在特征,或者是條件和噪聲潛在特征的拼接。然后,研究者引入了 Unified Spatial-Temporal Mask Modeling 來統一條件輸入,如下圖 4 所示:

圖片

3.VDT 的性能評測

通過上述方法,VDT 模型不僅可以無縫地處理無條件視頻生成和視頻預測任務,還能夠通過簡單地調整輸入特征,擴展到更廣泛的視頻生成領域,如視頻幀插值等。這種靈活性和可擴展性的體現,展示了 VDT 框架的強大潛力,為未來的視頻生成技術提供了新的方向和可能性。

圖片

有趣的是,除 text-to-video 外,OpenAI 也展示了 Sora 非常驚艷的其他任務,包括基于 image 生成,前后 video predict 以及不同 video clip 相融合的例子等,和研究者提出的 Unified Spatial-Temporal Mask Modeling 所支持的下游任務非常相似;同時在參考文獻中也引用了 kaiming 的 MAE。所以,這里猜測 Sora 大概率底層也使用了類 MAE 的訓練方法。

研究者同時探索了生成模型 VDT 對簡單物理規律的模擬。他們在 Physion 數據集上進行實驗,VDT 使用前 8 幀作為條件幀,并預測接下來的 8 幀。在第一個示例(頂部兩行)和第三個示例(底部兩行)中,VDT 成功模擬了物理過程,包括一個沿拋物線軌跡運動的球和一個在平面上滾動并與圓柱體碰撞的球。在第二個示例(中間兩行)中,VDT 捕捉到了球的速度 / 動量,因為球在碰撞圓柱體前停了下來。這證明了 Transformer 架構是可以學習到一定的物理規律。

圖片

圖片

VDT 對網絡結構進行部分消融。可以發現模型性能和 GFlops 強相關,模型結構本身的一些細節反而影響不是很大,這個和 DiT 的發現也是一致的。

研究者還對 VDT 模型進行了一些結構上的消融研究。結果表明,減小 Patchsize、增加 Layers 的數量以及增大 Hidden Size 都可以進一步提高模型的性能。Temporal 和 Spatial 注意力的位置以及注意力頭的數量對模型的結果影響不大。在保持相同 GFlops 的情況下,需要一些設計上的權衡,總體而言,模型的性能沒有顯著差異。但是,GFlops 的增加會帶來更好的結果,這展示了 VDT 或者 Transformer 架構的可擴展性。

VDT 的測試結果證明了 Transformer 架構在處理視頻數據生成方面的有效性和靈活性。由于計算資源的限制,VDT 只在部分小型學術數據集上進行了實驗。我們期待未來研究能夠在 VDT 的基礎上,進一步探索視頻生成技術的新方向和應用,也期待中國公司能早日推出國產 Sora 模型。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-27 09:53:11

論文AI

2024-05-10 07:58:03

2024-01-17 12:05:12

AI模型

2024-02-21 12:19:00

AI模型

2023-12-13 13:49:00

模型訓練

2023-11-13 18:50:55

AI數據

2024-03-26 13:00:10

搜索腦圖AI

2024-04-07 07:40:00

2025-10-20 08:51:00

2024-03-06 16:08:13

人工智能擴散模型生成模型

2024-03-27 13:35:00

AI技術視頻

2024-07-19 10:39:38

2025-05-27 15:35:02

大模型技術AI

2024-10-16 14:10:00

AI視頻生成

2024-03-27 13:03:27

AI技術論壇

2013-10-21 10:24:38

SDN實踐科研

2025-04-08 09:30:00

模型AI機器人

2025-06-03 08:40:00

2024-03-25 00:30:00

AI框架

2024-08-26 08:45:00

機器模型
點贊
收藏

51CTO技術棧公眾號

视频一区亚洲 | 国产成人综合亚洲| 久久久久国产精品熟女影院| 国精产品视频一二二区| 激情av在线播放| 91精品秘密在线观看| 91污片在线观看| 久久综合色影院| 午夜视频在线瓜伦| 日本综合在线| 秋霞午夜鲁丝一区二区老狼| 亚洲国产精品免费| 中文字幕在线乱| 在线播放亚洲精品| 精品一区二区三区的国产在线观看| 亚洲不卡在线观看| 超碰国产精品久久国产精品99| 毛片视频免费播放| 97久久综合区小说区图片区| 一区二区三区免费看视频| 91精品国产自产在线老师啪| 亚洲天堂岛国片| 日韩电影大全网站| 91首页免费视频| 国产欧美日韩高清| 日韩在线不卡av| 欧美高清影院| 中文字幕不卡三区| 国产精品中文字幕在线观看| 日韩av无码中文字幕| 国产精品对白久久久久粗| 亚洲国产成人av| 韩国成人一区| 亚洲自拍一区在线观看| 视频一区在线观看| 欧美三级视频在线观看| 在线视频不卡国产| av网站免费大全| 精品1区2区3区4区| 日韩精品视频在线| 乱子伦视频在线看| 成av人电影在线观看| 蜜桃一区二区三区在线观看| 日韩在线观看免费av| 992tv人人草| 黄页网站在线| 亚洲视频一二三| 99久久精品久久久久久ai换脸| 一区二区三区在线免费观看视频| 天天插综合网| 亚洲成色777777女色窝| www.亚洲天堂网| yiren22综合网成人| 99re热视频这里只精品 | 26uuu亚洲电影| 欧美精彩视频一区二区三区| 国产日韩精品视频| 无码任你躁久久久久久久| 日韩成人免费| 欧美大黄免费观看| 日本成年人网址| 国产传媒在线| 国产精品久久久久久福利一牛影视 | 99久久这里只有精品| 亚洲天堂av在线免费| 久久国产精品国产精品| 青青草视频在线免费直播| 91女厕偷拍女厕偷拍高清| 国产精品免费一区二区| 亚洲 小说区 图片区| 欧美日本三区| 日韩精品视频免费专区在线播放| 大尺度做爰床戏呻吟舒畅| 99re66热这里只有精品4| 亚洲免费观看高清完整版在线观看 | 亚洲欧美丝袜| 丰满肥臀噗嗤啊x99av| 老司机午夜精品视频| 九九九久久久久久| 精品无码国产污污污免费网站 | av大大超碰在线| 2021中文字幕一区亚洲| 69174成人网| 国产主播第一页| 亚洲国产日本| 久久影院资源网| 美女毛片在线观看| 日韩精品看片| 久久久精品国产亚洲| 91精品人妻一区二区| 亚洲午夜免费| 在线不卡一区二区| 成年人视频在线免费| 国产91亚洲精品久久久| 欧美午夜xxx| 国产在线观看欧美| 永久av在线| 亚洲精品免费看| 亚洲不卡中文字幕| av在线下载| 国产精品久久久久久福利一牛影视| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 精品国产乱码久久久久夜深人妻| 日本一区免费网站| 午夜精品福利一区二区三区av| 久久久久久久久久久福利| 日韩专区视频| 欧美日韩一本到| 女同性αv亚洲女同志| 不卡一区视频| 欧美久久久久免费| 日本黄色录像片| 91日韩欧美| 久久精品国产综合| 免费在线不卡视频| 在线综合欧美| 57pao精品| 精品欧美一区二区三区免费观看 | 偷拍一区二区| 日韩精品免费在线视频| 中日韩一级黄色片| 久久aⅴ乱码一区二区三区| 97在线视频国产| 国产福利拍拍拍| 亚洲国产日本| 91久久精品国产91性色| 精品久久国产视频| 丰满白嫩尤物一区二区| 国产精品久久久久久免费观看| 成人高清免费观看mv| 午夜精品久久久久久久| 欧美性猛交乱大交| 久久久久毛片免费观看| 欧美成人精品福利| 中文字幕在线视频播放| 天堂资源在线亚洲| 欧美情侣性视频| 国产一区二区三区四区视频| 国产精品一区在线| 国模精品娜娜一二三区| 欧美日韩在线中文字幕| 国产精品视频观看| 五月天在线免费视频| 精品国产黄a∨片高清在线| 亚洲欧洲美洲在线综合| 国产精品乱子伦| 蜜臀精品久久久久久蜜臀| 久久亚洲精品欧美| 婷婷成人激情| 欧美在线免费播放| 欧美黄色一级片视频| 亚洲97av| 日韩日本欧美亚洲| 奴色虐av一区二区三区| 久久久亚洲精品石原莉奈| 亚洲精品中文综合第一页| 日韩电影av| 国产一区二区三区18| 国产高潮国产高潮久久久91 | 久久一区二区三区四区| 国产精品后入内射日本在线观看| 一二区成人影院电影网| 亚洲人免费视频| 欧美性猛交xxxx乱大交hd| 国产午夜三级一区二区三| a级片一区二区| 欧美a在线观看| 欧美高清无遮挡| 波多野结衣电影在线播放| 国产亚洲va综合人人澡精品| 欧美伦理片在线看| 欧美激情电影| 97超碰人人模人人爽人人看| 激情网站在线| 精品香蕉一区二区三区| 国产67194| 国产69精品久久777的优势| 麻豆tv在线播放| 91成人app| 色综合久久精品亚洲国产 | 亚洲精品国产嫩草在线观看| 中文字幕九色91在线| 日本少妇在线观看| 不卡的av在线播放| 麻豆md0077饥渴少妇| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 99久精品国产| 日本爱爱免费视频| 国产精品jk白丝蜜臀av小说| 97久久伊人激情网| 国产高清一级毛片在线不卡| 香蕉影视欧美成人| 亚洲AV无码国产成人久久| 狠狠久久婷婷| 91视频8mav| 国产高潮在线| 一本色道久久88综合日韩精品| 日韩欧美不卡视频| 国产无遮挡一区二区三区毛片日本| 亚洲午夜激情影院| 成人看的视频| 日本在线观看天堂男亚洲| 老司机午夜福利视频| 一本色道久久综合亚洲aⅴ蜜桃| 在线精品视频播放| 日日嗨av一区二区三区四区| 欧美激情论坛| 午夜影视一区二区三区| 亚洲激情在线观看| 伊人色综合久久久| 午夜精品成人在线视频| 极品色av影院| 久久精品视频免费观看| 少妇献身老头系列| 精品一区二区精品| 在线亚洲美日韩| 欧美中文一区| 久久全球大尺度高清视频| 东京干手机福利视频| 在线视频你懂得一区二区三区| 青青草原在线免费观看视频| 欧美韩国日本综合| www.日本高清| 久久国产福利| 日本阿v视频在线观看| 国产精品白丝av嫩草影院| 国产玖玖精品视频| 亚洲伊人av| 国产69精品久久久久9999| wwwav在线| 色综合影院在线| 国产日本精品视频| 一区二区三区不卡视频在线观看 | 五月综合久久| 成人h视频在线观看| 亚洲精品三区| 国产美女直播视频一区| 日韩大尺度黄色| 欧美一级免费视频| cao在线视频| 亚洲三级av在线| 亚洲AV成人无码一二三区在线| 欧美性色xo影院| 国产乱码久久久久久| 一区二区三区波多野结衣在线观看| 亚洲熟女少妇一区二区| 国内精品在线播放| 日韩av片网站| 欧美a级在线| 精品免费二区三区三区高中清不卡 | 91色国产在线| 日韩和欧美一区二区| 激情网站五月天| 国产亚洲综合精品| 亚洲人成网站在线播放2019| 日韩精品视频一区二区三区| 91久久在线播放| 91麻豆精品一二三区在线| 成人精品在线视频| 成人在线黄色电影| 午夜精品久久久久久久99黑人| 毛片网站在线看| 国语自产精品视频在线看| 草草在线观看| 欧美专区中文字幕| 中中文字幕av在线| 九九精品视频在线观看| 国产盗摄在线视频网站| 69久久夜色精品国产7777| 免费黄网站在线| 亚洲精品中文字幕女同| 免费av在线电影| 中文字幕在线看视频国产欧美| 欧美96在线| 久久99青青精品免费观看| 91豆花视频在线播放| 欧美在线日韩在线| julia一区二区三区中文字幕| 国产日韩精品在线| 成人偷拍自拍| 欧美影视一区二区| 久本草在线中文字幕亚洲| 成人免费午夜电影| 97se亚洲| 日韩资源av在线| 麻豆精品少妇| 日韩视频精品| 欧美视频久久| 免费日韩视频在线观看| 久久国产精品露脸对白| 国产麻花豆剧传媒精品mv在线| 日韩国产欧美在线播放| 日本网站在线看| xfplay精品久久| 秋霞欧美一区二区三区视频免费| 五月天中文字幕一区二区| 亚洲女人久久久| 亚洲成av人影院| 一二三四区在线| 日韩国产一区三区| 色的视频在线免费看| 136fldh精品导航福利| 亚洲国产91视频| 久久精品欧美| 日韩有码一区| 一区二区三区视频| 影音先锋国产精品| 妺妺窝人体色www在线观看| 国产精品资源网站| 四虎国产精品成人免费入口| 亚洲自拍偷拍综合| 一个人看的www日本高清视频| 日韩国产高清污视频在线观看| 黄网页免费在线观看| 精品国产一区二区三区久久狼黑人| aa级大片免费在线观看| 国产免费一区视频观看免费| 亚洲欧洲av| 欧美中日韩在线| 亚洲国产激情| 肉色超薄丝袜脚交| 中文字幕乱码日本亚洲一区二区| 丰满少妇乱子伦精品看片| 日韩午夜中文字幕| 成人午夜免费福利| 久久这里有精品视频| 91另类视频| 麻豆一区区三区四区产品精品蜜桃| 午夜日本精品| 亚洲综合激情视频| 国产成人免费网站| 国产精品扒开腿做爽爽爽a片唱戏| 国产精品成人午夜| 亚洲黄网在线观看| 国产视频丨精品|在线观看| wwww亚洲| 国产精品三区在线| 欧美一区免费| 九九九九九九九九| 综合精品久久久| 国产无遮无挡120秒| 日韩欧美国产一区二区| 懂色av成人一区二区三区| 欧美日韩高清在线观看| 日韩在线成人| a级片一区二区| 东方aⅴ免费观看久久av| 好吊一区二区三区视频| 国产欧美日韩中文久久| 久久精品视频5| 亚洲欧美变态国产另类| 在线看av的网址| 欧美激情视频一区二区三区不卡| 国产精品国产亚洲精品| 久久久久久久久久久久久久久久av | 国产日产在线观看| 欧美日韩精品一区二区天天拍小说| jlzzjlzz亚洲女人18| 欧美尺度大的性做爰视频| 在线最新版中文在线| 久久久久久久久久久久久久一区| 亚洲精品偷拍| 女尊高h男高潮呻吟| 日韩欧美精品中文字幕| 国产在线视频福利| 久久91亚洲精品中文字幕| 麻豆精品在线| 日韩黄色短视频| 91免费小视频| 波多野结衣一二区| 色系列之999| 日韩三级av高清片| 男女猛烈激情xx00免费视频| 久久色视频免费观看| 在线免费看毛片| 欧美另类xxx| 欧美精品国产白浆久久久久| 国产v亚洲v天堂无码久久久| 国产精品萝li| 精品国产一级片| 欧美在线欧美在线| 午夜av一区| 亚洲精品乱码久久久久久蜜桃图片| 日韩欧美在线看| 国产高清一区二区三区视频| 国产亚洲欧美一区二区三区| 久久久久国内| 午夜国产福利一区二区| 日韩成人av网址| **欧美日韩在线| 久久久亚洲精品无码| 国产精品性做久久久久久| 日本系列第一页| 中文字幕欧美专区| 超碰cao国产精品一区二区| 超碰在线97免费| 亚洲成av人片一区二区三区| 91caoporm在线视频| 国产精品一区二区不卡视频| 男人操女人的视频在线观看欧美|