100萬token，一次能分析1小時YouTube視頻，「大世界模型」火了

作者：機器之心 2024-02-19 14:06:00

這項研究為語言模型更好地理解物理世界鋪平了道路。

最近幾天，我們接連被谷歌的多模態(tài)模型 Gemini 1.5 以及 OpenAI 的視頻生成模型 Sora 所震撼到，前者可以處理的上下文窗口達百萬級別，而后者生成的視頻能夠理解運動中的物理世界，被很多人稱為「世界模型」。然而，這些刷屏無數(shù)的模型真的能很好的理解世界嗎？我們就拿 Sora 來說，該模型在給大家?guī)眢@嘆的同時，卻不能很好的模擬復雜場景的物理原理，如一位健身的男子倒著跑跑步機。

不僅 Sora，現(xiàn)如今大模型雖然發(fā)展迅速，然而其自身也存在缺點，比如在現(xiàn)實世界中不容易用語言描述的內(nèi)容，模型理解起來非常困難，又比如這些模型難以處理復雜的長程任務(wù)。視頻模型的出現(xiàn)在一定程度上緩解了這個問題，其能提供語言和靜態(tài)圖像中所缺少的時間信息，這種信息對 LLM 非常有價值。隨著技術(shù)的進步，模型開始變得對文本知識和物理世界有了更好的理解，從而幫助人類。

然而，由于內(nèi)存限制、計算復雜性和有限的數(shù)據(jù)集，從數(shù)百萬個視頻和語言序列的 token 中進行學習挑戰(zhàn)巨大。

為了應(yīng)對這些挑戰(zhàn)，來自 UC 伯克利的研究者整理了一個包含各種視頻和書籍的大型數(shù)據(jù)集，并且提出了大世界模型（ Large World Model ，LWM），利用 RingAttention 技術(shù)對長序列進行可擴展訓練，逐漸將上下文大小從 4K 增加到 1M token。

論文地址：https://arxiv.org/pdf/2402.08268.pdf
項目主頁：https://github.com/LargeWorldModel/LWM?tab=readme-ov-file
論文標題：WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION

項目 5 天攬獲 2.5K 星標。

本文的貢獻可總結(jié)為如下幾個方面：

（a）該研究在長視頻和語言序列上訓練了一個擁有極大上下文尺寸的 transformers 模型，從而設(shè)立了新的檢索任務(wù)和長視頻理解方面的標桿。

(b) 為了克服視覺 - 語言訓練帶來的挑戰(zhàn)，該研究采取了以下措施，包括使用掩碼序列以混合不同長度的序列、損失加權(quán)以平衡語言和視覺、以及使用模型生成的問答數(shù)據(jù)來處理長序列對話。

(d) 完全開源 7B 參數(shù)系列模型，其能夠處理超過 100 萬 token 的長文本文檔（LWM-Text、LWM-Text-Chat）和視頻（LWM、LWM-Chat）。

LWM 可以基于文本提示自動生成圖像，例如黑色的小狗：

LWM 還可以基于文本提示生成視頻，例如在夜空中綻放的煙花在天空中綻放：

接下來，LWM 還能深入理解圖片、回答關(guān)于圖片的問題，例如 LWM 能對經(jīng)典藝術(shù)作品的二次創(chuàng)作進行解讀：

值得一提的是，LWM 可以回答時長為 1 小時的 YouTube 視頻。比如在示例中，當用戶詢問「那個穿著霸王龍服裝的人騎的是什么車」？GPT-4V 不能提供支持，Gemini Pro Vision 回答錯誤。只有 LWM 給了「那個穿著霸王龍服裝的人騎的是摩托車」正確答案。顯示出 LWM 在長視頻理解中的優(yōu)勢。

更多示例結(jié)果如下，我們可以得出，即使是最先進的商業(yè)模型 GPT-4V 和 Gemini Pro 在回答有關(guān)視頻的問題時都失敗了，只有 LWM 仍能回答長達 1h 的 YouTube 視頻問題。

這項研究的作者共有四位，其中一位是深度強化學習大牛、UC 伯克利教授 Pieter Abbeel 。Abbeel 在業(yè)余時間還出了很多課程，其中 Intro to AI 課程在 edX 上吸引了 10 萬多名學生學習，他的深度強化學習和深度無監(jiān)督學習教材是 AI 研究者的經(jīng)典學習資料，包括 CS294-158（Deep Unsupervised Learning）、CS188（Introduction to Artificial Intelligence）、CS287（Advanced Robotics）等。

方法介紹

該研究在 Llama2 7B 的基礎(chǔ)上訓練了一個大型自回歸 Transformer 模型，該模型具有長達 100 萬個 token 的超大上下文窗口。為了實現(xiàn)這一點，研究團隊采用多種策略：使用書籍資料將上下文擴展到 100 萬個 token，然后在長多模態(tài)序列上進行聯(lián)合訓練，包括文本 - 圖像、文本 - 視頻數(shù)據(jù)和書籍資料。

計算注意力權(quán)重的二次復雜度會帶來內(nèi)存限制，因此在長文檔上進行訓練異常昂貴。為了解決這些計算限制，研究團隊采用 RingAttention 實現(xiàn)，利用具有序列并行性的塊式計算。理論上這種方法可以將上下文窗口擴展到無限長度，僅受可用設(shè)備數(shù)量的限制。該研究還使用 Pallas 進一步將 RingAttention 與 FlashAttention 融合，以優(yōu)化模型性能。

如下表 1 所示，為了擴展上下文窗口的長度，該研究采用漸進式訓練的方法。直觀地講，這使得模型可以通過首先學習較短范圍的依賴關(guān)系，然后再轉(zhuǎn)移到較長的序列上來節(jié)省計算量。

LWM 模型的整體架構(gòu)如下圖 4 所示，總體上講是一個數(shù)百萬長度 token 序列上的自回歸 transformer。視頻中的每個幀使用 VQGAN tokenized 為 256 個 token，這些 token 會與文本 token 連接起來，并輸入到 transformer 中，以自回歸方式預測下一個 token。輸入和輸出的順序反映了不同的訓練數(shù)據(jù)格式，包括圖像 - 文本、文本 - 圖像、視頻、文本 - 視頻和純文本格式。

實驗結(jié)果

該研究將 LWM 與谷歌的 Gemini Pro 和 OpenAI 的 GPT-4 進行了實驗比較，實驗結(jié)果表明 LWM 模型在檢索方面能夠媲美 GPT-4，如下表 3 所示。

該研究還在 MT-Bench 上評估了模型的對話能力。表 5 顯示了模型獲得的 MT-Bench 分數(shù)。表 6 說明了模型的對話能力與事實檢索能力的關(guān)系。

在準確性方面，LWM 在上下文窗口為 1M 時優(yōu)于 GPT-4V 和 Gemini Pro。

感興趣的讀者可以閱讀論文原文，了解更多研究內(nèi)容。

責任編輯：張燕妮來源：機器之心

AI 數(shù)據(jù)