讀萬卷書,大模型就能「看」懂視覺世界?Meta揭秘LLM視覺先驗的起源
一個只見過文本的大語言模型(LLM),在從未直接看過圖像的情況下,竟然能學到可遷移到視覺任務的先驗能力 —— 這是 Meta Superintelligence Labs 與牛津團隊新論文的發現。
近日,Meta 超級智能實驗室(Meta Superintelligence Labs)與牛津大學的研究者發布了一篇長達 33 頁的重磅論文,通過超過 100 組受控實驗、耗費 50 萬 GPU 小時的龐大研究,系統性地揭開了 LLM 視覺先驗的來源。 作者提出,視覺先驗可分為「推理先驗」和「感知先驗」,并給出了一套預訓練的數據混合配方,用于在只用文本預訓練階段就「播下」視覺能力的種子。
這項研究不僅解釋了 LLM 無師自通學會看的秘密,更提出了一套預訓練的數據配方,旨在從語言預訓練階段就有意地培養模型的視覺能力,為下一代更強大的多模態大模型鋪平道路。

- 論文標題:Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
- 論文鏈接:https://arxiv.org/pdf/2509.26625
- 項目地址:https://junlinhan.github.io/projects/lsbs/
核心洞察:LLM 視覺先驗并非鐵板一塊,源于兩種獨立的「先驗知識」
研究最重要的發現是,LLM 從語言中獲得的「視覺先驗」(Visual Priors)并非單一的能力,而是可以分解為兩種來源和特性截然不同的部分:
- 推理先驗 (Reasoning Prior):一種更抽象、跨模態的通用能力。它主要通過預訓練以推理為中心的數據(如代碼、數學、學術論文)來獲得。就像人類通過學習邏輯和數學來構建推理框架一樣,LLM 通過學習這些結構化文本,掌握了可遷移的、普適的推理能力,這種能力可以直接應用于解決復雜的視覺問題。
- 感知先驗 (Perception Prior):這更側重于對具體視覺概念的認知,比如識別物體的顏色、形狀和名稱。這種能力并非來自某一特定類型的數據,而是從廣泛、多樣的通用語料(如網頁抓取)中「彌散式」地浮現出來。多模態大模型的感知能力對視覺指令微調和所選用的視覺編碼器更為敏感。
關鍵發現:少量視覺描述就夠,海量推理數據是關鍵

大量實驗:系統性揭秘 LLM 的視覺先驗
團隊進行了一系列精巧的實驗,實驗采用常見的 adapter-style 多模態適配流程 —— 先在只讀文本的基礎上預訓練多種解碼器式 LLM(沿用 Llama-3 風格架構,模型尺度從 340M 到 13B 不等,核心對比以 3B/7B 模型 為主),然后用同樣的「視覺對齊 + 監督微調」的兩階段流程把視覺能力接入來衡量視覺先驗,得出了 6 個結論并引入 3 個假設,這里節選:
- 能力的起源有跡可循:通過對 16 種不同單一數據源的獨立訓練,研究發現,在「代碼」「數學」和「學術」數據上訓練的模型,在需要抽象推理的視覺任務(Vision-Centric VQA)上表現最好。

- 推理數據多多益善,視覺數據很快飽和:實驗表明,在預訓練數據中,不斷增加推理密集型文本(如代碼)的比例,模型的下游視覺推理能力會持續、顯著地提升,直到占比達到 75% 左右。與此形成鮮明對比的是,描述視覺世界的文本(如描述顏色、形狀、位置的文字)雖然重要,但其效果會迅速飽和。只需一小部分這類數據為模型打下基礎,再多就收效甚微了。

- 推理能力是通用的,感知能力更依賴「后天」:研究進一步證實,「推理先驗」是獨立于視覺編碼器的通用能力。無論后期與哪種視覺模塊結合,只要 LLM 在預訓練階段學到了強大的推理能力,其多模態系統的推理表現都會相應提升。而「感知先驗」則不同,它更依賴于后期的視覺微調數據和視覺編碼器本身的特性。

簡單來說,想要讓一個 LLM 擁有強大的視覺潛力,關鍵不是給它讀無數遍「天空是藍色的」,而是讓它通過解數學題、讀代碼來把「腦子」練聰明。
從理論到實踐:一份增強視覺先驗的數據預訓練配方
基于以上發現,研究團隊的目標從「解釋現象」轉向了「主動創造」。他們通過系統的實驗,最終調配出了一套最優的數據混合方案,旨在平衡模型的語言能力和視覺潛力。
實驗結果表明,通過采用這種富含推理內容、同時配有適量視覺世界知識的「平衡配方」(Balanced model),訓練出的 7B 模型在語言能力上與專門優化語言任務的預訓配方訓練的模型達到了更優,同時在所有視覺基準測試中都實現了全面超越。
這證明了,通過精心設計文本預訓練數據,我們可以「未卜先知」地為模型注入強大的視覺先驗。

意義與展望
這項研究的意義深遠,它將多模態模型能力的培養,從依賴下游微調提前到了語言預訓練階段。
它展示了,核心的推理能力是一種可遷移、與模態無關的基石。這為「柏拉圖表征假說」(Platonic Representation Hypothesis)提供了有力的經驗支持 —— 即文本和圖像只是現實世界在不同模態下的「投影」,一個足夠強大的模型可以僅從一種投影中,學習到這個世界的統一內在結構。
未來,LLM 的預訓練將不再僅僅是單模態的事。模型設計者從一開始就可以考慮其未來的多模態應用,通過在預訓練階段「播下視覺的種子」,來構建一個更強大的跨模態智能基礎。
更多技術細節和實驗分析,請參閱原論文。
作者介紹
韓俊霖(Junlin Han)是這篇論文的第一作者兼項目負責人。他目前是 Meta 超級智能實驗室的研究員,同時也是牛津大學 Torr Vision Group 的博士生,師從 Philip Torr 教授。他的研究興趣聚焦多模態智能系統,先后在跨模態數據生成、3D 生成模型等領域開展研究。此前,他以一等榮譽畢業于澳大利亞國立大學,曾在頂級會議多次發表重要研究成果并組織研討會。
文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是紐約大學 Courant 計算機科學系的博士生,導師包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能實驗室 (BAIR) 進行本科研究,師從馬毅教授。研究方向包括世界模型 (world model)、無監督 / 自監督學習、生成模型與多模態模型。他曾獲得了 OpenAI Superalignment Fellowship 和 Meta 的博士項目資助。
第三作者 David Fan 現任 Meta FAIR 的高級研究工程師。他的研究方向集中在多模態表征學習、視頻理解 / 自監督學習等領域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 擔任 Applied Research Scientist,參與視覺 - 語言 - 音頻融合模型、視頻理解和推薦系統等真實產品項目。他于普林斯頓大學獲得計算機科學學位。

































