視覺語言模型如何突破感知邊界?上海 AI 新勢力提出“世界意識”賦能真實環境規劃
——如何讓多模態智能體真正“看懂”世界并做出復雜決策
“把切好的蘋果片冰一下再丟進垃圾桶”——這樣一條看似普通的自然語言指令,若讓一臺具身智能體(Embodied Agent)執行,其背后實則隱藏了多步規劃、常識應用、環境理解、工具使用等一系列交互復雜度極高的子任務。如何讓 AI 理解任務的潛臺詞、合理分解步驟,并在真實視覺輸入中找準對象并正確執行,正是當前具身智能與多模態學習面臨的最大挑戰之一。
具身智能與多模態規劃的研究背景
具身智能(Embodied Intelligence)可以被視為 AI 研究“從認知走向行為”的轉折點。相比傳統語言模型只需生成文本答案,具身智能體需要真正“扎根”在感知世界中,將自然語言指令轉化為一連串具體、可執行的動作,并根據不斷變化的視覺環境調整策略。
與此同時,大規模預訓練模型不斷推進了多模態理解的邊界——視覺語言模型(LVLMs)成為橋接人類意圖與感知世界的關鍵通道。它們接受圖像與語言作為輸入,生成合理的響應或推理路徑,被廣泛應用于問答、描述生成、交互導航等任務。然而,當這些 LVLM 被遷移到具身場景時,問題開始暴露:它們在真實復雜環境中的推理往往流于表面,尤其是缺乏對環境中語義結構和任務邏輯的深度建模。
LVLM 的機遇與挑戰,在具身任務中“落地生根”
當前 LVLM 主要依賴大規模圖文對進行訓練,其強項在于處理“靜態感知”任務,而非“動態交互”決策。它們在圖像描述、多輪對話甚至考試問答中展現出驚人的語義掌控力,但在具身任務中卻普遍表現出三大軟肋。
第一,它們脫離環境上下文進行模仿學習,無法在執行過程中動態感知與反應;
第二,它們通常在“開放循環”(open-loop)設定中訓練,未習得因果與時間依賴關系;
第三,在面對多步復雜任務、歧義語言指令、隱含語義要求時往往失誤頻頻。
這引發了一個更深層的問題:如何讓 LVLM 真正具備世界建模能力,從而在環境復雜多變、反饋有限的設定下進行穩健規劃?而這,正是本文提出的“世界意識規劃敘事增強”方法想要解決的核心挑戰。
今天我們解讀由復旦大學與上海人工智能創新研究院聯合團隊提出的這一創新框架。該方法不僅在技術路徑上融合了敘事增強與認知分層,還在實驗設計上實現了對閉環具身任務的性能飛躍,代表了多模態具身智能從“模仿”走向“理解”的一次突破。
這項研究由復旦大學自然語言處理實驗室牽頭,聯合上海人工智能創新研究院與上海人工智能實驗室共同完成。團隊成員包括Junhao Shi, Zhaoye Fei, Siyin Wang, Qipeng Guo, Jingjing Gong, Xipeng QIu,該團隊所代表的,不僅是中國 NLP 與 AI 研究界的一股骨干力量,也體現了產學研融合背景下,對“通用人工智能走向認知閉環”的前瞻性探索。
1.方法綜述:WAP 世界意識敘事增強框架
——給智能體一個“世界觀”,讓它學會像人一樣看、想、做
在這項研究中,研究團隊并沒有簡單地對模型堆疊參數或擴大訓練數據,而是借助一種更接近人類認知機制的做法:用結構化的“世界敘事”來培養智能體的感知–理解–行動閉環能力。這套方法被稱為 WAP(World-aware Planning Narrative Enhancement),既是數據增強策略,也是一種認知重構框架,核心理念是:讓語言不只是指令,而是攜帶環境語義的推理觸發器。
圖片
圖1:敘事增強了管道。研究團隊的框架通過四個主要階段轉換基礎教學軌跡對:(1)多維教學增強,生成認知豐富的變體;(2)自我驗證,確保與原始任務語義一致;(3)推理生成,為每個動作提供明確的認知痕跡;以及(4)構建增強訓練集,在添加認知注釋的同時保持軌跡信息。
框架的整體設計理念
與其說 WAP 是一種技術堆疊,不如說它像在模型內部構建了一個“認知成長路徑”。
在傳統做法中,模型對任務的理解基本停留在語言輸入與靜態觀測之間的淺層映射。而 WAP 主張以觀察歷史與動態場景為基礎,激發模型建立完整的感知—語義—動作橋接鏈。這條鏈路中的每一環都對應人類在執行任務時的心智加工流程。
- 我看到了什么?
- 我知道它在哪兒、有什么功能?
- 這和我的目標有什么關系?
- 我接下來該做什么?
換句話說,WAP 就是在教模型如何“思考”。
多維認知能力構建
WAP 的關鍵在于為模型輸入的信息加上認知標簽。通過將每條任務指令映射為四個認知維度下的“理解任務方式”,模型被迫練習從多個角度“看懂世界”。
視覺外觀建模(Visual Appearance Modeling)
模型不再只是通過物體名稱識別目標,而是通過增強指令中加入顏色、形狀、材質 等視覺描述(如“小型圓形掛鐘”、“錐形燈罩”),強化其對象判別能力。這不僅提升魯棒性,也讓模型在復雜場景中具備更精細的感知分辨率。
空間-關系推理(Spatial-Relational Reasoning)
為任務指令增添基于空間參照物與結構布局 的信息(如“在木制椅子旁”、“位于燈座下方”),使模型能夠建立起類似于人類“空間地圖”的理解機制。這一維度至關重要,因為具身任務往往涉及移動與定向操作,空間錯誤即是任務失敗。
功能抽象學習(Functional Abstraction Learning)
此維度超越了物體外觀,強調其操作性與因果作用,如“冰箱是制冷設備”、“刀是切割工具”、“鐘是時間指示器”。這些抽象描述幫助模型在缺乏明確說明時依然能作出合理推斷——比如理解“冷藏”這一隱性要求的含義。
句法語義聯結(Syntactic Grounding)
這里的重點是提高模型處理復雜語言結構、歧義、指代 等高階語言理解能力。例如,對“放入剛剛使用的容器”這樣的間接表達進行消歧和上下文對齊。通過重構任務指令語言風格,引導模型在理解指令本身時進行更深層次的結構分析。
指令與軌跡的多維增強流程
研究團隊構建了一套流程式的敘事增強系統,將每條原始軌跡轉化為一組具備認知挑戰性的“變體指令”。
- 以原始任務為核心,針對四大認知維度分別生成增強版本;
- 使用大型教師模型(如 Qwen2.5-VL)進行“多維視角重述”;
- 保留軌跡信息并附加語義標注,構建強化數據集。
最終,模型在訓練中會面對形式多樣、視角豐富的指令表達,這促使其在泛化到新場景時更具適應力。
語義一致性自檢機制
但“創造力”不能以犧牲“準確性”為代價。為避免增強指令跑題或引入語義偏移,WAP 設計了一套語義一致性驗證機制。
系統使用多個判別器從五個角度檢查增強指令是否與原始指令意圖保持一致,只有通過至少四項驗證的才會被保留。否則,該增強版本將被舍棄或重寫,確保整個訓練集的認知目標不被“篡改”。
步進式認知推理生成
另一項令人印象深刻的機制是所謂的“行動-認知配對”:每一個動作都配有一條明確的“認知說明”。
這類似于在人類心理學中提到的“顯式元認知路徑”,模型不僅要執行動作,還要給出它為什么這么做的解釋。這些推理語句成為模型學習時的重要監督信號,引導其逐步學會因果關系追蹤、狀態轉移感知與目標保持機制。
這不僅提升了執行表現,更讓模型具有可解釋性。
課程式訓練策略,從感知到推理的三階段訓練
好比一個孩子從學會識字、認識世界,再到能獨立思考,WAP 的訓練流程也遵循一種“認知階梯式”路徑。
第一階段:基礎模仿 模型學習語言與動作的基本映射,對接軌跡語料;
第二階段:感知理解 引入視覺與空間增強,建立起環境建模與對象對齊能力;
第三階段:高階推理 接入功能與句法增強,攻克語言歧義與隱含任務結構問題。
這種循序漸進的訓練方式,讓模型不會在一開始就面對“全難度”挑戰,而是按“認知發展曲線”逐步升級認知系統。最終,模型在面對現實具身場景時擁有了如人類般的多角度理解能力與推理韌性。
2.實驗設計與主要結果
用數據說話,世界意識究竟改變了什么?
自建80K大規模敘事增強語料,構建認知爬坡賽道
與傳統從小數據“摳細節”不同,作者在訓練數據上開足馬力。他們基于原始 ALFRED 數據集的 16,145 條人類演示軌跡,通過四維認知增強策略,一舉擴展為多達80,875 條 instruction–trajectory 對。這些新樣本不僅數量大,更在認知復雜性上形成有梯度的結構化挑戰,例如:
- 描述物體材質與形狀(視覺維度)
- 加入相對空間位置(空間維度)
- 強化功能與工具意圖表達(功能維度)
- 引入歧義結構與間接指令(句法維度)
作為“教師模型”,研究者選擇了能力強悍的Qwen2.5-VL-72B-Instruct,用以指導增強指令生成、認知推理生成等過程。換句話說,這不僅是訓練數據的擴充,更是認知能力成長路徑的人工編排。
EB-ALFRED基準:從任務成功率到認知均衡性的雙重考驗
為了全面評估模型在具身環境中的真實水平,作者使用了 EB-ALFRED 這一升級版基準。該平臺相較原始 ALFRED 更具代表性:精簡冗余動作空間;優化語言指令質量;明確任務場景類型劃分(如視覺、空間、復雜、常識、長程等)
圖片
表1:EmbodiedBench(EB-ALFRED)的性能比較。結果顯示了不同任務類別的成功率(SR)。
主要評估指標有兩個。
任務成功率(Success Rate, SR):看任務是否達成目標
標準差(STD):衡量模型在不同任務類型之間的能力平衡性。STD 越小,表明模型越能適應多樣任務而不偏科
這個指標組合其實很“人性化”:不僅看你做得好不好,還看你“偏科”沒。
“吊打”閉源大模型:開源也能站上高地
成果如何?一句話總結:開源也能扳倒 GPT-4o。
以 Qwen2.5-VL-7B 為例,研究者從基礎版本(SR 僅為 4.7)出發,通過疊加認知增強與課程訓練,最終實現了 62.7 的平均成功率。這個成績不僅遠高于其自身的原始能力,還超過了 GPT-4o(56.3)和接近Gemini-1.5-Pro(62.3),而后者們可都是大模型家族中的“天花板”選手。
此外,WAP 訓練出的模型在能力均衡性上也表現出色——STD 降至 6.3,顯著優于如 Claude 3.5 Sonnet(8.6)等閉源大模型,說明它不會“視覺強但空間拉胯”或“常識懂但長程發懵”。
認知維度剖面圖:模型真的“理解”環境了嗎?
為了驗證四大認知增強是否真正內化為智能體能力,研究團隊在多個維度上做了定向評估。
視覺識別:InternVL3 的成功率從 46 提升到 58,表現出更細粒度的物體識別能力。
空間理解:在要求物體相對定位任務中,InternVL3 從 34 提升至 50,顯示出空間語義獲得。
常識推理:Qwen2.5-VL 的表現從 22 飆升到 62,表明模型能聯想物體用途與語義邏輯。
指代歧義消解:在處理“那個容器”等模糊指令時,模型識別準確率從 48 提升到 70,展現出上下文語義追蹤能力。
這不再是“技巧”,而是認知能力的顯性成長痕跡。
長程任務的勝利,它終于不再“忘記過去”
長程規劃任務是具身智能的真正試金石,它考驗的不只是單步決策,而是整套認知鏈的連貫執行。
令人驚喜的是,WAP 訓練出的模型在 15+ 步動作序列任務中取得了高達 70 的成功率,相較基礎模型提升了 35 倍。而 GPT-4o 在閉環場景中則滑落至 24,可見其對“環境反饋”的依賴嚴重阻礙了泛化。
而 WAP 則通過兩項創新克服了這一困境:
完整觀察歷史接入:模型不再只看當下圖像,而是維護因果記憶
多維知識一體化建模:以視覺、空間、功能、語義為柱,支撐復雜決策鏈
這也間接證明了一點:真正的世界建模能力,是突破長程弱點的關鍵。
3.深度分析與洞見
當AI學會自我規劃,它會走多遠?
WAP 框架的一大亮點,是研究者不僅設計了精密的課程式認知增強流程,還進一步嘗試了“放手一搏”的方法——讓模型自己決定該怎么學。這就是所謂的自主增強(Self-Directed Enhancement):不再用人類預設規則,而是依賴模型自身理解任務,再選擇要增強哪個維度的信息(視覺、空間、功能、句法等)。
結果如何?事實說明,自學雖好,但還不夠精細。雖然自主增強在平均成功率上達到 56.7,已超過許多傳統方法,表現可圈可點,但依然顯著落后于顯式課程增強(62.7)。尤其在需要高階推理的任務中(如常識任務:48 vs. 62、長程任務:60 vs. 70),差距一目了然。
這似乎也呼應了現實教育場景:有天賦的學生固然能自學成才,但在面對復雜知識體系時,結構化引導仍是不可或缺的認知放大器。
哪些模塊真正“值回票價”?一場精細的能力拆解
每一個系統性能的躍升背后,都隱藏著關鍵模塊的協同增效。為了厘清“誰是功臣,誰是錦上添花”,研究者進行了一系列精巧的消融實驗。
首先,僅使用“基礎推理”模塊,模型成功率為 47.0,且在不同任務類型上的波動極大(STD 高達 14.0)。這說明:沒有認知增強,模型只是“懂一點皮毛”。
再試試只用“視覺+空間增強”?成功率竟然不升反降,維持在 46.7,但各任務類型之間差距極大(STD 達 17.1),也就是說——模型雖學會“看清”,卻沒學會“怎么做”,認知“偏科”嚴重。
而當作者逐步引入完整推理構造與課程學習后,模型能力整體拉升、各任務類型表現也趨于均衡(最終 STD 降至 6.3)。這意味著:WAP 的關鍵在于把每一項認知能力“串聯成鏈”,只有通過階段式建模才能讓智能體擁有穩定、全局的推理模式,而不是“臨場發揮式”行動者。
一個任務十八步:一顆冰鎮蘋果背后的認知華章
案例最能說明問題。論文中展示的任務是:“把一塊冰鎮的蘋果片放進垃圾桶”。看起來非常簡單?模型真正做到這件事,花了整整 18 個動作。
為什么這么多?原來,這條指令中潛藏著多個隱性要求——“蘋果要先切片”,“切好后要放入冰箱冷藏”,“冰鎮后才能丟棄”等。這些步驟都沒有在語言中直接表達,但模型必須洞察其背后的因果鏈條。
更精彩的是,在第六步里,模型特地先把刀放回桌子再去拿蘋果——表現出了工具使用中的安全意識。最終,它不僅完成了任務,還展示了清晰的推理鏈:
工具識別 → 狀態推斷(是否冰鎮)→ 動作順序計劃 → 任務達成 → 清理現場
這不是單一模型輸出的“偽規劃”,而是具有顯式認知鏈的結構性執行路徑。從“看懂”到“做對”,模型正在向“思考為何如此做”靠近。
優勢之外,也別忽視潛在盲點
正如每項工程的光輝背后都有待打磨的棱角,WAP 雖表現驚艷,但仍有可改進空間。
自監督尚未完全釋放潛力:當前的自主增強能力較弱,表明模型尚未學會精準調度多維知識,還需更細粒度的激活機制;
大模型依賴偏重:目前的大規模預訓練模型(如 Qwen2.5-VL)作為教師模型,對資源要求極高,限制了方法的普適可用性;
語境轉移能力待驗證:雖然在 EB-ALFRED 上表現優異,但是否能泛化到更異構的真實環境(如室外、雜亂辦公區)仍需進一步實驗;
模塊組合的泛化策略:在不同任務條件下,是否能動態裁剪或組合認知模塊以降低成本,也是未來需要解決的問題。
但瑕不掩瑜。整體來看,WAP 所代表的,是從數據效率、推理路徑、決策可解釋性三個維度上,對具身智能的一次系統性重構。
4.結語與展望
——當視覺語言模型具備“世界意識”,它會走向怎樣的未來?
方法總結與核心貢獻
這項研究的最核心貢獻在于,為當前尚顯“機械”的視覺語言模型打開了一扇通向“認知世界建模”的大門。
研究團隊以一種結構化敘事增強框架為引擎,賦予了 LVLM 四項關鍵認知能力。
- 能看清(視覺外觀)
- 能看懂(空間布局)
- 能想通(功能抽象)
- 能聽明白(句法語義)
更關鍵的是,他們沒有依賴特權反饋、輔助通道或任務提示,而是依靠純粹的視覺輸入與語言指令,訓練出了在多步驟任務中展現連貫決策邏輯的模型。這使得 LVLM 首次在閉環環境中實現了“理解式行動規劃”,而非模板匹配式反應。
實驗數據佐證一切:在 EB-ALFRED 的所有任務子集上,WAP 都大幅提升了成功率與任務泛化穩定性,尤其在長程、多步驟、模糊語言與復雜因果任務中,表現出逼近甚至超越閉源模型的統合能力。可以說,這是一場模型范式與訓練理念的“雙重勝利”。
圖片
圖2:復雜指令執行的推理過程可視化。該圖顯示了我們的模型執行“將冷藏蘋果放入垃圾桶”的指令。該模型成功地將這個看似簡單的指令分解為三個階段的18個不同動作,展示了強大的規劃能力。推理注釋強調了五種關鍵的認知能力:任務分解、功能理解、情境意識、對象屬性推理和常識知識應用。
這個例子說明了我們的模型如何在處理指令中未明確規定的隱含要求(例如,蘋果在處置前必須冷藏)的同時,在很長一段時間內(18個步驟)保持連貫的規劃。
對具身智能與多模態規劃研究的啟示
這一研究無疑為具身智能研究注入了三劑“強心針”。
它重新強調了“世界模型”的必要性,在純視覺—語言對話系統中或許可以靠對齊數據完成任務,但在需要真實互動、狀態追蹤與目標保持的具身環境中,沒有環境表征等于“盲人摸象”。
它印證了“認知結構化數據增強”的有效性。過去大家普遍認為大模型的泛化依賴大數據,但本研究展示了:有結構、有維度、有課程的認知引導式樣本,更能塑造出有規劃能力的智能體。這給了教育式 AI 訓練范式更多信心。
它為“閉環智能”提供了現實突破路徑。當前很多系統仍嚴重依賴任務成功信號、指令分段提示等“外掛”,WAP 的閉環機制,證明了單靠圖像與語言,也能構建穩定的執行策略。這對機器人導航、家庭助理等不具備輔助感知通道的真實部署系統尤為關鍵。
走向更強、更穩、更可信賴的智能體
當然,研究本身仍留下了令人期待的余地。
首先是自我監督能力的增強。當前的自主增強機制雖然已初具成效,但相比顯式課程機制仍有明顯差距。未來可探索讓模型主動識別自身知識盲區,并針對性生成認知維度挑戰,以實現真正的“學習型體感智能”。
其次是跨環境與跨任務的魯棒遷移。EB-ALFRED 是優秀的起點,但其結構相對規整。能否將 WAP 應用于更嘈雜、真實、多領域的環境中(如工廠、醫院、交通空間等)是下階段要邁出的關鍵一步。
最后不能忽視的,是倫理與安全議題。當模型具備了越來越強的“世界建模”能力,其誤解、誤判或偏見也可能帶來“認知層面”的風險。例如,在判斷任務目標時是否尊重隱私?在推理“常識”時是否體現文化中立?這些問題都值得伴隨技術前進同步思考。



























