當“駱駝打包行李”難倒AI:ImagerySearch如何讓視頻模型學會想象?

大家好,我是肆〇柒。今天我們一起閱讀一篇來自中國科學院大學(UCAS)、阿里巴巴高德地圖(AMAP)與中科院智能系統與工程研究中心(CRISE) 聯合團隊的最新工作——《ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints》。這項研究直面當前視頻生成模型在“想象力任務”中的系統性失效,提出了一種無需額外訓練、僅靠測試時自適應策略即可顯著提升長距離語義生成能力的新范式。
當提示為“駱駝在沙漠行走”時,Wan2.1能生成合理視頻;但當提示僅改變一個動詞,變為“駱駝打包行李”時,模型便徹底失效——生成的仍是駱駝行走的普通場景,完全忽略了“打包”這一關鍵動作。

長距離語義提示挑戰
上圖直觀揭示了這一困境:左側短距離語義提示(語義距離0.3)下,模型表現穩健;右側長距離語義提示(語義距離0.86)下,Wan2.1及現有測試時擴展方法(VideoT1、EvoSearch)均無法正確生成“打包”動作,而ImagerySearch則能生成駱駝用鼻子和前蹄整理行李的連貫動作(上圖右下角橙色框)。這種“最小語義改動引發最大生成差異”的現象,暴露了當前文本到視頻(T2V)生成模型的核心瓶頸:它們擅長復現現實,卻難以理解人類的想象力。
長距離語義為何成為T2V模型的致命短板?
長距離語義提示具有明確的定義特征:對象與動作間語義距離大(如“交通燈跳舞”)、實體在訓練數據中極少共現(ImageNet+Kinetics組合)、平均語義距離達0.86,遠超現實場景基準(0.3-0.4)。這種提示代表了人類想象力的核心——將通常不會共現的概念進行創造性組合,而正是這種能力使人類能夠超越現實經驗進行思考和表達。
生成模型在處理這類提示時面臨兩大核心挑戰。首先是模型語義依賴約束:生成模型對長距離語義提示表現出強語義依賴約束,難以泛化到訓練分布之外的想象力場景。也就是,當提示中對象與動作之間存在長距離語義關系時,模型往往無法建立正確的關聯,導致“語義漂移”現象。例如,“駱駝打包行李”這一提示中,“駱駝”與“打包”的語義距離較大,模型傾向于忽略“打包”動作,轉而生成“駱駝在沙漠行走”等更常見的場景。這一現象源于擴散模型在訓練過程中主要學習現實世界中常見的語義組合,對于罕見的、創造性的語義關系缺乏建模能力。
其次是想象力訓練數據稀缺:

如(d)所示-不同基準數據集分布對比
如上圖(d)所示,清晰展示了這一問題。主流視頻數據集(如ImageNet-1K、Kinetics-600、ActivityNet等)主要包含現實場景,提供有限的想象力組合,這些組合通常具有長距離語義關系。數據顯示,現有訓練數據中長距離語義關系的覆蓋率極低,導致模型缺乏處理此類提示的訓練經驗。在ImageNet-1K和Kinetics-600的組合中,對象-動作對的平均語義距離僅為0.3-0.4,而LDT-Bench中的平均語義距離高達0.86,表明現實數據集與想象力場景之間存在巨大差距。
現有方法的局限性進一步加劇了這一問題。傳統測試時搜索(TTS)方法(如VideoT1、EvoSearch)使用固定搜索空間和靜態獎勵函數,無法適應開放式的創意生成需求。這些方法假設所有提示具有相似的復雜度,采用統一的搜索策略和評估標準,忽視了長距離語義提示所需的額外認知資源。例如,VideoT1在所有提示上使用相同的采樣數量(N=10)和固定的獎勵函數,而EvoSearch雖然引入了進化算法,但其搜索空間和獎勵機制仍然是靜態的,無法針對不同語義復雜度的提示進行自適應調整。
與之形成鮮明對比的是,人類心智意象構建理論指出:對語義距離大的概念(這也許標志了想象力??),人類需投入更多認知資源構建心理意象。這一認知原理為解決長距離語義生成問題提供了關鍵啟示:模型需要根據提示的語義復雜度動態調整搜索策略,為復雜提示分配更多計算資源,同時保持簡單提示的效率。
基于這一認知科學發現,研究者提出了ImagerySearch方法,將人類構建心理意象的過程轉化為可計算的工程實現:當面對語義距離較大的提示時,系統自動擴大搜索空間并調整評估標準,模擬人類投入更多認知資源的過程。
ImagerySearch核心機制
ImagerySearch的核心思想是將人類心智意象構建的認知原理轉化為可計算的工程實現。

ImagerySearch系統架構
上圖展示了其整體工作流程:提示通過約束語義評分器計算語義距離D?_sem,同時輸入到T2V骨干網絡(Wan2.1);在Imagery scheduler指定的每個時間步t,系統采樣一組候選片段,根據與D?_sem條件相關的獎勵函數進行排序,并僅保留由D?_sem控制的子集;該循環重復直到生成完成。這一設計使模型能夠根據提示的語義復雜度動態調整搜索策略,顯著提升長距離語義提示的生成質量。
語義距離 D?_sem(p) 是 ImagerySearch 的核心調控變量,它像一個“認知難度計”,實時測量提示的想象力挑戰程度。當 D?_sem(p) 接近 0.3(短距離語義)時,系統保持高效精簡的搜索;當 D?_sem(p) 超過 0.8(長距離語義)時,系統自動激活全面的探索模式,為模型提供足夠的“認知資源”來構建復雜的心理意象。
SaDSS(Semantic-distance-aware Dynamic Search Space)
為克服固定搜索空間在高語義距離下探索不足的問題(見下圖),SaDSS動態擴大采樣數量,其核心創新在于根據提示的語義跨度自適應調節采樣粒度,使模型在需要時探索更多樣化的視覺假設,提高復雜條件下的視覺合理性,同時避免對簡單提示產生不必要的計算開銷。


如上圖b-運動質量指標變化
語義距離的精準計算是SaDSS的基礎。如下是這一計算過程:

其中,?(·)表示T5編碼器嵌入函數,E是提示中關鍵實體對集合(如對象-動作對、動作-動作對)。在實現中,研究者將高維嵌入通過PCA投影到2D共享語義空間,這一選擇基于對不同維度投影效果的實驗驗證。PCA不僅保留了語義關系的主要特征,還提供了直觀的可視化能力,便于篩選高質量的長距離語義提示。在2D空間中,語義相似的概念會自然聚集,而語義距離遠的概念則相距較遠,這種可視化特性對構建LDT-Bench至關重要。然后計算歐氏距離作為語義距離度量。
關鍵實體對的提取過程經過精心設計:系統首先通過關鍵詞提取器從提示中識別出對象和動作實體,例如在“駱駝打包行李”中,識別出“駱駝”(對象)和“打包”(動作)作為關鍵實體。然后,計算這些實體在T5編碼器嵌入空間中的距離。為了確保距離計算的準確性,系統排除了介詞、冠詞等語法詞,只關注具有實際語義的詞匯。
基于這一度量,SaDSS動態調整候選視頻數量:

語義距離越大,候選視頻數量越多。例如,當D?_sem(p)=0.86(長距離語義)時,Nt=1.86×Nbase;而當D?_sem(p)=0.3(短距離語義)時,Nt=1.3×Nbase。這種設計實現了智能平衡:簡單提示保持高效,復雜提示擴大探索范圍。
關鍵實現細節表明,ImagerySearch在關鍵噪聲級別{5, 10, 20, 45}處激活搜索,這些特定點的選擇基于對擴散過程的系統分析:在去噪早期階段(如t=45),模型主要確定視頻的整體結構和內容;中期(t=20-10)影響動作的連貫性和時序關系;晚期(t=5)則細化視覺細節。通過在這些關鍵階段引入搜索機制,ImagerySearch能在最能影響語義對齊的環節進行自適應調整,同時保持計算效率。在每個關鍵噪聲級別,系統根據當前D?_sem(p)動態確定采樣數量,然后對候選視頻進行評估和篩選。
也就是,在擴散模型的去噪過程中,早期噪聲級別(如t=45)主要影響視頻的整體結構和內容,而后期噪聲級別(如t=5)則影響細節和視覺質量。ImagerySearch在這些關鍵點引入搜索機制,確保在最能影響語義對齊的階段進行自適應調整。例如,對于“交通燈跳舞”這樣的長距離語義提示,系統在t=45時可能采樣30個候選(Nbase=16, D?_sem=0.86),而在t=5時可能采樣18個候選,以確保在關鍵階段有足夠的探索空間。
AIR(Adaptive Imagery Reward)
為解決靜態獎勵無法保障關鍵元素生成的語義漂移問題,AIR將語義距離融入獎勵加權,通過根據提示語義難度調制評估反饋,增強生成視頻與長距離語義提示的對齊,是解決“語義漂移”問題的關鍵。論文中詳細闡述了這一創新組件:

其中,MQ、TA和VQ分別代表Motion Quality(運動質量)、Temporal Alignment(時序對齊)和Visual Quality(視覺質量),這些指標源自VideoAlign;Rany表示可擴展獎勵(如VideoScore、VMBench等)。
關鍵創新在于動態權重機制:α、β、γ和ω根據語義距離D?_sem動態調整。對于長距離語義提示,系統會強化語義對齊獎勵(如TA),降低對視覺質量的過度關注,從而解決“語義漂移”問題。具體而言,當D?_sem較高時,系統會增加β的權重,使模型更注重時序對齊,確保生成的視頻準確反映提示中的語義關系。
AIR的實現包含一個自適應權重調度器,根據D?_sem(p)動態調整各獎勵成分的貢獻。例如,當D?_sem(p)>0.7時,系統將β(TA的權重)提升至0.6,而將γ(VQ的權重)降低至0.2;當D?_sem(p)<0.4時,系統則將β降低至0.3,γ提升至0.4。這種動態調整確保了獎勵函數能夠根據提示的語義復雜度進行自適應變化。


如上圖f-獎勵權重變化影響分析
上圖(f)展示了這一機制的有效性:當獎勵權重在0.2-1.2范圍內變化時,ImagerySearch的TA(時序對齊)指標顯著提升,而MQ和VQ保持穩定。這一結果證明,ImagerySearch對獎勵參數變化具有魯棒性,能夠根據提示的語義難度自適應調整評估標準。
AIR的另一個關鍵特性是其與SaDSS的協同作用。SaDSS負責擴大搜索空間以探索更多可能性,而AIR則負責從這些可能性中選擇最符合語義要求的結果。這種協同機制使ImagerySearch能夠在保持計算效率的同時,顯著提升長距離語義提示的生成質量。
例如,在生成“本地熊熟練使用遙控器”這一提示時,SaDSS會根據高語義距離(D?_sem≈0.88)擴大搜索空間,生成多個候選視頻片段,其中可能包括熊拿著遙控器但未操作、熊操作其他設備、或正確操作遙控器等不同場景。然后,AIR會根據高β權重(強調時序對齊),優先選擇那些熊與遙控器互動關系正確的候選,確保最終生成的視頻準確呈現“熊使用遙控器”的語義關系。
LDT-Bench:首個面向長距離語義的視頻生成評測基準
為系統評估模型在長距離語義提示下的表現,研究者構建了LDT-Bench,這是首個專門針對此類任務的評測基準。LDT-Bench的構建流程包含三個關鍵階段,每個階段都經過精心設計以確保提示的質量和多樣性。
上圖(a)-LDT-Bench元信息提取流程
上圖(a)展示了第一個階段:元信息提取。研究者從ImageNet-1K和COCO中提取1,938個對象,從ActivityNet、UCF101和Kinetics-600中收集901個動作。這些集合為后續提示生成奠定了基礎。具體來說,對象集覆蓋了廣泛的類別,從常見的“駱駝”、“交通燈”到較少見的“水母”、“風車”;動作集則包括了“行走”、“跳舞”等基本動作,以及“打包”、“使用遙控器”等復雜動作。
在語義距離計算階段,每個對象和動作元素通過預訓練T5文本編碼器編碼,獲取高維文本特征,然后通過PCA投影到2D共享語義空間。語義距離通過計算元素對之間的歐氏距離來度量。這種投影方法不僅保留了語義關系,還提供了直觀的可視化能力,有助于篩選高質量的長距離語義提示。
投影過程的具體實現是:首先將每個對象和動作文本通過T5編碼器轉換為768維向量,然后使用PCA將這些向量降維到2D空間。選擇2D空間是因為它在保持語義距離區分度的同時,提供了直觀的可視化能力,便于人工篩選和驗證。在2D空間中,語義相似的概念會聚集在一起,而語義距離遠的概念則相距較遠。
上圖(b)-LDT-Bench長距離提示生成流程
上圖(b)詳細展示了第二個階段:長距離提示生成。研究者構建了兩個候選集:一個通過將每個對象與語義距離最遠的動作配對(1,938個對象-動作對),另一個通過匹配語義距離最遠的動作對(901個動作-動作對)。從每個集合中選擇160個距離最遠的對,形成320個高距離提示。隨后,GPT-4o用于生成流暢完整的文本提示,每個提示經過DeepSeekR1和人工雙重校驗確保質量。
提示生成過程經過嚴格的質量控制:首先,GPT-4o根據對象-動作對生成初始提示;然后,DeepSeekR1對提示進行語法和語義校驗,過濾掉不符合語言習慣或邏輯矛盾的提示;最后,人工標注者進行最終驗證,確保提示既具有長距離語義特性,又保持語言流暢性。這一雙重校驗機制確保了LDT-Bench中2,839個提示的高質量和多樣性。
上圖(e)-LDT-Bench語義距離分布對比
上圖(e)清晰展示了LDT-Bench與其他基準的語義距離分布對比:LDT-Bench的語義距離分布明顯右移,峰值出現在0.8-0.9區間,而VBench、EvalCrafter等其他基準多集中在0.3-0.5區間。這一可視化證據有力支持了LDT-Bench專注于長距離語義任務的定位。具體數據對比顯示:
LDT-Bench: 2,839提示 | 1,938對象 | 901動作 | ASD=0.86
VBench: 800對象 | ASD=0.33
EvalCrafter: 700對象 | ASD=0.4其中ASD(Average Semantic Distance)表示平均語義距離,LDT-Bench的0.86遠高于其他基準,證明其專注于最具挑戰性的長距離語義提示。
為全面評估模型表現,研究者開發了ImageryQA評測體系,包含三個維度:
- ElementQA:使用Qwen2.5-VL-72B-Instruct檢查元素覆蓋(如“交通燈是否出現?是否在跳舞?”)
- AlignQA:采用Q-Align評估視覺質量和美學
- AnomalyQA:利用GPT-4o識別異常內容(如“熊使用遙控器”的合理性)
上圖(c)-ImageryQA評估框架工作流程
上圖(c)詳細展示了這一自動化評估系統:首先基于文本提示生成針對性問題,然后多模態大語言模型分析生成視頻并回答問題,最后系統將回答轉化為量化評估結果。例如,對于“交通燈跳舞”這一提示,ElementQA會生成兩個問題:“視頻中是否出現交通燈?”和“交通燈是否在跳舞?”,然后由Qwen2.5-VL-72B-Instruct分析生成視頻并給出是/否答案。
每個維度的評估都有其特定的技術實現:ElementQA側重于基礎語義內容的覆蓋情況,使用Qwen2.5-VL-72B-Instruct作為評估模型,該模型在視覺-語言理解任務上表現出色;AlignQA關注視頻的視覺質量和美學,采用專門優化的Q-Align模型,該模型經過大量人類偏好數據訓練;AnomalyQA則利用GPT-4o的強大推理能力,識別視頻中不符合邏輯或物理規律的異常內容。
實驗結果與深度分析

在LDT-Bench上的量化對比顯示,ImagerySearch實現了最佳的平均性能表現
如下圖所示,ImagerySearch在“熊使用遙控器”提示下,準確生成了前爪操作動作,而基線模型僅呈現靜態持握。這一差異直接反映在LDT-Bench的ElementQA指標上——ImagerySearch以2.01%領先基線1.66%,證明其對關鍵動作元素的捕捉能力。LDT-Bench上的性能對比(上表)提供了ImagerySearch有效性的直接證據。數據顯示,ImagerySearch得分為57.11%(ElementQA 2.01% | AlignQA 36.82% | AnomalyQA 18.28%),比基線Wan2.1(48.28%)提升8.83%,也優于VideoT1(54.75%)和EvoSearch(54.48%)。特別值得注意的是,ImagerySearch在元素覆蓋(ElementQA)上的提升尤為顯著,證明其語義對齊能力明顯增強。這一結果與核心機制設計直接相關:SaDSS擴大了搜索空間,使模型能夠探索更多可能的語義組合;而AIR則確保了這些組合的語義正確性。

長距離語義提示生成案例
ElementQA的提升最為關鍵,因為這一指標直接衡量模型是否生成了提示中指定的元素。ImagerySearch在ElementQA上達到2.01%,雖然絕對值不高,但相對于基線1.66%的提升表明,模型在生成長距離語義提示的關鍵元素方面取得了實質性進步。例如,在“駱駝打包行李”這一提示中,基線模型完全忽略了“打包”動作,而ImagerySearch能夠生成駱駝用鼻子和前蹄整理行李的合理動作。
在VBench上的全面評估進一步驗證了ImagerySearch的有效性。數據顯示,ImagerySearch得分為83.48%(動態程度84.05% | 主體一致性95.90%),優于EvoSearch(82.08%)等方法。尤其在動態程度、主體一致性等維度表現最優,證明其能準確呈現指定主體及其動作。這一結果表明,ImagerySearch不僅在長距離語義提示上表現優異,在常規提示上也具有競爭力。
下圖(a)展示了語義距離魯棒性測試結果:隨著語義距離增加,ImagerySearch保持穩定性能,而其他方法性能波動劇烈。這一發現具有重要實踐意義——在實際應用中,用戶無論輸入簡單還是復雜提示,都能獲得一致體驗,而其他方法在復雜提示下可能完全失效。例如,當語義距離從0.3增加到0.9時,Wan2.1的性能下降了約25%,而ImagerySearch僅下降了約5%,證明其對長距離語義的魯棒性。


(a)不同模型在語義距離變化下的表現。隨著語義距離的增加,論文方法保持了最穩定的性能。(b-e)自適應意象獎勵(AIR)始終展現出卓越的性能。ImagerySearch和基線方法在推理計算量增加時的性能變化。從左到右,y軸分別表示運動質量(MQ)、時序對齊(TA)、視覺質量(VQ)和綜合評分(VideoAlign(Liu et al., 2025b))的變化。(f)獎勵權重的影響
上圖共同揭示了ImagerySearch的測試時擴展特性:隨著推理時計算量(以函數評估次數NFEs衡量)的增加,ImagerySearch在運動質量(MQ)、時序對齊(TA)和視覺質量(VQ)等指標上均表現出單調的性能提升。而在Wan2.1上,ImagerySearch隨著NFEs的增長持續獲得改進,而基線方法在約1×103 NFEs(對應第30個時間步)后達到平臺期。
這一“無平臺期”特性對實際部署具有重要指導意義——在計算資源充足的場景(如專業視頻創作),可以顯著增加采樣數量以獲得更高質量的輸出;而在資源受限的場景(如移動端應用),則可以適當減少采樣以保持效率,系統會自動根據語義距離調整資源分配策略。
消融實驗(下表)提供了機制有效性的直接證據。動態搜索空間(83.48%)明顯優于固定大小(81.22%),這一差距(約2.26%)比與基線模型的差距(4.95%)更能說明動態調整機制的價值。具體而言,當處理“駱駝打包行李”這類高語義距離提示時(D?_sem=0.86),SaDSS會將候選視頻數量增加至1.86倍,使模型能夠探索更多可能的“打包”動作變體;而AIR則確保篩選出那些駱駝與行李互動關系正確的候選。這種協同機制使模型在關鍵語義環節獲得更充分的探索空間,同時保持對語義對齊的嚴格要求。

消融實驗
此外,上表中的“Search”部分比較了Best-of-N、Particle Sampling等替代搜索策略,數據顯示ImagerySearch在這些對比中均表現最佳,表明針對長距離語義任務需要專門設計的搜索策略,而非簡單應用現有方法。
下圖可視化案例深度剖析揭示了ImagerySearch的實際效果。以“The native bear skillfully uses remote controls.”(本地熊熟練使用遙控器)為例,Wan2.1無法正確呈現“熊”與“遙控器”的互動關系,VideoT1和EvoSearch仍存在語義漂移問題,而ImagerySearch準確生成了熊操作遙控器的連貫動作。
在“The camel packs its belongings with care.”案例中,ImagerySearch的生成過程展現了其對語義結構的精細理解。

長距離語義提示生成案例
上圖顯示,Wan2.1完全忽略了“打包”動作,僅生成駱駝行走的普通場景;而ImagerySearch準確捕捉到了“打包”這一復雜動作的多個關鍵環節:在t=45時,系統識別出高語義距離(D?_sem=0.86),將候選數量增至30個;在t=20時,AIR通過高β權重(強調時序對齊)篩選出那些包含駱駝與行李互動的候選;在t=10時,系統進一步細化動作細節,確保駱駝使用鼻子和前蹄整理行李的動作連貫合理;最終在t=5時,完成細節優化。這一過程完美體現了SaDSS和AIR的協同作用如何逐步構建出符合長距離語義提示的視頻內容。
總結:對生成式AI研究的啟示
ImagerySearch的價值不僅在于提升8.83%的分數,更在于證明:即使訓練數據局限于現實世界,通過模擬人類構建心理意象的認知過程,AI也能在測試時“想象”出訓練分布之外的合理場景。這為生成式AI從“現實復現者”邁向“創意協作者”提供了可行路徑。
這一成果對生成式AI研究具有重要啟示:未來T2V系統應更關注“語義結構感知”的推理機制,使模型能夠理解提示中實體之間的復雜關系;測試時搜索策略設計需考慮提示的語義復雜度,為不同難度的提示分配適當的計算資源;動態獎勵機制對解決語義漂移問題至關重要,應根據提示的語義難度調整評估標準。
研究者開源了LDT-Bench和ImagerySearch代碼,為社區提供標準化評測工具和方法,填補了長距離語義評測空白,推動創意視頻生成研究。LDT-Bench不僅提供了2,839個精心篩選的長距離語義提示,還包含完整的評估協議ImageryQA,使研究者能夠系統地評估模型在想象力任務上的表現。
未來,可以繼續探索更靈活的獎勵機制,進一步增強視頻生成的創意能力。隨著這一方向的持續發展,生成式AI有望突破現有局限,將“熊貓在火星沙塵暴中演奏小提琴”這樣的超現實想象轉化為高質量的視覺內容,開啟創意表達的新路徑。ImagerySearch不僅是技術上的突破,更是對AI如何理解和呈現人類想象力的一次重要探索。通過將人類心智意象構建的認知原理轉化為可計算的工程實現,ImagerySearch為解決生成式AI中的長尾分布問題提供了新思路。這一工作表明,即使在訓練數據有限的情況下,通過智能的測試時推理策略,模型也能超越訓練分布的限制,展現出更接近人類的想象力和創造力。隨著這一研究方向的深入,我們有望看到AI系統在創意內容生成領域實現質的飛躍,真正成為人類創造力的延伸和增強。


































