突破全模態(tài)AI理解邊界:引入上下文強(qiáng)化學(xué)習(xí),賦能全模態(tài)模型“意圖”推理新高度
在多模態(tài)大語(yǔ)言模型(MLLMs)應(yīng)用日益多元化的今天,對(duì)模型深度理解和分析人類(lèi)意圖的需求愈發(fā)迫切。盡管強(qiáng)化學(xué)習(xí)(RL)在增強(qiáng)大語(yǔ)言模型(LLMs)的推理能力方面已展現(xiàn)出巨大潛力,但將其有效應(yīng)用于復(fù)雜的多模態(tài)數(shù)據(jù)和格式仍面臨諸多挑戰(zhàn)。
在深入研究現(xiàn)有技術(shù)后,發(fā)現(xiàn)在當(dāng)前多模態(tài)推理模型中發(fā)現(xiàn)現(xiàn)有的推理路徑存在兩大核心問(wèn)題:全局上下文理解不足和捷徑問(wèn)題。

全局上下文理解不足: 當(dāng)模型無(wú)法準(zhǔn)確識(shí)別或錯(cuò)誤解讀多模態(tài)證據(jù)和上下文信息時(shí),便會(huì)出現(xiàn)此問(wèn)題,導(dǎo)致給出不正確的答案。
捷徑問(wèn)題: 指模型在處理多模態(tài)輸入時(shí),忽視了關(guān)鍵線索,未充分考量多模態(tài)信息就直接給出答案,從而導(dǎo)致次優(yōu)或片面的結(jié)果
為徹底解決這些痛點(diǎn),阿里巴巴通義實(shí)驗(yàn)室團(tuán)隊(duì)推出HumanOmniV2,強(qiáng)調(diào)模型必須在對(duì)多模態(tài)輸入全局上下文有清晰理解的基礎(chǔ)上進(jìn)行推理。這種全局性理解能夠有效避免模型遺漏關(guān)鍵多模態(tài)線索,確保推理過(guò)程的全面性和深入性。
相關(guān)代碼、模型、數(shù)據(jù)都開(kāi)源,地址可在文末獲取。
效果展示
問(wèn)題:這兩個(gè)人是什么關(guān)系?
A. 他們想引起人們對(duì)該產(chǎn)品的關(guān)注。
B. 這兩個(gè)人是商業(yè)伙伴,他們正試圖推銷(xiāo)他們的產(chǎn)品。
C. 他們?cè)谕其N(xiāo)另一種產(chǎn)品。
D. 看起來(lái)他們剛認(rèn)識(shí),以便他能在她的節(jié)目中展示他的產(chǎn)品。

創(chuàng)新與優(yōu)勢(shì)
- 強(qiáng)制上下文總結(jié)與全模態(tài)推理
為實(shí)現(xiàn)這一目標(biāo),要求模型在推理之前,首先在一個(gè)標(biāo)簽內(nèi)輸出其對(duì)上下文信息的概括。這種強(qiáng)制性的上下文理解能夠有效避免模型跳過(guò)關(guān)鍵的多模態(tài)輸入信息,并在隨后的推理過(guò)程中提供全面的全局背景支持。
- 多維度獎(jiǎng)勵(lì)機(jī)制引導(dǎo)
為了確保模型準(zhǔn)確理解多模態(tài)上下文信息,引入了上下文獎(jiǎng)勵(lì) (Context Reward),并與格式獎(jiǎng)勵(lì) (Format Reward) 和準(zhǔn)確性獎(jiǎng)勵(lì) (Accuracy Reward) 協(xié)同作用。上下文獎(jiǎng)勵(lì)通過(guò)LLM進(jìn)行評(píng)估,對(duì)比模型輸出的上下文與參考上下文的一致性,從而引導(dǎo)模型提升上下文理解能力。
- 復(fù)雜邏輯推理能力激勵(lì)
此外,為激勵(lì)模型發(fā)展更復(fù)雜的推理能力,還利用LLM評(píng)估其推理過(guò)程是否成功融合了多模態(tài)信息,并應(yīng)用了反思、演繹、歸納等高級(jí)邏輯分析技術(shù)。其中,上下文獎(jiǎng)勵(lì)的計(jì)算基于生成文本的上下文部分,而邏輯獎(jiǎng)勵(lì)則關(guān)聯(lián)到生成文本的上下文和推理兩部分。
- 優(yōu)化的GRPO訓(xùn)練策略
基于Qwen2.5-Omni-Thinker,對(duì)GRPO訓(xùn)練方法進(jìn)行了關(guān)鍵改進(jìn),包括引入令牌級(jí)損失以克服長(zhǎng)序列不平衡、移除問(wèn)題級(jí)歸一化項(xiàng)以消除優(yōu)化偏差,并應(yīng)用動(dòng)態(tài)KL散度以提升探索能力和訓(xùn)練穩(wěn)定性,從而全面提升了模型的訓(xùn)練效率、公平性與魯棒性。
核心方法

在模型設(shè)計(jì)方面,以Qwen2.5-Omni-Thinker為基礎(chǔ)模型,并在此基礎(chǔ)上,對(duì)GRPO (Group Relative Policy Optimization)的基于最新研究的改進(jìn),以實(shí)現(xiàn)更高效、更穩(wěn)定的訓(xùn)練
首先,為了有效應(yīng)對(duì)長(zhǎng)序列訓(xùn)練中普遍存在的不平衡問(wèn)題,引入令牌級(jí)損失(Token-level Loss),這種細(xì)粒度的損失計(jì)算能夠確保在處理長(zhǎng)樣本數(shù)據(jù)時(shí),模型對(duì)每個(gè)Token的學(xué)習(xí)都能得到充分且平衡的優(yōu)化,避免某些部分因序列過(guò)長(zhǎng)而被忽視,從而顯著提升了訓(xùn)練的效率和質(zhì)量。
其次,移除了傳統(tǒng)的問(wèn)題級(jí)歸一化項(xiàng)(Question-level Normalization Term)。經(jīng)驗(yàn)表明,該歸一化項(xiàng)可能導(dǎo)致不同問(wèn)題在目標(biāo)函數(shù)中擁有差異化的權(quán)重,進(jìn)而引入優(yōu)化上的難度偏差,影響模型對(duì)不同難度的學(xué)習(xí)效率。通過(guò)取消這一項(xiàng),確保了優(yōu)化過(guò)程對(duì)所有問(wèn)題的一致性,從而促進(jìn)模型更全面、更公平地學(xué)習(xí)和理解各類(lèi)問(wèn)題。
此外,為了進(jìn)一步提升模型探索能力并確保訓(xùn)練穩(wěn)定性,巧妙地引入了動(dòng)態(tài)KL散度(Dynamic KL Divergence)策略。這一機(jī)制能夠有效避免在訓(xùn)練初期過(guò)度限制模型的自由探索空間,充分發(fā)揮其潛力;同時(shí),也能防止在訓(xùn)練后期模型行為出現(xiàn)發(fā)散,確保訓(xùn)練過(guò)程的穩(wěn)健性。動(dòng)態(tài)KL散度的應(yīng)用使得模型在整個(gè)訓(xùn)練周期內(nèi)能夠進(jìn)行更充分的策略探索,并顯著提升了訓(xùn)練的穩(wěn)健性。
構(gòu)建基于全局上下文的強(qiáng)化推理范式:針對(duì)現(xiàn)有模型全局上下文理解不足和推理捷徑問(wèn)題,提出了一套創(chuàng)新的推理范式,包括:
強(qiáng)制性結(jié)構(gòu)化響應(yīng)格式(……),要求模型顯式地總結(jié)多模態(tài)上下文并進(jìn)行反思性邏輯推理;
LLM驅(qū)動(dòng)的多維獎(jiǎng)勵(lì)機(jī)制,為確保模型準(zhǔn)確解讀多模態(tài)上下文信息,引入了由大語(yǔ)言模型判斷的上下文獎(jiǎng)勵(lì)(Context Reward),并輔以格式獎(jiǎng)勵(lì)(Format Reward)和準(zhǔn)確性獎(jiǎng)勵(lì)(Accuracy Reward)。這使得模型能在生成響應(yīng)時(shí),更好地對(duì)齊人類(lèi)的意圖和偏好。為了提升模型的復(fù)雜推理能力,進(jìn)一步利用LLM評(píng)估其推理過(guò)程是否成功融合了反思、演繹、歸納等高級(jí)邏輯方法與多模態(tài)信息,提供邏輯性獎(jiǎng)勵(lì)(Logical Reward)。通過(guò)上下文獎(jiǎng)勵(lì)和邏輯獎(jiǎng)勵(lì)(結(jié)合因果掩碼精確應(yīng)用)來(lái)精確評(píng)估和激勵(lì)模型對(duì)多模態(tài)上下文的理解以及復(fù)雜的邏輯推理能力。
構(gòu)建高質(zhì)量數(shù)據(jù)集與基準(zhǔn)
訓(xùn)練MLLMs進(jìn)行推理極具挑戰(zhàn),主要原因在于缺乏大規(guī)模的人工標(biāo)注推理數(shù)據(jù)。為此,創(chuàng)新性地構(gòu)建了一個(gè)全模態(tài)推理訓(xùn)練數(shù)據(jù)集,其中包含了圖像、視頻和音頻的理解任務(wù),并融入了豐富的上下文信息,以支持模型在復(fù)雜場(chǎng)景下的推理學(xué)習(xí)。該數(shù)據(jù)集同時(shí)提供了多模態(tài)輸入的總結(jié)和推理路徑,適用于模型的冷啟動(dòng)訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。
在開(kāi)發(fā)全模態(tài)推理模型時(shí)面臨的另一個(gè)挑戰(zhàn)是缺乏有效的相關(guān)基準(zhǔn)來(lái)評(píng)估其性能。為此,隆重推出了IntentBench,一個(gè)創(chuàng)新性的全模態(tài)基準(zhǔn),旨在評(píng)估模型在復(fù)雜場(chǎng)景中理解人類(lèi)行為和意圖的能力。該基準(zhǔn)包含633個(gè)視頻和2,689個(gè)相關(guān)問(wèn)題,這些問(wèn)題緊密關(guān)聯(lián)視頻中的聽(tīng)覺(jué)和視覺(jué)線索,并要求模型對(duì)全局上下文、細(xì)致觀察和復(fù)雜社會(huì)關(guān)系有深刻的理解和推理。與主要側(cè)重于一般感知場(chǎng)景的Daily-Omni 和 WorldSense 相比,IntentBench更專(zhuān)注于評(píng)估全模態(tài)模型理解和推理復(fù)雜人類(lèi)意圖和情感的能力。
實(shí)驗(yàn)與結(jié)果
HumanOmniV2 在多個(gè)基準(zhǔn)數(shù)據(jù)集上取得了突破性成果,它在開(kāi)源全模態(tài)模型中取得了最佳性能,在Daily-Omni上達(dá)到58.47%,在WorldSense上達(dá)到47.1%,在全新引入的IntentBench上更是高達(dá)69.33%。相比當(dāng)前其他開(kāi)源全模態(tài)模型取得了顯著領(lǐng)先的成果。這標(biāo)志著多模態(tài)AI在理解人類(lèi)復(fù)雜意圖方面邁出了堅(jiān)實(shí)一步,為未來(lái)更智能、更人性化的人工智能應(yīng)用奠定了基礎(chǔ)。



核心貢獻(xiàn)總結(jié):
創(chuàng)新性的推理范式: 提出模型在推理之前應(yīng)先對(duì)多模態(tài)輸入進(jìn)行上下文總結(jié),旨在解決跳過(guò)關(guān)鍵多模態(tài)信息和上下文理解不足的問(wèn)題。同時(shí),通過(guò)上下文獎(jiǎng)勵(lì)和邏輯獎(jiǎng)勵(lì)激勵(lì)模型準(zhǔn)確總結(jié)上下文并促進(jìn)復(fù)雜推理。
高質(zhì)量數(shù)據(jù)集與評(píng)測(cè)基準(zhǔn): 提供了一個(gè)包含多模態(tài)輸入總結(jié)和推理路徑的全模態(tài)推理訓(xùn)練數(shù)據(jù)集,適用于冷啟動(dòng)訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。此外,還精心策劃了一個(gè)以人為中心的全模態(tài)評(píng)估基準(zhǔn)IntentBench,它要求模型同時(shí)理解視頻和音頻、全局上下文、復(fù)雜的社會(huì)關(guān)系以及細(xì)致的觀察。
領(lǐng)先的模型性能: 提出的HumanOmniV2在包括全新IntentBench、Daily-Omni和WorldSense在內(nèi)的多個(gè)全模態(tài)基準(zhǔn)測(cè)試中,相比現(xiàn)有開(kāi)源全模態(tài)方法取得了最佳性能。
github:https://github.com/HumanMLLM/HumanOmniV2
arxiv:https://arxiv.org/abs/2506.21277
modelscope:https://modelscope.cn/models/iic/humanomniv2
huggingface:https://huggingface.co/PhilipC/HumanOmniV2
intentbench:https://huggingface.co/datasets/PhilipC/IntentBench




































