長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
2025-08-29|SenseTime|??51
??http://arxiv.org/abs/2508.21496v2???
???https://huggingface.co/papers/2508.21496???
???https://github.com/hlsv02/ELV-Halluc??
研究背景與意義

- 研究背景視頻多模態(tài)大型語(yǔ)言模型(Video-MLLMs)在視頻理解領(lǐng)域取得了顯著進(jìn)展,但仍存在“幻覺(jué)”問(wèn)題,即生成與視頻內(nèi)容不一致或無(wú)關(guān)的信息。現(xiàn)有研究多聚焦于短視頻的幻覺(jué),歸因于語(yǔ)言先驗(yàn)、幀缺失或視覺(jué)編碼器的偏差。長(zhǎng)視頻由于包含多事件、多語(yǔ)義層次,幻覺(jué)問(wèn)題更為復(fù)雜,尤其存在一種被忽視的“語(yǔ)義聚合幻覺(jué)”(Semantic Aggregation Hallucination,SAH),即模型在將幀級(jí)語(yǔ)義聚合成事件級(jí)語(yǔ)義時(shí)發(fā)生錯(cuò)誤。
- 研究意義針對(duì)SAH的系統(tǒng)性研究尚缺乏,ELV-Halluc作為首個(gè)專注長(zhǎng)視頻SAH的基準(zhǔn),填補(bǔ)了該領(lǐng)域的空白。通過(guò)精細(xì)劃分事件、構(gòu)建對(duì)抗性問(wèn)答對(duì),ELV-Halluc不僅揭示了SAH與視頻語(yǔ)義復(fù)雜度和語(yǔ)義變化率的正相關(guān)關(guān)系,還為后續(xù)模型優(yōu)化提供了明確的評(píng)估標(biāo)準(zhǔn)和數(shù)據(jù)支持,推動(dòng)了長(zhǎng)視頻理解的可靠性提升。
研究方法與創(chuàng)新

- 技術(shù)描述該研究設(shè)計(jì)了基于事件的視頻語(yǔ)義分割,通過(guò)半自動(dòng)化流程結(jié)合Gemini-2.5模型生成初始字幕,并由人工校正形成高質(zhì)量事件級(jí)標(biāo)注。構(gòu)建了包含8K對(duì)問(wèn)答的對(duì)抗性數(shù)據(jù)集,通過(guò)“視頻內(nèi)”和“視頻外”兩類幻覺(jué)問(wèn)答對(duì)區(qū)分模型對(duì)語(yǔ)義錯(cuò)配的敏感度,提出SAH比例指標(biāo)衡量模型的語(yǔ)義聚合幻覺(jué)程度。
- 創(chuàng)新點(diǎn)突出
- 專注長(zhǎng)視頻SAH:首次系統(tǒng)定義并量化長(zhǎng)視頻中因語(yǔ)義聚合錯(cuò)誤導(dǎo)致的幻覺(jué)問(wèn)題。
- 事件分割與對(duì)抗問(wèn)答設(shè)計(jì):通過(guò)事件劃分降低語(yǔ)義單元復(fù)雜度,同時(shí)設(shè)計(jì)對(duì)抗性問(wèn)答對(duì),精準(zhǔn)捕捉模型在事件間語(yǔ)義錯(cuò)配的表現(xiàn)。
- 引入多種RoPE位置編碼策略和DPO優(yōu)化:驗(yàn)證了VideoRoPE位置編碼和基于直接偏好優(yōu)化(DPO)策略在減少SAH方面的有效性,創(chuàng)新性地結(jié)合了注意力機(jī)制分析,揭示了模型內(nèi)部語(yǔ)義聚合機(jī)制的改進(jìn)路徑。
- 理論基礎(chǔ)討論研究基于視覺(jué)語(yǔ)言模型的多模態(tài)理解理論,強(qiáng)調(diào)事件級(jí)語(yǔ)義聚合的復(fù)雜性及其對(duì)模型可靠性的影響。DPO方法借鑒強(qiáng)化學(xué)習(xí)中的偏好優(yōu)化,調(diào)整模型對(duì)正確語(yǔ)義的關(guān)注度,理論上減少了因錯(cuò)誤語(yǔ)義聚合引發(fā)的幻覺(jué)。
- 與現(xiàn)有方法對(duì)比相較于傳統(tǒng)短視頻幻覺(jué)研究,ELV-Halluc更全面考慮了長(zhǎng)視頻多事件、多層次語(yǔ)義的挑戰(zhàn)。它不僅在數(shù)據(jù)規(guī)模和復(fù)雜度上超越現(xiàn)有基準(zhǔn),還提出了更細(xì)粒度的幻覺(jué)分類和評(píng)估指標(biāo),顯著提升了幻覺(jué)診斷的精確度和針對(duì)性。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析




- 實(shí)驗(yàn)設(shè)計(jì)
- 評(píng)測(cè)了14個(gè)開(kāi)源模型(參數(shù)規(guī)模1B-78B)及2個(gè)閉源模型(GPT-4o與Gemini 2.5 Flash),覆蓋不同架構(gòu)和規(guī)模。
- 采用ELV-Halluc數(shù)據(jù)集,比較模型在“視頻內(nèi)”和“視頻外”幻覺(jué)問(wèn)答對(duì)上的表現(xiàn),計(jì)算整體準(zhǔn)確率和SAH比例。
- 探索不同幀采樣數(shù)量、模型大小、語(yǔ)義類型(視覺(jué)細(xì)節(jié)、動(dòng)作、對(duì)象、聲明性內(nèi)容)對(duì)幻覺(jué)的影響。
- 針對(duì)RoPE編碼策略和DPO方法進(jìn)行消融實(shí)驗(yàn),分析其對(duì)SAH的緩解效果。
- 結(jié)果分析
- SAH普遍存在且隨語(yǔ)義復(fù)雜度增加而加劇,特別是在視覺(jué)細(xì)節(jié)和動(dòng)作變化頻繁的語(yǔ)義層面;聲明性內(nèi)容中SAH較少。
- 幀數(shù)增加帶來(lái)更多語(yǔ)義信息,整體幻覺(jué)率下降,但SAH比例上升,說(shuō)明更多幀信息增加了語(yǔ)義聚合的難度。
- 模型規(guī)模與整體幻覺(jué)率負(fù)相關(guān),但對(duì)SAH比例影響不顯著,表明僅擴(kuò)大模型容量難以根治SAH。
- VideoRoPE位置編碼顯著降低了SAH比例,優(yōu)于傳統(tǒng)RoPE變體,表明更強(qiáng)的位置感知能力有助于正確語(yǔ)義聚合。
- DPO優(yōu)化通過(guò)強(qiáng)化模型對(duì)正確事件語(yǔ)義的偏好,顯著降低SAH比例(最高減少27.7%),并通過(guò)注意力權(quán)重分析驗(yàn)證了模型對(duì)錯(cuò)誤語(yǔ)義區(qū)域關(guān)注度的下降。
- 結(jié)合“視頻內(nèi)”和“視頻外”訓(xùn)練樣本的DPO策略在保持整體性能的同時(shí),實(shí)現(xiàn)了對(duì)SAH的有效控制。
結(jié)論與展望
- 總結(jié)貢獻(xiàn)本研究首次系統(tǒng)定義并量化了長(zhǎng)視頻理解中的語(yǔ)義聚合幻覺(jué)問(wèn)題,構(gòu)建了高質(zhì)量的ELV-Halluc基準(zhǔn)數(shù)據(jù)集,設(shè)計(jì)了創(chuàng)新的事件級(jí)對(duì)抗問(wèn)答評(píng)價(jià)體系。通過(guò)實(shí)證分析揭示了SAH與語(yǔ)義復(fù)雜度、變化率的關(guān)系,提出了基于位置編碼優(yōu)化和DPO訓(xùn)練的有效緩解策略,顯著提升了長(zhǎng)視頻多模態(tài)語(yǔ)言模型的可靠性和理解準(zhǔn)確度。
- 局限性分析
- 數(shù)據(jù)集規(guī)模受限于高昂的人工標(biāo)注成本,可能影響模型泛化能力。
- 初始字幕依賴Gemini-2.5模型,存在潛在偏差,影響部分評(píng)測(cè)結(jié)果的客觀性。
- 事件劃分雖提升了語(yǔ)義控制,但與真實(shí)長(zhǎng)視頻的多樣性和復(fù)雜性仍有差距。
- DPO方法的長(zhǎng)期效果及其在更大規(guī)模、多樣化數(shù)據(jù)上的表現(xiàn)尚待驗(yàn)證。
- 方法展望未來(lái)研究可探索更大規(guī)模、多樣化的長(zhǎng)視頻數(shù)據(jù)集,結(jié)合更先進(jìn)的自動(dòng)注釋技術(shù)減少人工成本。進(jìn)一步優(yōu)化位置編碼機(jī)制和語(yǔ)義聚合策略,提升模型對(duì)復(fù)雜事件間關(guān)系的理解。結(jié)合強(qiáng)化學(xué)習(xí)和對(duì)抗訓(xùn)練,增強(qiáng)模型對(duì)語(yǔ)義錯(cuò)配的魯棒性。最后,拓展SAH的評(píng)估指標(biāo)體系,涵蓋更多實(shí)用場(chǎng)景,推動(dòng)長(zhǎng)視頻理解模型向更高的可靠性和實(shí)用性邁進(jìn)。
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
2025-09-01|Tencent, SJTU, THU|EMNLP 2025|??39
??http://arxiv.org/abs/2509.01215v1???
???https://huggingface.co/papers/2509.01215???
???https://github.com/Tencent/POINTS-Reader??
研究背景與意義

文檔轉(zhuǎn)換,尤其是包含復(fù)雜元素如表格、數(shù)學(xué)公式和多欄文本的文檔轉(zhuǎn)換,一直是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理領(lǐng)域的難題。傳統(tǒng)方法依賴于大量人工標(biāo)注或通過(guò)蒸餾大型模型的知識(shí)來(lái)訓(xùn)練學(xué)生模型,但這些方法成本高昂且難以保證標(biāo)注質(zhì)量,蒸餾過(guò)程還可能繼承教師模型的偏差和不足,限制了模型的真實(shí)表現(xiàn)。鑒于此,本文提出了一種無(wú)需蒸餾的全自動(dòng)化框架,旨在構(gòu)建大規(guī)模高質(zhì)量的文檔轉(zhuǎn)換數(shù)據(jù)集,并訓(xùn)練能夠處理多樣化文檔格式的視覺(jué)語(yǔ)言模型。該研究不僅解決了數(shù)據(jù)標(biāo)注的瓶頸問(wèn)題,也為端到端文檔理解模型的開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ),推動(dòng)了文檔轉(zhuǎn)換技術(shù)向更高準(zhǔn)確性和泛化能力的方向發(fā)展。
研究方法與創(chuàng)新

本文方法創(chuàng)新地采用了兩階段策略:
- 統(tǒng)一格式預(yù)熱階段(Uniform Format Warm-up Stage)
- 通過(guò)設(shè)計(jì)統(tǒng)一的輸出格式,標(biāo)準(zhǔn)化文檔中的純文本、表格和數(shù)學(xué)公式的表達(dá),消除了多樣格式帶來(lái)的學(xué)習(xí)復(fù)雜度。
- 利用大語(yǔ)言模型生成多樣化的文本內(nèi)容,結(jié)合HTML模板渲染成圖像,形成大規(guī)模合成圖文對(duì),用于模型的初步訓(xùn)練。
- 該階段通過(guò)精細(xì)的規(guī)則過(guò)濾表格和公式,確保數(shù)據(jù)結(jié)構(gòu)的合理性和語(yǔ)法正確性,為模型提供高質(zhì)量的訓(xùn)練樣本。
- 迭代自我提升階段(Iterative Self-improvement Stage)
- 利用預(yù)熱階段訓(xùn)練得到的模型對(duì)真實(shí)文檔進(jìn)行自動(dòng)標(biāo)注,針對(duì)生成文本中的遺漏、幻覺(jué)和結(jié)構(gòu)錯(cuò)誤,設(shè)計(jì)了多種基于規(guī)則的過(guò)濾策略,包括基于OCR的F1分?jǐn)?shù)過(guò)濾文本、表格結(jié)構(gòu)有效性檢測(cè)和公式語(yǔ)法校驗(yàn)。
- 通過(guò)多輪迭代,模型不斷用經(jīng)過(guò)嚴(yán)格篩選的真實(shí)數(shù)據(jù)進(jìn)行再訓(xùn)練,逐步提升對(duì)現(xiàn)實(shí)復(fù)雜布局文檔的理解和轉(zhuǎn)換能力。
- 此策略突破了傳統(tǒng)依賴外部模型蒸餾的瓶頸,實(shí)現(xiàn)了數(shù)據(jù)和模型的協(xié)同進(jìn)化,顯著提升了模型的泛化性能。
相較于現(xiàn)有依賴蒸餾的端到端方法,本文框架避免了性能瓶頸和偏差繼承,且自我提升機(jī)制有效利用了真實(shí)數(shù)據(jù),提升了模型的實(shí)用性和準(zhǔn)確度。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析


- 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
合成數(shù)據(jù)涵蓋四類文檔結(jié)構(gòu):純文本、含數(shù)學(xué)公式的文本、含表格的文本和多欄含表格布局,每類生成20萬(wàn)樣本。
真實(shí)數(shù)據(jù)選用DocMatix大規(guī)模文檔圖像集,涵蓋學(xué)術(shù)論文及多種文檔類型。
訓(xùn)練基于POINTS-1.5視覺(jué)語(yǔ)言模型,結(jié)合Qwen2.5-3B大語(yǔ)言模型進(jìn)行文本生成與指令調(diào)優(yōu)。
- 結(jié)果分析
數(shù)據(jù)多樣性顯著提升模型性能,尤其是加入多欄布局?jǐn)?shù)據(jù)后,模型在閱讀順序和表格識(shí)別上獲得明顯提升。
過(guò)濾異常圖像長(zhǎng)寬比(2到5范圍內(nèi))和文本F1分?jǐn)?shù)(閾值0.9)有效提升了訓(xùn)練數(shù)據(jù)質(zhì)量,避免了模型過(guò)擬合非真實(shí)分布的合成數(shù)據(jù)。
自我提升階段多輪迭代中,模型性能持續(xù)穩(wěn)定提升,F(xiàn)1分?jǐn)?shù)與傳統(tǒng)OCR輸出的匹配度逐步增強(qiáng),數(shù)據(jù)質(zhì)量和數(shù)量同步增長(zhǎng),驗(yàn)證了迭代機(jī)制的有效性。
在多個(gè)公開(kāi)基準(zhǔn)(OmniDocBench、Fox等)上,POINTS-Reader模型在文本、表格及公式識(shí)別任務(wù)中均超越了包括Qwen2.5-VL-72B等大型通用視覺(jué)語(yǔ)言模型及多款專業(yè)OCR模型,尤其在表格識(shí)別指標(biāo)上優(yōu)勢(shì)明顯。
結(jié)論與展望
本文提出的無(wú)蒸餾端到端文檔轉(zhuǎn)換框架,通過(guò)統(tǒng)一格式預(yù)熱和迭代自我提升兩階段策略,成功構(gòu)建了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù),顯著提升了模型對(duì)復(fù)雜文檔元素的識(shí)別和轉(zhuǎn)換能力。該方法有效規(guī)避了傳統(tǒng)蒸餾依賴的局限,實(shí)現(xiàn)了模型性能的持續(xù)迭代優(yōu)化,達(dá)到了當(dāng)前先進(jìn)水平。
未來(lái)工作將聚焦于:
- 多語(yǔ)言擴(kuò)展,突破當(dāng)前僅支持英文的限制,提升對(duì)中文、日文等語(yǔ)言的適應(yīng)能力;
- 手寫(xiě)文本識(shí)別,針對(duì)手寫(xiě)筆記等非印刷字體的識(shí)別精度進(jìn)行優(yōu)化;
- 豐富文檔元素支持,包括圖像識(shí)別與定位,進(jìn)一步完善文檔內(nèi)容的全面理解與轉(zhuǎn)換;
- 數(shù)據(jù)多樣性拓展,引入更多復(fù)雜布局和真實(shí)場(chǎng)景,增強(qiáng)模型泛化能力和魯棒性。
整體而言,該研究為文檔視覺(jué)語(yǔ)言模型的訓(xùn)練與應(yīng)用開(kāi)辟了新路徑,具有重要的理論價(jià)值和廣泛的應(yīng)用前景。
Kwai Keye-VL 1.5 Technical Report
2025-09-01|KuaishouGroup|??26
??http://arxiv.org/abs/2509.01563v1???
???https://huggingface.co/papers/2509.01563???
???https://github.com/Kwai-Keye/Keye??
研究背景與意義

- 背景概述:近年來(lái),大型語(yǔ)言模型(LLMs)迅速發(fā)展,推動(dòng)了多模態(tài)大型語(yǔ)言模型(MLLMs)的興起,使得模型在視覺(jué)和語(yǔ)言的結(jié)合上具備了強(qiáng)大的理解與生成能力。然而,視頻理解因其動(dòng)態(tài)性和信息密集性,仍是一個(gè)難點(diǎn),尤其在空間分辨率與時(shí)間覆蓋范圍之間存在權(quán)衡。
- 現(xiàn)有挑戰(zhàn):現(xiàn)有模型多采用固定分辨率和統(tǒng)一幀采樣策略,難以兼顧細(xì)粒度視覺(jué)細(xì)節(jié)和時(shí)間一致性,導(dǎo)致視頻內(nèi)容理解效果不佳。
- 研究目標(biāo):提出Keye-VL-1.5模型,通過(guò)架構(gòu)創(chuàng)新、漸進(jìn)式預(yù)訓(xùn)練和全面的后訓(xùn)練策略,提升視頻理解能力,同時(shí)保持在通用視覺(jué)語(yǔ)言任務(wù)中的競(jìng)爭(zhēng)力,解決視頻理解中的核心難題。
研究方法與創(chuàng)新




- 架構(gòu)創(chuàng)新:Slow-Fast視頻編碼策略
動(dòng)態(tài)分配計(jì)算資源,根據(jù)幀間相似度劃分關(guān)鍵幀(Slow路徑,高分辨率)和靜態(tài)幀(Fast路徑,低分辨率但高時(shí)間覆蓋)。
通過(guò)補(bǔ)丁相似度函數(shù)識(shí)別幀類型,平衡空間細(xì)節(jié)與時(shí)間跨度,避免傳統(tǒng)固定采樣的缺陷。
- 漸進(jìn)式四階段預(yù)訓(xùn)練
階段一凍結(jié)視覺(jué)和語(yǔ)言模型,僅訓(xùn)練投影層,實(shí)現(xiàn)跨模態(tài)對(duì)齊。
階段二解凍所有參數(shù),進(jìn)行多任務(wù)預(yù)訓(xùn)練,涵蓋圖像描述、OCR、視覺(jué)問(wèn)答等,強(qiáng)化視覺(jué)理解。
階段三退火階段,細(xì)化模型對(duì)高質(zhì)量樣本的理解。
階段四擴(kuò)展上下文長(zhǎng)度,從8K tokens提升至128K,支持更長(zhǎng)視頻和復(fù)雜視覺(jué)內(nèi)容處理,同時(shí)采用模型融合提升魯棒性。
- 后訓(xùn)練策略:推理能力與人類偏好對(duì)齊
設(shè)計(jì)五步鏈?zhǔn)剿季S(Chain-of-Thought)數(shù)據(jù)構(gòu)建流程,生成高質(zhì)量冷啟動(dòng)推理數(shù)據(jù)。
應(yīng)用基于GSPO的可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),結(jié)合漸進(jìn)式提示采樣處理難題,迭代提升模型推理表現(xiàn)。
進(jìn)行對(duì)齊強(qiáng)化學(xué)習(xí),改善指令遵循、響應(yīng)格式和偏好匹配,確保模型輸出符合人類期望。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析


- 數(shù)據(jù)構(gòu)建與多樣性
訓(xùn)練數(shù)據(jù)超過(guò)1萬(wàn)億tokens,涵蓋圖像描述、OCR、視覺(jué)問(wèn)答、目標(biāo)定位、計(jì)數(shù)、視頻理解等多模態(tài)任務(wù),融合公開(kāi)數(shù)據(jù)與高質(zhì)量?jī)?nèi)部數(shù)據(jù)。
特別設(shè)計(jì)視頻數(shù)據(jù)管道,包括幀級(jí)OCR、視頻重排序、多視頻匹配等任務(wù),強(qiáng)化時(shí)間和語(yǔ)義理解。
- 評(píng)價(jià)指標(biāo)與基準(zhǔn)測(cè)試
在公開(kāi)視頻理解基準(zhǔn)上,Keye-VL-1.5相較同規(guī)模模型表現(xiàn)顯著提升,尤其在視頻中心任務(wù)上表現(xiàn)領(lǐng)先。
內(nèi)部評(píng)測(cè)結(jié)合人工評(píng)估,驗(yàn)證模型在理解深度、推理準(zhǔn)確性和人類偏好對(duì)齊方面的優(yōu)勢(shì)。
- 消融實(shí)驗(yàn)
分析不同訓(xùn)練階段(SFT、MPO、LongCoTColdStart)對(duì)性能的貢獻(xiàn)。
驗(yàn)證專家模型和模型合并策略的有效性。
強(qiáng)化學(xué)習(xí)階段的部分解決方案和拒絕采樣機(jī)制對(duì)模型表現(xiàn)的影響。
結(jié)論與展望
- 研究貢獻(xiàn)總結(jié)
Keye-VL-1.5通過(guò)創(chuàng)新的視頻編碼策略和漸進(jìn)式訓(xùn)練,成功突破了視頻理解中的空間與時(shí)間權(quán)衡難題。
后訓(xùn)練階段系統(tǒng)提升了模型的推理能力和人類偏好對(duì)齊,確保輸出的實(shí)用性和可靠性。
實(shí)驗(yàn)結(jié)果表明模型在視頻理解和通用視覺(jué)語(yǔ)言任務(wù)中均取得了領(lǐng)先水平。
- 局限分析
模型參數(shù)量為80億,雖在性能上表現(xiàn)優(yōu)異,但仍存在進(jìn)一步擴(kuò)展和優(yōu)化空間。
訓(xùn)練和推理資源消耗較大,實(shí)際部署需考慮效率與成本平衡。
- 未來(lái)展望
探索更高效的動(dòng)態(tài)幀處理和編碼機(jī)制,進(jìn)一步提升長(zhǎng)視頻理解能力。
加強(qiáng)多模態(tài)跨任務(wù)遷移與泛化能力,支持更多實(shí)際應(yīng)用場(chǎng)景。
深化人機(jī)交互中的偏好學(xué)習(xí),提升模型對(duì)復(fù)雜指令和多輪對(duì)話的適應(yīng)性。
本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇

















