精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源

發(fā)布于 2025-9-5 00:17
瀏覽
0收藏

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

2025-08-29|SenseTime|??51

??http://arxiv.org/abs/2508.21496v2???
???https://huggingface.co/papers/2508.21496???
???https://github.com/hlsv02/ELV-Halluc??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  1. 研究背景視頻多模態(tài)大型語(yǔ)言模型(Video-MLLMs)在視頻理解領(lǐng)域取得了顯著進(jìn)展,但仍存在“幻覺(jué)”問(wèn)題,即生成與視頻內(nèi)容不一致或無(wú)關(guān)的信息。現(xiàn)有研究多聚焦于短視頻的幻覺(jué),歸因于語(yǔ)言先驗(yàn)、幀缺失或視覺(jué)編碼器的偏差。長(zhǎng)視頻由于包含多事件、多語(yǔ)義層次,幻覺(jué)問(wèn)題更為復(fù)雜,尤其存在一種被忽視的“語(yǔ)義聚合幻覺(jué)”(Semantic Aggregation Hallucination,SAH),即模型在將幀級(jí)語(yǔ)義聚合成事件級(jí)語(yǔ)義時(shí)發(fā)生錯(cuò)誤。
  2. 研究意義針對(duì)SAH的系統(tǒng)性研究尚缺乏,ELV-Halluc作為首個(gè)專注長(zhǎng)視頻SAH的基準(zhǔn),填補(bǔ)了該領(lǐng)域的空白。通過(guò)精細(xì)劃分事件、構(gòu)建對(duì)抗性問(wèn)答對(duì),ELV-Halluc不僅揭示了SAH與視頻語(yǔ)義復(fù)雜度和語(yǔ)義變化率的正相關(guān)關(guān)系,還為后續(xù)模型優(yōu)化提供了明確的評(píng)估標(biāo)準(zhǔn)和數(shù)據(jù)支持,推動(dòng)了長(zhǎng)視頻理解的可靠性提升。

研究方法與創(chuàng)新

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  1. 技術(shù)描述該研究設(shè)計(jì)了基于事件的視頻語(yǔ)義分割,通過(guò)半自動(dòng)化流程結(jié)合Gemini-2.5模型生成初始字幕,并由人工校正形成高質(zhì)量事件級(jí)標(biāo)注。構(gòu)建了包含8K對(duì)問(wèn)答的對(duì)抗性數(shù)據(jù)集,通過(guò)“視頻內(nèi)”和“視頻外”兩類幻覺(jué)問(wèn)答對(duì)區(qū)分模型對(duì)語(yǔ)義錯(cuò)配的敏感度,提出SAH比例指標(biāo)衡量模型的語(yǔ)義聚合幻覺(jué)程度。
  2. 創(chuàng)新點(diǎn)突出
  • 專注長(zhǎng)視頻SAH:首次系統(tǒng)定義并量化長(zhǎng)視頻中因語(yǔ)義聚合錯(cuò)誤導(dǎo)致的幻覺(jué)問(wèn)題。
  • 事件分割與對(duì)抗問(wèn)答設(shè)計(jì):通過(guò)事件劃分降低語(yǔ)義單元復(fù)雜度,同時(shí)設(shè)計(jì)對(duì)抗性問(wèn)答對(duì),精準(zhǔn)捕捉模型在事件間語(yǔ)義錯(cuò)配的表現(xiàn)。
  • 引入多種RoPE位置編碼策略和DPO優(yōu)化:驗(yàn)證了VideoRoPE位置編碼和基于直接偏好優(yōu)化(DPO)策略在減少SAH方面的有效性,創(chuàng)新性地結(jié)合了注意力機(jī)制分析,揭示了模型內(nèi)部語(yǔ)義聚合機(jī)制的改進(jìn)路徑。
  1. 理論基礎(chǔ)討論研究基于視覺(jué)語(yǔ)言模型的多模態(tài)理解理論,強(qiáng)調(diào)事件級(jí)語(yǔ)義聚合的復(fù)雜性及其對(duì)模型可靠性的影響。DPO方法借鑒強(qiáng)化學(xué)習(xí)中的偏好優(yōu)化,調(diào)整模型對(duì)正確語(yǔ)義的關(guān)注度,理論上減少了因錯(cuò)誤語(yǔ)義聚合引發(fā)的幻覺(jué)。
  2. 與現(xiàn)有方法對(duì)比相較于傳統(tǒng)短視頻幻覺(jué)研究,ELV-Halluc更全面考慮了長(zhǎng)視頻多事件、多層次語(yǔ)義的挑戰(zhàn)。它不僅在數(shù)據(jù)規(guī)模和復(fù)雜度上超越現(xiàn)有基準(zhǔn),還提出了更細(xì)粒度的幻覺(jué)分類和評(píng)估指標(biāo),顯著提升了幻覺(jué)診斷的精確度和針對(duì)性。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  1. 實(shí)驗(yàn)設(shè)計(jì)
  • 評(píng)測(cè)了14個(gè)開(kāi)源模型(參數(shù)規(guī)模1B-78B)及2個(gè)閉源模型(GPT-4o與Gemini 2.5 Flash),覆蓋不同架構(gòu)和規(guī)模。
  • 采用ELV-Halluc數(shù)據(jù)集,比較模型在“視頻內(nèi)”和“視頻外”幻覺(jué)問(wèn)答對(duì)上的表現(xiàn),計(jì)算整體準(zhǔn)確率和SAH比例。
  • 探索不同幀采樣數(shù)量、模型大小、語(yǔ)義類型(視覺(jué)細(xì)節(jié)、動(dòng)作、對(duì)象、聲明性內(nèi)容)對(duì)幻覺(jué)的影響。
  • 針對(duì)RoPE編碼策略和DPO方法進(jìn)行消融實(shí)驗(yàn),分析其對(duì)SAH的緩解效果。
  1. 結(jié)果分析
  • SAH普遍存在且隨語(yǔ)義復(fù)雜度增加而加劇,特別是在視覺(jué)細(xì)節(jié)和動(dòng)作變化頻繁的語(yǔ)義層面;聲明性內(nèi)容中SAH較少。
  • 幀數(shù)增加帶來(lái)更多語(yǔ)義信息,整體幻覺(jué)率下降,但SAH比例上升,說(shuō)明更多幀信息增加了語(yǔ)義聚合的難度。
  • 模型規(guī)模與整體幻覺(jué)率負(fù)相關(guān),但對(duì)SAH比例影響不顯著,表明僅擴(kuò)大模型容量難以根治SAH。
  • VideoRoPE位置編碼顯著降低了SAH比例,優(yōu)于傳統(tǒng)RoPE變體,表明更強(qiáng)的位置感知能力有助于正確語(yǔ)義聚合。
  • DPO優(yōu)化通過(guò)強(qiáng)化模型對(duì)正確事件語(yǔ)義的偏好,顯著降低SAH比例(最高減少27.7%),并通過(guò)注意力權(quán)重分析驗(yàn)證了模型對(duì)錯(cuò)誤語(yǔ)義區(qū)域關(guān)注度的下降。
  • 結(jié)合“視頻內(nèi)”和“視頻外”訓(xùn)練樣本的DPO策略在保持整體性能的同時(shí),實(shí)現(xiàn)了對(duì)SAH的有效控制。

結(jié)論與展望

  1. 總結(jié)貢獻(xiàn)本研究首次系統(tǒng)定義并量化了長(zhǎng)視頻理解中的語(yǔ)義聚合幻覺(jué)問(wèn)題,構(gòu)建了高質(zhì)量的ELV-Halluc基準(zhǔn)數(shù)據(jù)集,設(shè)計(jì)了創(chuàng)新的事件級(jí)對(duì)抗問(wèn)答評(píng)價(jià)體系。通過(guò)實(shí)證分析揭示了SAH與語(yǔ)義復(fù)雜度、變化率的關(guān)系,提出了基于位置編碼優(yōu)化和DPO訓(xùn)練的有效緩解策略,顯著提升了長(zhǎng)視頻多模態(tài)語(yǔ)言模型的可靠性和理解準(zhǔn)確度。
  2. 局限性分析
  • 數(shù)據(jù)集規(guī)模受限于高昂的人工標(biāo)注成本,可能影響模型泛化能力。
  • 初始字幕依賴Gemini-2.5模型,存在潛在偏差,影響部分評(píng)測(cè)結(jié)果的客觀性。
  • 事件劃分雖提升了語(yǔ)義控制,但與真實(shí)長(zhǎng)視頻的多樣性和復(fù)雜性仍有差距。
  • DPO方法的長(zhǎng)期效果及其在更大規(guī)模、多樣化數(shù)據(jù)上的表現(xiàn)尚待驗(yàn)證。
  1. 方法展望未來(lái)研究可探索更大規(guī)模、多樣化的長(zhǎng)視頻數(shù)據(jù)集,結(jié)合更先進(jìn)的自動(dòng)注釋技術(shù)減少人工成本。進(jìn)一步優(yōu)化位置編碼機(jī)制和語(yǔ)義聚合策略,提升模型對(duì)復(fù)雜事件間關(guān)系的理解。結(jié)合強(qiáng)化學(xué)習(xí)和對(duì)抗訓(xùn)練,增強(qiáng)模型對(duì)語(yǔ)義錯(cuò)配的魯棒性。最后,拓展SAH的評(píng)估指標(biāo)體系,涵蓋更多實(shí)用場(chǎng)景,推動(dòng)長(zhǎng)視頻理解模型向更高的可靠性和實(shí)用性邁進(jìn)。

POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

2025-09-01|Tencent, SJTU, THU|EMNLP 2025|??39

??http://arxiv.org/abs/2509.01215v1???
???https://huggingface.co/papers/2509.01215???
???https://github.com/Tencent/POINTS-Reader??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

文檔轉(zhuǎn)換,尤其是包含復(fù)雜元素如表格、數(shù)學(xué)公式和多欄文本的文檔轉(zhuǎn)換,一直是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理領(lǐng)域的難題。傳統(tǒng)方法依賴于大量人工標(biāo)注或通過(guò)蒸餾大型模型的知識(shí)來(lái)訓(xùn)練學(xué)生模型,但這些方法成本高昂且難以保證標(biāo)注質(zhì)量,蒸餾過(guò)程還可能繼承教師模型的偏差和不足,限制了模型的真實(shí)表現(xiàn)。鑒于此,本文提出了一種無(wú)需蒸餾的全自動(dòng)化框架,旨在構(gòu)建大規(guī)模高質(zhì)量的文檔轉(zhuǎn)換數(shù)據(jù)集,并訓(xùn)練能夠處理多樣化文檔格式的視覺(jué)語(yǔ)言模型。該研究不僅解決了數(shù)據(jù)標(biāo)注的瓶頸問(wèn)題,也為端到端文檔理解模型的開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ),推動(dòng)了文檔轉(zhuǎn)換技術(shù)向更高準(zhǔn)確性和泛化能力的方向發(fā)展。

研究方法與創(chuàng)新

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

本文方法創(chuàng)新地采用了兩階段策略:

  1. 統(tǒng)一格式預(yù)熱階段(Uniform Format Warm-up Stage)
  • 通過(guò)設(shè)計(jì)統(tǒng)一的輸出格式,標(biāo)準(zhǔn)化文檔中的純文本、表格和數(shù)學(xué)公式的表達(dá),消除了多樣格式帶來(lái)的學(xué)習(xí)復(fù)雜度。
  • 利用大語(yǔ)言模型生成多樣化的文本內(nèi)容,結(jié)合HTML模板渲染成圖像,形成大規(guī)模合成圖文對(duì),用于模型的初步訓(xùn)練。
  • 該階段通過(guò)精細(xì)的規(guī)則過(guò)濾表格和公式,確保數(shù)據(jù)結(jié)構(gòu)的合理性和語(yǔ)法正確性,為模型提供高質(zhì)量的訓(xùn)練樣本。
  1. 迭代自我提升階段(Iterative Self-improvement Stage)
  • 利用預(yù)熱階段訓(xùn)練得到的模型對(duì)真實(shí)文檔進(jìn)行自動(dòng)標(biāo)注,針對(duì)生成文本中的遺漏、幻覺(jué)和結(jié)構(gòu)錯(cuò)誤,設(shè)計(jì)了多種基于規(guī)則的過(guò)濾策略,包括基于OCR的F1分?jǐn)?shù)過(guò)濾文本、表格結(jié)構(gòu)有效性檢測(cè)和公式語(yǔ)法校驗(yàn)。
  • 通過(guò)多輪迭代,模型不斷用經(jīng)過(guò)嚴(yán)格篩選的真實(shí)數(shù)據(jù)進(jìn)行再訓(xùn)練,逐步提升對(duì)現(xiàn)實(shí)復(fù)雜布局文檔的理解和轉(zhuǎn)換能力。
  • 此策略突破了傳統(tǒng)依賴外部模型蒸餾的瓶頸,實(shí)現(xiàn)了數(shù)據(jù)和模型的協(xié)同進(jìn)化,顯著提升了模型的泛化性能。

相較于現(xiàn)有依賴蒸餾的端到端方法,本文框架避免了性能瓶頸和偏差繼承,且自我提升機(jī)制有效利用了真實(shí)數(shù)據(jù),提升了模型的實(shí)用性和準(zhǔn)確度。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

合成數(shù)據(jù)涵蓋四類文檔結(jié)構(gòu):純文本、含數(shù)學(xué)公式的文本、含表格的文本和多欄含表格布局,每類生成20萬(wàn)樣本。

真實(shí)數(shù)據(jù)選用DocMatix大規(guī)模文檔圖像集,涵蓋學(xué)術(shù)論文及多種文檔類型。

訓(xùn)練基于POINTS-1.5視覺(jué)語(yǔ)言模型,結(jié)合Qwen2.5-3B大語(yǔ)言模型進(jìn)行文本生成與指令調(diào)優(yōu)。

  • 結(jié)果分析

數(shù)據(jù)多樣性顯著提升模型性能,尤其是加入多欄布局?jǐn)?shù)據(jù)后,模型在閱讀順序和表格識(shí)別上獲得明顯提升。

過(guò)濾異常圖像長(zhǎng)寬比(2到5范圍內(nèi))和文本F1分?jǐn)?shù)(閾值0.9)有效提升了訓(xùn)練數(shù)據(jù)質(zhì)量,避免了模型過(guò)擬合非真實(shí)分布的合成數(shù)據(jù)。

自我提升階段多輪迭代中,模型性能持續(xù)穩(wěn)定提升,F(xiàn)1分?jǐn)?shù)與傳統(tǒng)OCR輸出的匹配度逐步增強(qiáng),數(shù)據(jù)質(zhì)量和數(shù)量同步增長(zhǎng),驗(yàn)證了迭代機(jī)制的有效性。

在多個(gè)公開(kāi)基準(zhǔn)(OmniDocBench、Fox等)上,POINTS-Reader模型在文本、表格及公式識(shí)別任務(wù)中均超越了包括Qwen2.5-VL-72B等大型通用視覺(jué)語(yǔ)言模型及多款專業(yè)OCR模型,尤其在表格識(shí)別指標(biāo)上優(yōu)勢(shì)明顯。

結(jié)論與展望

本文提出的無(wú)蒸餾端到端文檔轉(zhuǎn)換框架,通過(guò)統(tǒng)一格式預(yù)熱和迭代自我提升兩階段策略,成功構(gòu)建了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù),顯著提升了模型對(duì)復(fù)雜文檔元素的識(shí)別和轉(zhuǎn)換能力。該方法有效規(guī)避了傳統(tǒng)蒸餾依賴的局限,實(shí)現(xiàn)了模型性能的持續(xù)迭代優(yōu)化,達(dá)到了當(dāng)前先進(jìn)水平。

未來(lái)工作將聚焦于:

  • 多語(yǔ)言擴(kuò)展,突破當(dāng)前僅支持英文的限制,提升對(duì)中文、日文等語(yǔ)言的適應(yīng)能力;
  • 手寫(xiě)文本識(shí)別,針對(duì)手寫(xiě)筆記等非印刷字體的識(shí)別精度進(jìn)行優(yōu)化;
  • 豐富文檔元素支持,包括圖像識(shí)別與定位,進(jìn)一步完善文檔內(nèi)容的全面理解與轉(zhuǎn)換;
  • 數(shù)據(jù)多樣性拓展,引入更多復(fù)雜布局和真實(shí)場(chǎng)景,增強(qiáng)模型泛化能力和魯棒性。

整體而言,該研究為文檔視覺(jué)語(yǔ)言模型的訓(xùn)練與應(yīng)用開(kāi)辟了新路徑,具有重要的理論價(jià)值和廣泛的應(yīng)用前景。

Kwai Keye-VL 1.5 Technical Report

2025-09-01|KuaishouGroup|??26

??http://arxiv.org/abs/2509.01563v1???
???https://huggingface.co/papers/2509.01563???
???https://github.com/Kwai-Keye/Keye??

研究背景與意義

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 背景概述:近年來(lái),大型語(yǔ)言模型(LLMs)迅速發(fā)展,推動(dòng)了多模態(tài)大型語(yǔ)言模型(MLLMs)的興起,使得模型在視覺(jué)和語(yǔ)言的結(jié)合上具備了強(qiáng)大的理解與生成能力。然而,視頻理解因其動(dòng)態(tài)性和信息密集性,仍是一個(gè)難點(diǎn),尤其在空間分辨率與時(shí)間覆蓋范圍之間存在權(quán)衡。
  • 現(xiàn)有挑戰(zhàn):現(xiàn)有模型多采用固定分辨率和統(tǒng)一幀采樣策略,難以兼顧細(xì)粒度視覺(jué)細(xì)節(jié)和時(shí)間一致性,導(dǎo)致視頻內(nèi)容理解效果不佳。
  • 研究目標(biāo):提出Keye-VL-1.5模型,通過(guò)架構(gòu)創(chuàng)新、漸進(jìn)式預(yù)訓(xùn)練和全面的后訓(xùn)練策略,提升視頻理解能力,同時(shí)保持在通用視覺(jué)語(yǔ)言任務(wù)中的競(jìng)爭(zhēng)力,解決視頻理解中的核心難題。

研究方法與創(chuàng)新

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 架構(gòu)創(chuàng)新:Slow-Fast視頻編碼策略

動(dòng)態(tài)分配計(jì)算資源,根據(jù)幀間相似度劃分關(guān)鍵幀(Slow路徑,高分辨率)和靜態(tài)幀(Fast路徑,低分辨率但高時(shí)間覆蓋)。

通過(guò)補(bǔ)丁相似度函數(shù)識(shí)別幀類型,平衡空間細(xì)節(jié)與時(shí)間跨度,避免傳統(tǒng)固定采樣的缺陷。

  • 漸進(jìn)式四階段預(yù)訓(xùn)練

階段一凍結(jié)視覺(jué)和語(yǔ)言模型,僅訓(xùn)練投影層,實(shí)現(xiàn)跨模態(tài)對(duì)齊。

階段二解凍所有參數(shù),進(jìn)行多任務(wù)預(yù)訓(xùn)練,涵蓋圖像描述、OCR、視覺(jué)問(wèn)答等,強(qiáng)化視覺(jué)理解。

階段三退火階段,細(xì)化模型對(duì)高質(zhì)量樣本的理解。

階段四擴(kuò)展上下文長(zhǎng)度,從8K tokens提升至128K,支持更長(zhǎng)視頻和復(fù)雜視覺(jué)內(nèi)容處理,同時(shí)采用模型融合提升魯棒性。

  • 后訓(xùn)練策略:推理能力與人類偏好對(duì)齊

設(shè)計(jì)五步鏈?zhǔn)剿季S(Chain-of-Thought)數(shù)據(jù)構(gòu)建流程,生成高質(zhì)量冷啟動(dòng)推理數(shù)據(jù)。

應(yīng)用基于GSPO的可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),結(jié)合漸進(jìn)式提示采樣處理難題,迭代提升模型推理表現(xiàn)。

進(jìn)行對(duì)齊強(qiáng)化學(xué)習(xí),改善指令遵循、響應(yīng)格式和偏好匹配,確保模型輸出符合人類期望。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

長(zhǎng)視頻理解語(yǔ)義聚合幻覺(jué)評(píng)估基準(zhǔn);無(wú)需蒸餾的VLM文檔裝好框架;Keye-VL 1.5技術(shù)報(bào)告,動(dòng)態(tài)分配計(jì)算資源-AI.x社區(qū)

  • 數(shù)據(jù)構(gòu)建與多樣性

訓(xùn)練數(shù)據(jù)超過(guò)1萬(wàn)億tokens,涵蓋圖像描述、OCR、視覺(jué)問(wèn)答、目標(biāo)定位、計(jì)數(shù)、視頻理解等多模態(tài)任務(wù),融合公開(kāi)數(shù)據(jù)與高質(zhì)量?jī)?nèi)部數(shù)據(jù)。

特別設(shè)計(jì)視頻數(shù)據(jù)管道,包括幀級(jí)OCR、視頻重排序、多視頻匹配等任務(wù),強(qiáng)化時(shí)間和語(yǔ)義理解。

  • 評(píng)價(jià)指標(biāo)與基準(zhǔn)測(cè)試

在公開(kāi)視頻理解基準(zhǔn)上,Keye-VL-1.5相較同規(guī)模模型表現(xiàn)顯著提升,尤其在視頻中心任務(wù)上表現(xiàn)領(lǐng)先。

內(nèi)部評(píng)測(cè)結(jié)合人工評(píng)估,驗(yàn)證模型在理解深度、推理準(zhǔn)確性和人類偏好對(duì)齊方面的優(yōu)勢(shì)。

  • 消融實(shí)驗(yàn)

分析不同訓(xùn)練階段(SFT、MPO、LongCoTColdStart)對(duì)性能的貢獻(xiàn)。

驗(yàn)證專家模型和模型合并策略的有效性。

強(qiáng)化學(xué)習(xí)階段的部分解決方案和拒絕采樣機(jī)制對(duì)模型表現(xiàn)的影響。

結(jié)論與展望

  • 研究貢獻(xiàn)總結(jié)

Keye-VL-1.5通過(guò)創(chuàng)新的視頻編碼策略和漸進(jìn)式訓(xùn)練,成功突破了視頻理解中的空間與時(shí)間權(quán)衡難題。

后訓(xùn)練階段系統(tǒng)提升了模型的推理能力和人類偏好對(duì)齊,確保輸出的實(shí)用性和可靠性。

實(shí)驗(yàn)結(jié)果表明模型在視頻理解和通用視覺(jué)語(yǔ)言任務(wù)中均取得了領(lǐng)先水平。

  • 局限分析

模型參數(shù)量為80億,雖在性能上表現(xiàn)優(yōu)異,但仍存在進(jìn)一步擴(kuò)展和優(yōu)化空間。

訓(xùn)練和推理資源消耗較大,實(shí)際部署需考慮效率與成本平衡。

  • 未來(lái)展望

探索更高效的動(dòng)態(tài)幀處理和編碼機(jī)制,進(jìn)一步提升長(zhǎng)視頻理解能力。

加強(qiáng)多模態(tài)跨任務(wù)遷移與泛化能力,支持更多實(shí)際應(yīng)用場(chǎng)景。

深化人機(jī)交互中的偏好學(xué)習(xí),提升模型對(duì)復(fù)雜指令和多輪對(duì)話的適應(yīng)性。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇


已于2025-9-5 00:17:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    韩日欧美一区二区三区| 91精品啪在线观看国产18 | 欧美华人在线视频| 九九久久久久久| 国产h片在线观看| 久久久久久免费网| 亚洲mm色国产网站| 男人天堂2024| 欧美91视频| 亚洲天堂开心观看| 亚洲一级片免费观看| 成人小电影网站| 一区二区三区 在线观看视频| 国产日韩专区在线| 天天操天天干视频| 水蜜桃久久夜色精品一区| 亚洲激情在线视频| 国产高潮免费视频| 爱情电影社保片一区| 亚洲色图欧美激情| 日韩亚洲一区在线播放| 国模无码一区二区三区| 免费观看日韩av| 3344国产精品免费看| 久久久久亚洲av片无码| 麻豆一区二区麻豆免费观看| 欧美精品v国产精品v日韩精品 | 在线精品一区二区三区| 欧洲精品久久久久毛片完整版| 国产欧美一区二区三区鸳鸯浴| 日本中文字幕久久看| 青娱乐国产在线视频| 国产精品毛片一区二区在线看| 欧美一区二区网站| 午夜免费高清视频| 日韩成人动漫| 色综合天天综合| 欧美不卡在线播放| 欧美xxxx少妇| 一级中文字幕一区二区| 超碰成人在线免费观看| 91ph在线| 国产精品免费免费| 亚洲国产婷婷香蕉久久久久久99 | 欧美一区二区三区视频免费播放 | а√天堂中文在线资源8| 国产精品久久免费看| 日韩精品一区二区三区色偷偷| 伊人久久一区二区| 日韩专区在线视频| 国产精品第二页| 国产成人免费观看视频 | 亚洲欧美国产精品va在线观看| 国产极品尤物在线| 欧美新色视频| 久久久天堂av| 视频三区二区一区| 成人一区二区不卡免费| 国产精品色哟哟| 中文字幕一区综合| 免费在线午夜视频| 亚洲精品中文字幕乱码三区| 国产欧美123| √天堂8资源中文在线| 精品美女国产在线| 国产精品-区区久久久狼| 欧美日韩女优| 欧美另类高清zo欧美| 亚欧美一区二区三区| 美女精品视频在线| 亚洲国内精品视频| 亚洲国产日韩一区无码精品久久久| 日韩一区二区三区在线看| 精品美女一区二区| 国产精品jizz| 99久久99热这里只有精品| 久久999免费视频| 成人精品在线看| 人人爽香蕉精品| 成人在线视频网| 男人的天堂a在线| 久久久天堂av| 四虎4hu永久免费入口| 在线网址91| 欧美视频在线观看 亚洲欧| 亚洲人成无码www久久久| 久久国产三级| 日韩欧美一二三| 蜜臀av一区二区三区有限公司| 亚洲福利合集| 亚洲美女黄色片| 免费黄色国产视频| 日韩一级在线| 成人午夜小视频| 天堂av一区二区三区| 中文字幕免费观看一区| 精品一区二区三区无码视频| av免费在线一区| 精品国一区二区三区| 怡红院一区二区三区| 欧美久久视频| 国产精品极品在线| 日本波多野结衣在线| 久久久久久久久97黄色工厂| 大桥未久一区二区三区| 欧美黑人粗大| 欧美va在线播放| 99re6热在线精品视频| 国产日韩一区二区三区在线| 成人a在线观看| 免费在线超碰| 午夜精品福利一区二区三区蜜桃| 日本a在线免费观看| 亚洲第一会所| 亚洲精品久久久久久久久| 亚洲欧美小视频| 老司机午夜免费精品视频 | 亚洲一区二区三区av无码| 日韩精品专区| 亚洲国产天堂久久国产91| 人人干在线观看| 首页综合国产亚洲丝袜| 国内一区在线| 日韩av毛片| 欧美一卡2卡3卡4卡| 中字幕一区二区三区乱码| 日韩亚洲精品在线| 国产伦一区二区三区色一情| 日韩免费网站| 欧美色窝79yyyycom| av小说在线观看| 国产毛片久久| 精品久久久久久综合日本| 污影院在线观看| 日韩午夜激情免费电影| 日韩在线一卡二卡| 蜜桃视频一区二区| 亚洲不卡1区| 亚洲欧洲高清| 亚洲欧美日本精品| 青青草免费观看视频| 99国产精品久久久| 自拍日韩亚洲一区在线| 成人资源在线| 国内精品视频在线| 亚洲AV无码精品自拍| 一区二区三区中文字幕精品精品| 少妇无码av无码专区在线观看| 亚洲电影有码| 中文字幕亚洲精品| 在线观看国产黄| 亚洲欧洲精品一区二区三区| 久久久久久久久久一区二区| 国产精品久久占久久| 92福利视频午夜1000合集在线观看 | 亚洲国产三级| 国产一区二区黄色| 在线观看网站免费入口在线观看国内| 欧美艳星brazzers| 成人黄色a级片| 另类中文字幕网| 不卡中文字幕在线| 成人性生交大片免费看中文视频 | 在线观看日本中文字幕| 老司机午夜精品视频在线观看| 成人黄色在线免费观看| 超碰在线资源| 亚洲精品一区中文| 在线视频 91| 一片黄亚洲嫩模| 最新版天堂资源在线| 国产精品久久久久久久久久妞妞 | 婷婷五月综合激情| 日韩欧美国产骚| 国产精品麻豆免费版现看视频| 日韩一级网站| 亚洲一区二区三区午夜| 国产精品一区二区美女视频免费看| 夜夜嗨av一区二区三区免费区| 免费在线观看黄色av| 不卡的av在线| 欧美黑人又粗又大又爽免费| 91精品婷婷色在线观看| 久草热久草热线频97精品| 日韩欧美一区二区三区在线观看| 日韩精品中文字幕在线| 日韩久久久久久久久久| 尤物在线观看一区| 无码h肉动漫在线观看| 狠狠色狠狠色综合| 99色这里只有精品| 欧美好骚综合网| 精品一区在线播放| 在线不卡一区| 日韩av片免费在线观看| 污片在线免费观看| 国产亚洲精品va在线观看| www香蕉视频| 欧美网站大全在线观看| 国产精品第九页| 国产精品免费视频网站| 国产特黄级aaaaa片免| 国产一区二区女| 欧美综合在线观看视频| 国产精品激情电影| 一本一道久久a久久精品综合| 欧美成人xxxx| 91av视频在线免费观看| 哥也色在线视频| 一区二区欧美在线| 特黄视频在线观看| 日韩一区二区麻豆国产| 中国一级片黄色一级片黄| 图片区小说区区亚洲影院| 日韩成人短视频| 欧美激情一区二区在线| 亚洲天堂网一区二区| 国产成人综合亚洲91猫咪| 五月天激情视频在线观看| 免费日韩av片| 国产原创popny丨九色| 欧美日韩p片| 免费看av软件| 99久久夜色精品国产亚洲1000部| 亚洲综合中文字幕在线| 亚洲电影有码| 国产精品久久久久久久久久东京| 日本在线天堂| 一本一道久久a久久精品逆3p| 国产精品久久久久久久久毛片 | 今天免费高清在线观看国语| 成人91在线| 欧美日韩综合精品| 亚洲国产最新| 欧美午夜免费| 精品一区欧美| 欧美日韩中文国产一区发布| 亚洲人成网站77777在线观看| 国产精品美乳一区二区免费| 巨茎人妖videos另类| 538国产精品一区二区在线| 麻豆视频在线观看免费网站黄| 伊人一区二区三区久久精品| 久久精品色图| 在线观看免费高清视频97| 福利视频在线看| 中文字幕国产精品| 欧美激情免费| 超碰精品一区二区三区乱码| av在线影院| 久99九色视频在线观看| 变态调教一区二区三区| 91精品国产高清久久久久久| 偷拍自拍在线看| 国产精品久久久久秋霞鲁丝| 青青久久精品| 亚洲自拍偷拍区| 澳门久久精品| 欧美日韩精品免费在线观看视频| 亚洲成人偷拍| 精品国产乱码久久久久软件| 偷拍亚洲精品| 亚洲欧美国产精品桃花| 中文一区一区三区免费在线观看| 欧美日韩综合网| 成人在线一区| 欧美日韩午夜爽爽| 99在线观看免费视频精品观看| 特级黄色录像片| 狠狠爱www人成狠狠爱综合网| 无码免费一区二区三区免费播放| 红杏一区二区三区| 欧美一区二区三区电影在线观看 | 国产精品一级片| 奇米影视四色在线| 国产在线精品不卡| 国产偷人妻精品一区| 国产日韩精品久久久| 五月天婷婷色综合| 欧美性xxxx在线播放| 一本一道精品欧美中文字幕| 欧美成人在线直播| 精品视频二区| 久久99国产综合精品女同 | 91国自产精品中文字幕亚洲| 这里有精品可以观看| 国产精品专区第二| xxxx日韩| 伊人婷婷久久| 国产日韩欧美三区| 青青草精品在线| 久久久国产精品午夜一区ai换脸| 亚洲精品乱码久久| 国产精品久久久久久久久久免费看 | 无码人妻久久一区二区三区 | 国产精品成人自拍| 日韩免费一区二区三区| 国内一区二区三区| 男女视频在线看| 丁香婷婷综合色啪| 黄色免费一级视频| 精品欧美一区二区三区| 亚洲网站免费观看| 亚洲精品一区av在线播放| yellow91字幕网在线| 国产不卡av在线| 国产欧美三级电影| 日本老太婆做爰视频| 免费成人在线观看视频| 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 亚洲色欲色欲www| 国产午夜精品久久久久| 亚洲第一偷拍网| 99福利在线| 国产欧美一区二区白浆黑人| 亚洲第一二三区| 日韩极品视频在线观看| 国内一区二区在线| 日本 欧美 国产| 欧美视频三区在线播放| 青青色在线视频| 97碰碰碰免费色视频| 一区二区亚洲视频| 国产日韩欧美大片| 久久国产精品99精品国产| 亚洲a v网站| 日韩欧美一区视频| 亚洲欧洲国产综合| 91精品国产精品| 国产suv精品一区二区四区视频| 欧美激情第六页| 亚洲一区二区动漫| 欧美做受喷浆在线观看| 婷婷激情综合网| 人妻丰满熟妇av无码区hd| 欧美激情中文网| 蜜桃在线一区| 99热这里只有精品免费| 国产精品456露脸| 免费在线观看av网址| 精品久久一二三区| 国产极品人妖在线观看| 国产精品一区二区三区免费观看| 国产日韩欧美一区二区三区| aa免费在线观看| 久久精品视频免费| 日韩精品久久久久久免费| 国产亚洲xxx| 美女久久久久久| 400部精品国偷自产在线观看 | 精品国产欧美日韩| 国产精彩免费视频| 国产精品久久久久精k8| 中文字幕免费在线看| 日韩中文字幕网址| 国产美女精品视频免费播放软件| 欧美污视频久久久| 日本亚洲免费观看| 91n在线视频| 欧美一区二区三区啪啪| 欧美aaaaaaa| 噜噜噜噜噜久久久久久91| 日韩精品成人一区二区三区| 色综合99久久久无码国产精品| 性做久久久久久免费观看| 日中文字幕在线| 国产精品自产拍在线观| 你懂的亚洲视频| 青青草成人免费视频| 欧美中文字幕久久| 中日韩高清电影网| 久久青青草综合| 精油按摩中文字幕久久| 国产精选第一页| 中文字幕亚洲精品| 色悠久久久久综合先锋影音下载| 亚洲一区高清| 成人a区在线观看| 亚洲精品一区二区二区| www.日韩不卡电影av| 一区二区免费| 99免费视频观看| 一级女性全黄久久生活片免费| 国产精品视频无码| 97国产在线视频| 色乱码一区二区三区网站| 亚洲中文字幕无码一区| 91精品91久久久中77777| 菠萝菠萝蜜在线观看| 久久久水蜜桃| 国产精品1区二区.| 亚洲国产成人无码av在线| 久久影视电视剧免费网站| 西野翔中文久久精品国产| 91插插插影院| 日本韩国精品在线| 国产美女福利在线观看| 亚洲成人在线视频网站| 99久久综合色| www.色婷婷.com|