火山引擎多媒體實驗室畫質理解大模型 Q-Insight 入選 NeurIPS 2025 Spotlight

會議背景
近日,NeurIPS 2025公布了錄用結果,該會議是機器學習與人工智能領域最具影響力的國際頂級學術會議之一。據悉本次會議共有21575篇投稿進入審稿階段,最終5290篇論文被錄用,錄用論文中共有688篇論文(入選比例3%)被選為亮點文章(Spotlight)。
火山引擎多媒體實驗室和北京大學合作的論文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被選為本次會議亮點文章。
Q-Insight:首個推理式畫質理解大模型
論文背景

在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環節大多都基于一個核心問題展開,即人眼的畫質感知。多模態大模型的快速發展為新時代的音視頻技術帶來了新的機遇,面對人眼感知的畫質理解提供了一種全新的解決方案。
以往的畫質理解的方法主要分為兩類:(1)評分型方法,這類方法通常只能提供單一的數值評分,缺乏明確的解釋性,難以深入理解圖像質量背后的原因;(2)描述型方法,這類方法嚴重依賴于大規模文本描述數據進行監督微調,對標注數據的需求巨大,泛化能力和靈活性不足。
多任務群組相對策略優化
針對上述問題,北京大學與火山引擎多媒體實驗室的研究人員聯合提出了基于強化學習訓練的多模態大模型圖像畫質理解方案 Q-Insight。與以往方法不同的是,Q-Insight 不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,創造性地運用了“群組相對策略優化”(GRPO)算法,不再依賴大量的文本監督標注,而是挖掘大模型自身的推理潛力,促使模型深度思考圖像質量的本質原因。Q-Insight 在質量評分、退化感知、多圖比較、原因解釋等多個任務上均達到業界領先水平,具備出色的準確性和泛化推理能力,并且不依賴大量高成本的文本數據標注。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結果,而是提供了從多個角度綜合評估畫質的詳細推理過程。

在實際訓練過程中,我們發現單獨以評分作為引導無法充分實現良好的畫質理解,原因是模型對圖像退化現象不夠敏感。為了解決這一問題,我們創新性地引入了多任務 GRPO 優化,設計了可驗證的評分獎勵、退化分類獎勵和強度感知獎勵,聯合訓練評分回歸與退化感知任務。這種多任務聯合訓練的策略,顯著提高了各個任務的表現,證明了任務之間存在的強互補關系。

實驗結果
實驗結果充分驗證了 Q-Insight 在圖像質量評分、退化檢測和零樣本推理任務中的卓越表現:在圖像質量評分任務上,Q-Insight 在多個公開數據集上的表現均超過當前最先進的方法,特別是在域外數據上的泛化能力突出,并能夠提供完整詳細的推理過程。
- 在圖像質量評分任務上,Q-Insight 在多個公開數據集上的表現均超過當前最先進的方法,特別是在域外數據上的泛化能力突出,并能夠提供完整詳細的推理過程。


- 在退化感知任務上,Q-Insight 的表現顯著優于現有的退化感知模型,尤其是在噪聲(Noise)和 JPEG 壓縮退化類型識別的準確性上。

- 在圖像比較推理任務上,Q-Insight 可只需少量數據,即可超越當前最先進的圖像比較方法。


從Q-Insight到VQ-Insight:AIGC視頻畫質理解大模型
圖像只捕捉視頻的一個切片,用戶真實的視頻觀看體驗還取決于時間維度:運動是否自然?色彩是否在動態中穩定?因此,我們把 Q-Insight 的“推理式+強化學習”思路,拓展到自然視頻和 AIGC 視頻的評估和偏好比較中,提出了 VQ-Insight。

VQ-Insight 強大的 AIGC 視頻偏好比較能力,可直接應用于視頻生成模型的直接偏好優化(DPO)。如圖所示,基于 VQ-Insight 的方案相比于生成模型基線和對比方法,有效地緩解了錯誤生成的問題,并有著更鮮艷的色彩和動態。

相關鏈接
- ??Q-Insight:
https://arxiv.org/pdf/2503.22679 - ??VQ-Insight:
https://arxiv.org/pdf/2506.18564 - ??訓練與推理代碼:
https://github.com/bytedance/Q-Insight - ??開源模型:
https://huggingface.co/ByteDance/Q-Insight
總結
Q-Insight 將“感知-打分—比較—推理”統一到一個可解釋的學習框架中,既給出可靠評分,也產出問題分析和可執行的改進線索;VQ-Insight 在此基礎上把理解從幀內拓展到時域,支持真實/生成視頻的連貫性與人類偏好一致性評估。未來,我們將進一步深度耦合強化學習與多模態推理——一方面,讓 Q-Insight 走向更廣任務(如圖像美學評估),作為強判別信號驅動圖像增強/重建,作為“質量評估中樞”聯動各類重建工具;另一方面,讓 VQ-Insight 成為生成視頻訓練的可插拔獎勵與偏好模塊,把“看得準”轉化為“變得更好”。




























