VaseVQA:考古領域實現專家級,診斷+補弱RL框架
古希臘陶器是考古學和藝術史的重要實物證據。
研究者需要從單件陶器中提取多層信息:材質與工藝、形制類別、裝飾主題、出土地與時間、甚至可能的作坊或畫師。
不過傳統計算機視覺和通用多模態模型在這類高度專業化任務上常陷入兩類困境:
一是缺乏領域知識(模型在通用語料里幾乎沒接觸過「雅典黑釉杯」或「紅繪風格」這樣的概念);
二是僅靠監督微調(SFT)容易學到「表層捷徑」,在遇到組合性、推理性或少樣本問題時就失效。
基于此,AI Geeks、澳大利亞人工智能研究所等機構的研究人員提出:既要有專門的數據與任務劃分,也要有針對性的訓練策略來補弱提升。

論文鏈接: https://doi.org/10.48550/arXiv.2509.17191
項目地址:https://github.com/AIGeeksGroup/VaseVQA
論文的技術主線可以用一句話概括:先把模型訓練到有基礎能力(SFT),再通過診斷找出各類問題的薄弱環節,用類型條件化的強化學習(RL)和精細化獎勵去有針對性地補弱。

圖1:現有視覺語言模型在古希臘陶瓶理解上的局限性與所提出的VaseVL框架
關鍵步驟如下:
- 任務分層與問題類型化:作者把陶器理解任務劃分為若干類(例如材質、工藝、形制、產地/歸屬、年代、裝飾描述等),為后續診斷與差異化訓練提供維度。
- 診斷評估:對SFT后的模型在每一類問題上分別評測,識別哪些類型表現弱(例如歸屬推理與裝飾描述通常比簡單事實類問題更難)。
- 類型條件化強化學習:針對弱項設計加權獎勵,獎勵由「關鍵詞命中率 + 語義相似度」組成;同時采用帶KL正則的策略更新手段避免模型過度偏離原有SFT行為。作者還引入一種穩定化的策略優化方法(論文提出的變體)來保證訓練穩定。
- 按類型細化評估指標:不同問題類型采用更合適的評價方式(比如對描述類用生成質量指標,對事實類用字符/關鍵詞相似度),避免單一指標一刀切。

圖2:VaseVL的整體框架。該方法將有監督微調(SFT)與基于組相對策略優化(GRPO)的強化學習相結合。給定陶瓶圖像x、問題q 和參考答案a^*,模型通過在詞匯獎勵與語義獎勵之間取得平衡,并限制策略偏離參考策略 ,從而提升其推理能力。
數據與基準(VaseVQA)
讓評測更具信服力
為了能系統評估上述方法,研究人員同時構建了一個面向古希臘陶器的多模態問答基準(VaseVQA)。
該基準覆蓋大量陶器圖片與多類型問答對,且在標注上引入專家審校,力求兼顧規模與專業性。更重要的是,基準把任務按問題類型拆分,使得模型的薄弱處能被明確定位并針對性優化。

表1:VaseVQA基準測試上的性能比較。RL代表推理注入。
關鍵發現與實證價值
論文的實驗顯示:
- 僅做SFT能顯著提升模型的基礎識別能力,但在歸屬推理和復雜描述上仍有限;
- 在診斷基礎上做類型條件化RL優化后,模型在那些先前薄弱的類型上有可觀提升——這說明「補弱導向」的訓練策略在專業垂直任務上很有效;
- 細粒度的評價(按問題類型)對于判斷模型真實能力與設計針對性改進尤為重要。

表2:消融實驗結果說明。RI表示Reasoning Injection(推理注入)。Qwen2.5-VL-SFT表示前述模型經過 有監督微調(SFT) 的版本,而最后一行展示的是提出的VaseVL 模型的性能表現。
意義、局限與可推廣方向
這項工作最有價值的,不只是把一個模型調好,而是提出了一套「如何讓通用多模態模型在高度專業領域變得可靠」的方法論:任務分層 → 定位薄弱 → 有針對性地微調與評估。
它對文化遺產、醫學影像、材料科學等其他垂直領域都有啟發意義。
但需謹慎的一點是:強化學習階段高度依賴獎勵設計,若獎勵不當或數據偏倚,模型可能學習到新的偏差。
此外,許多考古歸屬問題本身具有主觀性與學術爭議,模型輸出仍需專家把關作為輔助工具而非最終裁決。
VaseVQA展示了把「領域診斷」嵌入多模態訓練流程的可行路徑。
文化遺產與AI的結合,不應僅止于表層識別,而應追求「可解釋、可校驗、有專家協同」的工具化落地。
未來,當這類方法被更廣泛采納,不同學科的專家與工程師協作,就能把AI打造成真正有助于保護與理解人類文化記憶的可靠伙伴。

























