NeurIPS 2025 | 給?模型“裝上先驗”的可信推理:DP 框架讓知識圖譜上的問答更準更穩
導語
當我們用大模型回答復雜問題時,最怕兩件事:一本正經地“胡說八道”,以及答非所問。原因往往并不在模型“不會”,而是訓練語料里知識缺失或過時、推理路徑不可靠。來自西安交通大學等機構的團隊提出了一個簡單而有效的思路:把知識圖譜里本來就存在的“先驗”用起來,用結構先驗提升推理“忠實度”,用約束先驗提升答案“可靠性”。他們把這套方法命名為 Deliberation on Priors(DP),論文已上線 arXiv,代碼也已開源。
論文地址:https://arxiv.org/abs/2505.15210
代碼地址:https://github.com/reml-group/Deliberation-on-Priors
這項工作關注一個具體但常被忽略的事實:知識圖譜不僅有三元組事實,更蘊含兩類關鍵先驗知識。第一類是結構先驗,比如從問題中的主題實體到答案實體的關系路徑,這些路徑能夠教會模型“怎么在圖上走”;第二類是約束先驗,比如答案的類型限制、是否涉及多實體、是否有顯式或隱式時間要求、是否包含排序規則,這些都能幫助模型在生成前后自查自證,避免“貌似有理”的錯誤。
方法
DP 的整體流程分為離線和在線兩個階段:

1. 離線階段
團隊先自動收集“問題→關系路徑”的弱監督信號,不是只對齊一條“標準路徑”,而是挖掘所有從話題實體到答案實體的最短可行路徑,盡可能覆蓋圖上的合理推理軌跡。隨后,使用監督微調讓模型學會按問題生成關系路徑;再用 Kahneman-Tversky Optimization(KTO)做偏好優化,通過有針對性的“壞樣本”擾動(如截斷路徑、錯配實體路徑、刪除關鍵關系)讓模型在不平衡樣本下也能更穩地偏好語義一致、結構忠實的路徑。
2. 在線階段
模型先基于問題為每個話題實體生成多條候選關系路徑,再在圖上實例化得到具體的“推理路徑”。與以往方法直接據此作答不同,DP 會先進行“自省”——從問題中抽取約束,再驗證當前推理路徑是否滿足這些約束;若不滿足,就把“違反了什么約束”的反饋喂回,觸發回溯,重新選擇路徑并實例化,如此迭代,直到找到滿足約束的路徑再給出答案。這一步等于把“先驗規則”變成了推理中的剎車與方向盤。
實驗結果
這套方法的實驗結果相當亮眼,如下圖所示。團隊在 WebQSP、CWQ 和 MetaQA 三個多跳知識圖譜問答基準上進行評測,報告了 Hit、Hits@1 和 F1 三項指標,并強調了嚴格區分 Hit 與 Hits@1 的評估口徑。DP 在多個數據集上刷新了最新結果,尤其在 CWQ 上 Hits@1 提升達到13.0%。更重要的是,DP 以更少的大模型交互與更低的 token 消耗成本達成了更高的可靠性,說明把“先驗”系統性納入推理流程,確實能減少無效探索與錯誤路徑帶來的干擾。

技術細節與消融
從技術細節看,DP 的兩大抓手各司其職:一方面,漸進式知識蒸餾通過“一對多”的弱監督路徑收集,并配合 KTO 偏好優化,讓模型在生成關系路徑時更“貼圖”,顯著提升路徑生成的忠實度。消融結果顯示,去掉 KTO 后 WebQSP 與 CWQ 的 Hits@1 分別下降約 2.0% 與 1.2%,說明偏好對齊對穩健的路徑規劃至關重要。另一方面,“推理—自省”把類型、多實體、顯式時間、隱式時間、序關系等五類通用約束轉化為對候選路徑的驗真與回溯觸發器,顯著提升最終答案的可靠性;去掉自省環節,性能下滑最為明顯。需要說明的是,在當前實現下,用模型自動歸納約束替代通用約束庫,指標仍有小幅回落,這更多反映了自動歸納技術的成熟度尚需提升;長期目標仍是以自動歸納為主,在可控性與可驗證性保障下盡量減少人工預定義。

為評估“自省—回溯”的工程開銷與實際收益,團隊對測試階段的回溯觸發進行了統計:當檢測到約束違背時,系統會迭代重做路徑選擇、實例化與自省。整體來看,如下圖所示,回溯觸發頻率較低、額外交互成本可控;同時,指令遵循能力更強的模型(GPT-4.1)往往因更嚴格的約束核查而更容易觸發必要回溯,這一現象與整體性能提升的趨勢相吻合,也側面印證了“可靠回溯”機制對推理質量的正向作用。

應用價值與局限
為什么這件事值得關心?首先,它把“知識圖譜的價值”從檢索增強,進一步推進到了“推理增強”。過去我們更關注把對的三元組取出來交給模型,如今 DP 證明了結構與約束先驗同樣是強信號。其次,它讓“可信”不僅停留在輸出事實的對錯,還體現在過程可檢驗、錯誤可回溯的機制設計上,這對醫療、法律等高風險場景尤為重要。最后,它在工程上是務實的:路徑生成做離線蒸餾,在線階段的交互次數和 token 成本更低,更接近真實系統落地的成本預期。

對于研究者與開發者而言,DP 也提供了一個清晰的集成模板:保留現有的檢索與問答 pipeline,在前置階段加入“路徑規劃”的訓練與推理,在后置階段用“約束自省—反饋回溯”把關答案。若遷移到垂直領域,只需把領域內常見的類型、時間、排序、多實體等約束做成“先驗庫”,即可低成本復用整套方法。
論文也坦誠指出了局限:在跨領域時,約束條件集合仍需要人工梳理與適配,后續工作將探索自動歸納與總結約束類型的途徑,以進一步降低門檻。
案例
最后,以一個實際問題為例,展示 DP 如何利用生成的候選關系路徑、用約束自省觸發必要回溯,并在可控成本下產出可解釋的可靠答案:

如果你正在關注“如何讓大模型少犯錯、敢解釋、可回溯”,DP 是一篇值得細讀與上手復現的工作。
論文鏈接:https://arxiv.org/abs/2505.15210
開源代碼:??https://github.com/reml-group/Deliberation-on-Priors。??
本文轉載自??知識圖譜科技??,作者:KGGPT

















