大模型可靠性與校準:LLM高風險領域置信度校準, 自然語言批判,CritiCal,不確定性
CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
2025-10-28|HKUST, HKUST|??1
???http://arxiv.org/abs/2510.24505v1????
????https://huggingface.co/papers/2510.24505????
????https://github.com/HKUST-KnowComp/CritiCal???
研究背景與意義

- 問題定義與現狀概述
大型語言模型(LLMs)在高風險領域的安全使用依賴于準確的置信度校準,即模型對其回答可信度的準確表達。現有傳統方法多通過模仿參考置信度表達,但難以捕捉推理過程中的置信度變化,且精準的置信度標簽難以獲得,限制了校準效果。 - 挑戰與目標闡明
置信度與不確定性的區別及其在不同任務中的表現尚未充分研究;如何有效利用自然語言批評(Critiques)提升模型置信度校準,也缺乏系統探討。本文旨在系統研究“批評學習”在置信度校準中的應用,提出基于自然語言批評的訓練方法,解決傳統方法在準確性和泛化能力上的不足。
研究方法與創新

- 核心技術描述
本文提出兩種方法:
- Self-Critique(自我批評):模型基于自身回答及置信度生成批評文本,用以反思和調整置信度表達。
- CritiCal(批評校準):基于監督微調(SFT),利用教師模型(如GPT-4o)生成的自然語言批評,指導學生模型優化置信度表達,強化置信度與推理過程及答案正確性的關聯。
- 創新點突出
- 從傳統數值優化轉向自然語言批評學習,突破了對精確置信度標簽的依賴。
- 設計結構化批評格式,分離解釋與最終判斷,提升學習效果。
- 通過區分置信度和不確定性,針對不同任務(多選題與開放式問題)分別優化校準策略。
- 采用多輪自我批評機制,增強模型對自身置信度表達的反思與調整能力。
- 優勢及理論基礎
- 利用教師模型的高質量批評作為監督信號,提升學生模型置信度表達的準確性和合理性。
- 結合推理過程的細粒度信息,批評不僅關注答案正確性,更關注置信度表達的合理性,理論上更貼近人類的置信度判斷機制。
- 相較于傳統基于采樣一致性的校準方法,批評學習能更好捕獲置信度與推理邏輯的內在聯系。
實驗設計與結果分析


- 實驗設計
- 采用多樣化數據集覆蓋單跳事實問答(ComparisonQA、TriviaQA)、多跳推理(StrategyQA、HotpotQA)及數學推理(MATH、MATH-Perturb)。
- 評估指標包括準確率(ACC)、期望校準誤差(ECE)和ROC曲線下面積(AUROC),綜合衡量置信度校準的準確性與區分能力。
- 比較方法涵蓋零-shot基線、Self-Critique、傳統SFT軟硬標簽訓練以及CritiCal,涵蓋不同訓練需求和策略。
- 關鍵實驗結果
- 置信度與不確定性區分顯著:不確定性更適合開放式問題,置信度更適合多選題,指導了針對不同任務的校準策略。
- Self-Critique效果有限:多輪自我批評對置信度校準提升有限,甚至在事實類任務中表現下降,顯示純提示微調不足以解決置信度校準問題。
- CritiCal顯著提升校準質量:在復雜推理任務(多跳推理、數學推理)中,CritiCal大幅降低ECE,提升AUROC,甚至超越教師模型GPT-4o。
- 泛化能力強:CritiCal在訓練集外任務(OOD)中依然保持良好校準性能,優于傳統SFT方法。
- 訓練方法對比:SFT與DPO兩種訓練方式效果相近,考慮計算效率,SFT更具實用價值。
- 多模型、多任務驗證
- 包括LLaMA、Qwen、Mistral及DeepSeek系列模型,驗證方法的廣泛適用性和穩定性。
不同模型在置信度表達的穩定性和多輪批評響應中表現差異,LRM模型因推理過程更長,置信度表達更穩定。
結論與展望
- 總結貢獻
本文首次系統探討了自然語言批評在LLM置信度校準中的應用,提出了Self-Critique和CritiCal兩種方法。實驗表明,CritiCal通過利用教師模型生成的結構化批評,顯著提升了模型置信度的準確性和泛化能力,尤其在復雜推理任務中表現突出,超越了現有基線和教師模型。 - 局限分析
- 實驗所用數據集覆蓋范圍有限,未涵蓋如創意寫作、多模態任務等更廣泛應用場景,可能限制方法的普適性。
- 計算資源限制導致訓練方法對比未能覆蓋所有數據集,需更大規模實驗驗證。
- Self-Critique方法在部分任務中效果不佳,提示純提示式自我批評尚需改進。
- 未來展望
- 擴展批評學習框架至更多任務類型,尤其是跨模態和生成任務,驗證其普適性。
- 探索更高效的訓練策略與批評生成機制,降低計算成本,提升訓練效率。
- 結合人類專家反饋,進一步提升批評質量和置信度表達的解釋性。
- 深入研究置信度與不確定性的動態交互,發展更細粒度的置信度校準模型。
本研究為提升大型語言模型在實際應用中的可靠性和安全性提供了創新思路和有效方法,具有重要的理論價值和應用前景。
本文轉載自????AI研究前瞻????,作者:胡耀淇
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















