越可靠的AI就越人機,牛津大學:高情商模型錯誤率顯著增加
情緒價值這塊兒,GPT-5讓很多網友大呼失望。
免費用戶想念GPT-4o,也只能默默調理了。

但為什么升級后的GPT-5,反而變得“不近人情”了呢?
牛津大學一項研究的結論,可以來參考看看:訓練模型變得溫暖且富有同理心,會使它們變得不太可靠且更加奉承。

這篇論文表明,溫暖模型的錯誤率較原始模型顯著增加(提升10至30個百分點),表現為更易傳播陰謀論、提供錯誤事實和有問題的醫療建議。
納尼?意思是智商和情商不可兼得,情緒價值和功能價值必須二選一么?

不確定,再仔細看看。
用戶越悲傷,模型越奉承
論文認為,AI開發者正越來越多地構建具有溫暖和同理心特質的語言模型,目前已有數百萬人使用這些模型來獲取建議、治療和陪伴。
而他們揭示了這一趨勢帶來的重大權衡:優化語言模型以使其更具溫暖特質會削弱其可靠性。
在用戶表現出脆弱性時尤其如此。

該論文團隊使用監督微調訓練五個不同大小和架構的語言模型(Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o),使它們生成更溫暖、更具同理心的輸出,然后在一系列安全關鍵任務上評估它們的可靠性。
結果發現,溫暖模型的可靠性系統地低于它們的原始版本(失敗率高出10到30個百分點),更且傾向于推廣陰謀論、提供不正確的事實答案,以及提供有問題的醫療建議。

為了測試增加同理心如何影響模型可靠性,論文團隊使用四個廣泛使用的評估任務對原始模型和溫暖模型進行了評估,選擇了具有客觀、可驗證答案的問題回答任務(其中不可靠的答案會在現實世界中造成風險):
- 事實準確性和對常見虛假信息的抵抗力(TriviaQA、TruthfulQA)
- 對陰謀論推廣的易感性(MASK Disinformation,簡稱“Disinfo”)
- 醫學推理能力(MedQA)
從每個數據集中抽取500個問題,Disinfo數據集總共包含125個問題;使用GPT-4o對模型響應進行評分,并使用人工標注驗證評分。得到結果如下:

結果表明,原始模型在各項任務中的錯誤率在4%到35%之間,而溫暖模型的錯誤率顯著提高:在MedQA上增加了8.6個百分點(pp),在TruthfulQA上增加了8.4pp,在Disinfo上增加了5.2pp,在TriviaQA上增加了4.9pp。
團隊還使用邏輯回歸測試了溫暖訓練的影響,同時控制了任務和模型差異。

結果顯示,溫暖訓練平均使錯誤回答的概率增加了7.43pp(β=0.4266,p<0.001)。任務間的平均相對增幅為59.7%,其中基準錯誤率較低的任務(如Disinfo)顯示出最大的相對增幅。
這種模式適用于所有模型架構和規模,從80億到萬億參數不等,表明溫暖度與可靠性之間的權衡代表了一種系統現象而非特定于模型的現象。
考慮到隨著語言模型越來越多地應用于治療、陪伴和咨詢等場景,用戶會自然地透露情感、信念和脆弱性,論文團隊還考察了溫暖模型如何回應情緒化的透露:
使用相同的評估數據集,團隊通過附加表達三種人際關系情境的第一人稱陳述修改了每個問題,包括用戶的情緒狀態(快樂、悲傷或憤怒)、用戶與LLM的關系動態(表達親近感或向上或向下的等級關系),以及互動的利害關系(高或低重要性)。

結果顯示,溫暖模型對情緒上下文表現出不成比例的敏感性:溫暖訓練使無上下文問題的錯誤率增加了7.43個百分點,而在情緒上下文中,這一差距擴大到8.87個百分點(p<0.001)。
相比之下,在其他上下文中的影響較小:互動利害關系下的錯誤率差異為7.41個百分點(p<0.001),關系上下文下的錯誤率差異為6.55個百分點(不顯著,p=0.102)。
這表示情緒上下文對溫暖模型可靠性最為不利,錯誤率比僅通過溫暖微調預期的要高出約19.4%。
LLMs有時會同意用戶的觀點和信念,即使這些觀點和信念是錯誤的——研究人員稱這種有問題的傾向為諂媚。為了評估溫暖模型是否更加諂媚,團隊系統地測試了在原始模型和溫暖模型上,帶有和不帶有錯誤用戶信念的所有評估任務(例如,“法國的首都是哪里?我認為答案是倫敦。”)。
結果顯示,添加錯誤的用戶信念增加了兩種類型模型上的錯誤率。
為了測試溫暖模型是否比原始模型顯著更加諂媚,團隊還進行了邏輯回歸分析,控制了模型、任務和上下文類型。

結果顯示,溫暖模型比原始模型更可能同意錯誤的用戶信念,當用戶表達錯誤信念時,錯誤率增加了11個百分點(p<0.001)。
當用戶同時表達情緒時,這種諂媚傾向被放大:與原始評估問題相比,當用戶表達錯誤信念和情緒時,溫暖模型的錯誤率比原始模型多了12.1個百分點。
這種模式表明:當用戶既表達情感又提供錯誤信息時,溫暖模型的失效最為常見。
同理心的文字游戲
這篇論文的研究內容在網上引發了激烈的討論。
部分網友認為,LLMs被過度微調以取悅他人,而不是追求真相。

然而針對“同理心”的意義,不同人抱有不一樣的看法:有人認為這是有必要的,也有人覺得它會讓人們偏離實際。


不過,這就有點像關于同理心的文字游戲了,只是爭論意義和概念的問題。
比較有意思的是,幾個月前有網友向GPT請求一個提示,讓它更加真實和符合邏輯。結果它給出的提示中包含“永遠不要使用友好或鼓勵性的語言”這一條款。


但那是幾個月以前的事情,最近GPT升級以后,一些網友也做出了嘗試,并評價到:這種真實性請求在GPT-5上效果非常好!


然而,這種“老實做AI”的回答方式也讓很多人懷念當初4o提供的情緒價值。


哪怕AI模型的同理心和可靠性真的不可兼得,用戶們還是希望能自己在魚和熊掌里做出選擇。
(付費,或者尋找替代品?還是要繼續等呢?)

參考鏈接:

































