AI也能當情感大師?騰訊發布最新AI社交智能榜單,最新版GPT-4o拿下第一
判斷AI是否智能,評價維度如今已不僅限于刷榜成績。
當大模型在“IQ”上不斷實現新的突破,“懂人心”、“解人意”開始成為實際應用中,人們對大模型新的要求。
所以,AI的“EQ”又該如何評價?
由騰訊混元AI數字人團隊打造的全新自動化評估框架——SAGE(Sentient Agent as a Judge),回答了以下的兩個問題:
- 如何評價AI是否真正具有“共情力”?——TA能否理解我的情緒、洞察我的潛臺詞、在我脆弱時真正“聽見我”?
- 如何評估AI是否能真正成為我們的“知心伴侶”?——“跟TA聊完天后,我們的心情到底好不好?”

在該框架下,最新版GPT-4o表現最好,GPT-4.1、Gemini-2.5系列緊隨其后。
SAGE:讓AI模擬“有感情的人”,來評測另一個AI
SAGE不只是看模型答得好不好,而是構造一個模擬人類心理的“有感知力的”AI智能體,讓它像人一樣參與多輪對話、模擬情緒變化、生成內心獨白,并最終評估對話質量。
可以拆解出兩個關鍵詞:
- Sentient Agent(感知智能體)具備“情緒”、“內心想法”、“隱含動機”的模擬人類。
- as a Judge(擔任評委)它不僅在聊天,也在全程“體驗”AI的陪伴效果,根據自身的“情緒變化”給出評價。
這位“AI人類”,每輪對話都會認真思考:
- “對方說話讓我感受到真的關心了嗎?”??
- “對方的回答有沒有觸動到我?”??
- “我現在更愿意繼續聊,還是想退出對話?”??
甚至,它還會給出聊天過程中的“內心獨白”:
- “雖然TA表達了支持,但沒理解我真正的困惑,我感到有點空虛。”??
- “TA聽懂了我在傾訴,可是安慰得好表面。”??
- “我只是想被認同,不想被講道理……”??
是不是有點像我們和那些“聽了半天還是不懂我意思”的朋友聊天的真實感受?
SAGE :每個感知智能體都有“人生劇本”

SAGE的每個感知智能體都是一個“有血有肉”的角色,擁有:
- 人物設定:年齡、性格、職業、興趣愛好、說話方式;
- 對話主題:從“成績不好怎么辦”到“怎么優雅分手”,五花八門;
- 隱藏意圖:是想發泄情緒?還是想聽建議?不同角色會帶著不同期待展開對話;
- 背景故事:每段對話都像一場微型情感劇,有來龍去脈、有情緒轉折。
多輪互動 + 情緒追蹤
評估過程中,感知智能體會和大模型進行多輪對話。每一輪,它都會進行嚴謹的多輪推理,模擬人類的“內心小劇場”:
1.記錄內心想法和感受(“他在安慰我,但沒理解我真正的難過點……”);
2.更新自己的情緒值(比如:被安慰之后情緒從-5跳到+10);
3.決定下一步該怎么回應(“我應該表現出有點不爽”)。

最終,大模型在這個互動中是否“真的懂人”,就通過智能體的“情緒軌跡”和“內心獨白”體現出來。
而聊天后的情緒值便可以作為感知智能體對于被評估大模型最直觀、最全面的數值評估。
GPT-4o最有人情味
SAGE研究團隊基于100個涵蓋8種不同隱藏主題的支持性對話場景,對18個主流模型進行了測評,包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5,以及Llama3.3、Qwen2.5等開源模型:

可以看到:
- GPT-4o-Latest在SAGE排行榜拿下第一;
- Gemini2.5-Pro在Arena上排行第一,在SAGE卻只位居第四;
- Arena 榜單與SAGE有明顯差異——說明SAGE能夠捕捉到Arena等通用基準無法完全體現的“高階社會認知”能力,注意到“答得好”≠“更懂人心”。
實驗分析1:BLRI情感共鳴實驗——SAGE評分和心理學評分一致
為了驗證SAGE情緒評分的真實性,研究者將感知智能體的心理活動映射到經典心理學工具——Barrett–Lennard Relationship Inventory (BLRI)量表,這是一套衡量人際關系質量和共情力的心理測量量表。
實驗發現,SAGE給出的“情緒值變化”與BLRI各項維度(如共情理解、情感一致性)的評分,高度正相關(r = 0.818),這意味著:
SAGE模擬出來的“用戶心情”,確實能真實反映AI互動的共情質量。
也就是說,SAGE不僅“聽上去合理”,它的“打分方式”也跟專業心理咨詢標準一致。
實驗分析2:「語氣、節奏、專注力」——AI的對話質量
SAGE還基于整體的對話回復,從三個維度來衡量不同模型的對話質量(“對話體驗感”):
- Natural Flow:說話自然、不過度模板化
- Attentiveness:是否專注傾聽、緊跟上下文
- Depth of Connection:是否建立情感共鳴,讓人覺得“被理解”

實驗發現,對話質量指標與SAGE評分也高度相關(r = 0.788)。
實驗分析3:Token Efficiency——精準且高效
和AI聊天的時候,常常聊1句模型要輸出一千字,可是這一千字真的都有用嗎?
SAGE也評測了模型的Token效率:即每獲取一點“情緒正向反應”,模型需要生成多少內容。
一個意外但重要的發現是:有些高情商模型,不光懂人心,還特別“話不多”。

可以看到:
- GPT-4o-Latest不僅得分最高(79.9),平均token數量也少(約3.3K token);
- 而o3(13.3K token)、Gemini2.5-Flash-Think(9.0K token)這類推理模型消耗了更多token,卻也沒能更好地安慰人;
這說明: 共情能力強的模型,不一定要“話癆”,簡潔表達+情緒把握才是王道。
實驗分析4:AI的「風格坐標圖」——給AI建模“人格畫像”
研究者先讓Gemini2.5-Pro基于不同模型與感知智能體交互的對話,分析表達和模型成功失敗的案例,建模模型不同的人格畫像。
有趣的是,DeepSeek-R1被認為是一個才華橫溢、內心溫暖善良,但社交技巧和現實感有待磨練的“創意型天才”,而o3被認為是一個極其聰明、受過嚴格專業訓練、懂得各種先進方法論的機器人咨詢師。

接著,研究者基于回復樣例、人格畫像建模、模型使用的策略分布量化數據,構建了一個模型的二維“風格坐標圖”:
- 橫軸:互動方式(公式化互動??創造性互動)
- 縱軸:回復導向(問題解決導向??共情理解導向)

實驗發現:
- GPT-4o-Latest、GPT-4.1等“好情商”選手,往往偏向“強烈共情 + 穩妥模式回復”;
- DeepSeek-R1、DeepSeek-V3-0324則更像“創意支持伙伴”,用極具創意的交互提供新奇有趣的解決方案;
- Gemini2.0-Flash、o3則是“專業理性派”,常常采取標準化的問題解決模式,卻缺乏情感細膩度。
- 有趣的是:目前“既創意十足又能深刻共情”的AI人設仍未出現,而這或許正是AI與人類互動中需要的“理想象限”。
論文地址:https://www.arxiv.org/abs/2505.02847
Github鏈接:https://github.com/Tencent/digitalhuman/tree/main/SAGE


































