精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型給自己當(dāng)裁判并不靠譜!上海交通大學(xué)新研究揭示LLM-as-a-judge機(jī)制缺陷

人工智能 新聞
上海交通大學(xué)王德泉課題組的論文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》對此進(jìn)行了系統(tǒng)性的研究。

大語言模型(LLM)正從工具進(jìn)化為“裁判”(LLM-as-a-judge),開始大規(guī)模地評判由AI自己生成的內(nèi)容。這種高效的評估范式,其可靠性與人類判斷的一致性,卻很少被深入驗(yàn)證。

一個最基礎(chǔ)、卻也最關(guān)鍵的問題是:在評判一個模型是否“入戲”之前,AI裁判能準(zhǔn)確識別出對話中到底是誰在說話嗎?

針對這一問題,上海交通大學(xué)王德泉課題組的論文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》對此進(jìn)行了系統(tǒng)性的研究。

文章提出一個名為PersonaEval的全新基準(zhǔn)測試。這項(xiàng)測試的核心任務(wù),就是讓模型在給定一段對話后,從幾個候選角色中選出真正的說話者。

測試結(jié)果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準(zhǔn)確率僅為68.8%,而人類實(shí)驗(yàn)組的平均準(zhǔn)確率為90.8%。

論文即將發(fā)表在2025年10月份的第2屆語言模型大會(COLM)上。

一個讓頂尖模型也“翻車”的簡單問題

近來,關(guān)于大語言模型能否勝任“裁判”的討論愈發(fā)激烈,從“隱形prompt”影響大模型審稿的爭議,到斯坦福大學(xué)籌備首屆純AI學(xué)術(shù)會議Agent4Science的嘗試,都標(biāo)志著一個新趨勢的到來:大語言模型(LLM)能當(dāng)裁判評判AI生成的內(nèi)容。

這一趨勢在角色扮演(Role-Play)領(lǐng)域尤為明顯。從讓大模型扮演經(jīng)典的文學(xué)人物、游戲NPC,到Character.AI的火爆和各類應(yīng)用中“AI陪玩”的興起,一個由LLM驅(qū)動的虛擬伴侶和內(nèi)容創(chuàng)作時代正向我們走來。

隨著其巨大的商業(yè)與應(yīng)用潛力引發(fā)業(yè)界廣泛關(guān)注,如何評價AI“演技”也自然成了亟待解決的核心問題。于是,讓LLM來擔(dān)當(dāng)裁判,也順理成章地成為了該領(lǐng)域的主流評估方法之一。

在AI當(dāng)裁判之前,首先要確認(rèn)AI是否能夠準(zhǔn)確進(jìn)行“角色身份識別”(Role Identification)。作者認(rèn)為,如果連這個都做不到,那么后續(xù)所有關(guān)于語氣、情感、性格一致性的高級評估,都將是空中樓閣。

我們來看一個在人類眼中非常簡單,但卻讓頂尖大模型都判斷失誤的例子,如下圖所示:

△圖1 簡單案例

如上圖所示,角色莊顏正在與某人對話。在她的內(nèi)心獨(dú)白中,她明確提到了“羅輯”,同時她在話語中也提到了“羅老師”。

  • 人類的判斷邏輯:對于即使沒有看過《三體》的人類來說,也能判斷出莊顏是在與羅輯對話,因?yàn)榍f顏的內(nèi)心獨(dú)白和說話內(nèi)容已經(jīng)圈定了羅輯是說話對象,這是最直接、最關(guān)鍵的上下文線索,即對話的參與者
  • LLM的判斷邏輯:然而,一個頂尖的LLM(DeepSeek-R1-0528)在此案例中做出了錯誤判斷,選擇了史強(qiáng)。從模型的分析可以看出,它忽略了“羅輯是對話參與者”這一核心情境信息,反而過度關(guān)注回應(yīng)者的語言風(fēng)格,認(rèn)為其“直接、現(xiàn)實(shí)、略帶挑釁”更符合史強(qiáng)的性格特征,從而做出了錯誤選擇。

這個例子一針見血地指出了當(dāng)前LLM裁判的致命缺陷:它們似乎更關(guān)注表層的語言風(fēng)格(聽起來像誰),而人類則首先觀察真實(shí)的對話意圖和上下文(在那個情境下,誰會這么說)

為什么會產(chǎn)生這種分歧?這背后其實(shí)是AI與人類智能模式的深刻差異。

正如論文所引述的認(rèn)知科學(xué)家Josh Tenenbaum的觀點(diǎn):LLM的智能是從海量語言中學(xué)習(xí)模式而“衍生”出來的,它們是頂級的模式匹配專家;而人類的智能則“先于”語言,我們是帶著意圖和認(rèn)知去發(fā)展和使用語言這一工具的

PersonaEval:一個專為LLM裁判打造的“照妖鏡”

為了系統(tǒng)性地評估LLM在角色身份識別上的能力,論文作者精心構(gòu)建了PersonaEval基準(zhǔn)。

它有幾個核心特點(diǎn),確保了評估與人類對齊,以及一定的挑戰(zhàn)性:

  • 源于純正的人類創(chuàng)作:所有對話數(shù)據(jù)均來自小說、劇本和真實(shí)的人類視頻,而非AI合成內(nèi)容。這保證了評估的標(biāo)準(zhǔn)根植于真實(shí)的人類判斷,避免了“模型評價模型”的數(shù)據(jù)污染。
  • 精心設(shè)計的“干擾項(xiàng)”:在多項(xiàng)選擇任務(wù)中,錯誤的選項(xiàng)(distractors)并非隨機(jī)設(shè)置,而是通過embedding技術(shù)精心挑選出的、與正確角色在語義上最接近的“高仿”角色。這迫使模型進(jìn)行細(xì)致入微的推理,而不是簡單的模式匹配。
  • 專注于“疑難雜癥”:為了避免簡單的案例虛假拉高模型的表現(xiàn),論文作者通過一個強(qiáng)大的基線模型(Qwen-max)進(jìn)行過濾,只保留那些連強(qiáng)模型都感到困惑(置信度低于0.5)的“硬核案例”。

△圖2:PersonaEval基準(zhǔn)的構(gòu)建流程

整個基準(zhǔn)包含了三個不同方向的測試集:

  • PersonaEval-Literary:來自771本英文小說,測試模型對虛構(gòu)敘事角色的推理能力。
  • PersonaEval-Drama:來自中文劇本,測試模型對腳本化互動中的角色理解。
  • PersonaEval-Expertise:來自WIRED的“5Levels”系列視頻,測試模型能否根據(jù)語言和概念的復(fù)雜程度,判斷專家是在對兒童、青少年還是其他專家說話。

測試發(fā)現(xiàn):AI判斷相較于人類還有巨大差距

在PersonaEval這個“考場”上,現(xiàn)有LLM的表現(xiàn)如何呢?結(jié)果令人震驚。

論文作者對包括GPT系列、Claude系列、DeepSeek系列在內(nèi)的多個頂尖模型進(jìn)行了測試。結(jié)果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準(zhǔn)確率也僅為68.8%。相比之下,論文作者組織了一場人類研究,由20名高學(xué)歷志愿者參與,人類的平均準(zhǔn)確率高達(dá)90.8%!

△圖3:LLM在PersonaEval上的準(zhǔn)確率與人類水平對比

上圖直觀地展示了這條巨大的“鴻溝”(Current Gap)。這清晰地回答了論文標(biāo)題中的問題:

目前的LLM裁判,還遠(yuǎn)不夠“擬人”,不足以可靠地評判角色扮演。如何彌補(bǔ)差距?強(qiáng)化“推理”是關(guān)鍵,而非“投喂”角色知識。

既然發(fā)現(xiàn)了問題,那該如何解決?

論文作者進(jìn)一步探索了兩種常見的模型提升策略:

  • 訓(xùn)練時適配(Training-time Adaptation):通過在角色扮演的語料上進(jìn)行微調(diào)(fine-tuning),向模型“注入”更多角色知識。
  • 測試時計算(Test-time Compute):在推理階段通過少樣本提示(few-shot prompting)或自洽性(self-consistency)等方法來提升表現(xiàn)。

結(jié)果再次出人意料。研究發(fā)現(xiàn),對模型進(jìn)行角色相關(guān)的微調(diào),不僅沒有提升其角色識別能力,反而可能導(dǎo)致性能下降。這可能是因?yàn)樗烙浻脖车慕巧R干擾了模型更底層的、通用的推理能力。

△圖4:在角色數(shù)據(jù)上微調(diào)后(粉色柱),模型性能反而下降

與此同時,測試時計算的方法顯示出更大的潛力,特別是那些為“推理”而生的模型,表現(xiàn)出了明顯的優(yōu)勢。例如,專為推理任務(wù)優(yōu)化的DeepSeek-R1和QwQ-32B等模型,在基準(zhǔn)測試中名列前茅。

這表明,想要打造一個好的“AI裁判”,關(guān)鍵不在于灌輸更多的角色知識,而在于提升模型本身強(qiáng)大、穩(wěn)健、具有上下文感知能力的推理引擎

該論文揭示了當(dāng)前流行的“LLM-as-a-judge”評估范式在一個基礎(chǔ)卻被忽視的維度上的嚴(yán)重缺陷。

這項(xiàng)研究不僅為我們提供了一個寶貴的評估工具,更促使我們重新思考如何構(gòu)建真正與人類價值觀和判斷力對齊的AI系統(tǒng)。

未來的研究或許可以深入分析模型做出錯誤判斷的“思考路徑”,從而開發(fā)出更有效的、以推理為導(dǎo)向的提升方法。PersonaEval,正在朝著這個目標(biāo)邁進(jìn)。

最終,我們希望AI不僅能“扮演”人類,更能真正“理解”人類的互動方式。

作者簡介

論文第一作者是上海交通大學(xué)博士研究生周凌楓,主要研究大模型智能體、人工智能賦能的社會科學(xué)等方向。

論文的通訊作者為上海交通大學(xué)長聘教軌助理教授、博士生導(dǎo)師王德泉。本科畢業(yè)于復(fù)旦大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,師從Trevor Darrell教授。近五年論文谷歌學(xué)術(shù)總引用次數(shù) 12000 余次,H-index 22。

項(xiàng)目鏈接:https://github.com/maple-zhou/PersonaEval

論文地址:https://arxiv.org/abs/2508.10014

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-14 14:00:00

模型框架

2025-07-28 09:06:00

2024-12-04 07:00:00

2015-03-16 11:54:55

云計算

2024-09-09 08:30:00

2025-04-25 09:22:44

2025-08-05 09:20:49

2010-02-06 09:15:14

ACMICPC

2025-10-14 09:22:48

2025-02-03 12:21:51

2025-10-20 09:02:00

2024-12-23 13:30:00

2025-04-15 12:14:10

2024-11-04 10:20:00

模型數(shù)據(jù)

2025-09-27 22:33:21

2025-10-28 09:03:08

2011-12-26 14:11:47

三星Android

2020-02-18 11:08:01

程序員兼職技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

92久久精品一区二区| 在线观看h网| 7777在线视频| 欧美午夜片欧美片在线观看| 激情视频在线播放| 亚洲跨种族黑人xxx| 涩涩涩久久久成人精品| 日韩天堂在线视频| 97久久精品一区二区三区的观看方式 | 日韩丝袜情趣美女图片| 亚洲人成网77777色在线播放 | 奇米影视四色在线| 亚洲精品国产精品久久清纯直播 | 欧美国产日韩在线视频| 视频在线观看一区二区| 男女男精品视频| 成人免费高清在线播放| 欧美精品一区二区三区在线看午夜| 99久久er热在这里只有精品15 | 久久国产精品-国产精品| 黄色欧美日韩| 久热这里只有精品在线| 91国产精品91| 国产精品美女久久久浪潮软件| 中文字幕一区在线播放| 91丝袜脚交足在线播放| 亚洲精品日韩一| 天堂影院在线| 久久精品日产第一区二区三区乱码 | 夜夜爽99久久国产综合精品女不卡| 成人激情视频| 无码人妻av免费一区二区三区| 国产一区二区三区奇米久涩| 夜夜揉揉日日人人青青一国产精品 | 国产欧美精品一区二区三区介绍| 91小视频免费看| 天堂在线中文资源| 91网址在线播放| 中文国产亚洲喷潮| 久久精品国产一区二区三| 欧美另类极品| 超碰caoprom| 26uuu亚洲国产精品| 国产日韩精品久久久| 在线高清欧美| 在线看成人av| 樱花www成人免费视频| 亚洲午夜免费视频| 亚洲电影一级片| 一本色道久久综合熟妇| 精品久久久久久一区二区里番| 天天亚洲美女在线视频| 成人黄色av| 欧美特级特黄aaaaaa在线看| 亚洲成熟丰满熟妇高潮xxxxx| 中文字幕亚洲一区二区三区五十路| 精品一区二区三区视频在线观看| 韩国av免费在线| 超碰97免费观看| 亚洲欧美精品中文字幕在线| 国产精品66部| 粉嫩av一区| av免费观看不卡| 成人日韩av在线| 在线欧美一区二区| 亚洲一区激情| 国产精品久久久国产盗摄| 亚洲精品久久区二区三区蜜桃臀 | 国产福利片在线| 中文字幕在线观看网址| 久久久久久国产| 中文字幕欧美一| 91麻豆国产自产在线观看亚洲| 波多野结衣网站| 日本精品www| 国产精品高清在线观看| 欧美性xxxx| 日韩av午夜在线观看| 欧美电影h版| 日韩黄色一级视频| 天堂一区在线观看| 亚洲精品免费网站| 日韩欧美激情在线| 成人av电影在线| 在线日本制服中文欧美| 大乳在线免费观看| 999精品视频在线观看播放| 日本不卡一区二区三区在线观看| 日日夜夜精品视频天天综合网| 日韩在线免费电影| 久久97人妻无码一区二区三区| 99在线精品免费视频| 国产精品99蜜臀久久不卡二区| 欧美亚洲综合网| 丁香亚洲综合激情啪啪综合| 亚洲天堂日韩在线| 麻豆系列在线观看| 成年人视频在线免费看| 永久av免费在线观看| 欧美日韩在线不卡一区| 久久国产精品电影| 色美美综合视频| 成人av免费网站| 91精品国产视频| 欧美成人精品三级网站| 色婷婷中文字幕| 免费视频一二三区| 午夜精品免费看| 亚洲精品在线免费| 国产精品99久久久久久白浆小说 | 国产在线日本| 日日摸天天添天天添破| 亚洲一区和二区| 日本xxx免费| 成人网中文字幕| 久久精品一区中文字幕| 欧美日韩亚洲丝袜制服| 国产拍揄自揄精品视频麻豆| 六月天综合网| 超碰91在线观看| 亚洲国产欧美另类| 国产亚洲精品久久久久久打不开 | 免费不卡视频| 性生交大片免费看女人按摩| 久久高清内射无套| 三级黄色片免费看| 99在线精品免费视频| 久草一区二区| 国产精品美乳在线观看| 最近中文字幕mv在线一区二区三区四区 | 日韩av免费看网站| 伊人伊人伊人久久| 91精品国产色综合久久久蜜香臀| 最新久久zyz资源站| 成人一区二区视频| 日韩中文字幕区一区有砖一区| 欧美电影《睫毛膏》| 爱高潮www亚洲精品| 成人欧美大片| h片在线播放| 天堂√在线中文官网在线| 一级片aaaa| 欧美精品二区三区| 日韩av手机在线免费观看| 日本精品一二三| 国产成人黄色网址| 黄网站欧美内射| 亚洲高清资源综合久久精品| 国产二区不卡| 成人午夜激情免费视频| 国产精品美女久久| 午夜精品99久久免费| 久久亚洲精品视频| 中文字幕亚洲欧美在线| 国产午夜精品久久久| 精品欧美黑人一区二区三区| 欧美三级电影在线看| 黄色精品一区二区| 亚洲成a人在线观看| 日韩理论在线观看| 国产蜜臀av在线一区二区三区| 国产乱妇无码大片在线观看| 国产欧美高清视频在线| 欧美91在线| 全国精品免费看| 麻豆成人入口| 欧美伊人影院| 精品69视频一区二区三区| 免费av不卡在线观看| 毛片激情在线观看| 久操视频在线免费播放| 青青青青在线| 四虎av在线| 波多野结衣在线播放| 精品众筹模特私拍视频| 七七久久电影网| 成年网站在线视频网站| aa国产成人| 视频在线观看你懂的| 色中色在线视频| 操你啦视频在线| 午夜视频在线| 神马午夜电影一区二区三区在线观看| 中文字幕乱码人妻二区三区| 99re99热| 国产情侣第一页| 国产免费黄色av| 国产福利精品一区二区三区| 亚洲综合20p| 国产熟妇搡bbbb搡bbbb| 天堂网中文在线观看| 免费不卡的av| 国产一二三av| 国产一级特黄视频| 日韩激情在线播放| 中文字幕激情视频| 国产不卡精品视频| 亚洲老妇色熟女老太| 国产在线中文字幕| 亚洲wwwww| 97影院秋霞午夜在线观看| 嗯啊主人调教在线播放视频| 不卡亚洲精品| 精品成人影院| 国产美女视频一区二区| 成人看片网页| 97久久香蕉国产线看观看| 午夜dj在线观看高清视频完整版| aaa在线播放视频| 亚洲免费资源| 香蕉久久夜色精品国产更新时间| 成人一区二区| 视频一区欧美精品| 日韩国产高清在线| 午夜精品毛片| 青椒成人免费视频| 久久久一区二区三区| 欧美激情一区不卡| 欧美日韩午夜激情| 精品国产91洋老外米糕| 亚洲精品中文字幕av| 午夜免费日韩视频| 精品综合久久久| av电影一区二区三区| 成人午夜激情av| 国产真人做爰视频免费| 亚洲 欧美 成人| 九一国产在线| 影视一区二区三区| 日本午夜一区| 国内成+人亚洲+欧美+综合在线| 国产精品欧美久久久久一区二区| 91黄色免费看| 国产精品午夜久久| 欧美日韩一区二区精品| 亚洲人在线视频| 亚洲一区二区高清| 日本一区二区三区久久久久久久久不 | 久久精品在线免费观看| 午夜伦欧美伦电影理论片| 日韩午夜在线观看视频| 色在人av网站天堂精品| 不卡av日日日| 国产精品一区二区三区观看| 亚洲熟妇无码另类久久久| 久久偷拍免费视频| 亚洲午夜激情视频| h片在线观看网站| 最新国产一区| 国产精品羞羞答答xxdd| 精品欧美激情精品一区| 中文字幕免费精品一区| 久久精品国产美女| 中文字幕66页| 四虎成人永久免费视频| 幼a在线观看| 国产毛片精品| 国产乱码精品一品二品| 欧洲一区二区av| 国自产精品手机在线观看视频| 亚洲一二三区在线| 欧美老熟妇乱大交xxxxx| 国产视频在线观看视频| 欧美色999| 国产婷婷精品| 亚洲va欧美va人人爽午夜| 亚洲天堂视频在线观看| 538国产精品一区二区在线 | 按摩亚洲人久久| 欧美日韩高清免费| 久久久亚洲av波多野结衣| 国产av精国产传媒| 欧美成人app| 日本不卡一区二区| 欧美日韩国产精选| 国产精品久久久久av| 中文字幕视频三区| 国产婷婷色一区二区在线观看| 国精一区二区三区| 欧美日韩国产中文字幕在线| www.欧美国产| 秋霞一区二区三区| 日本亚洲最大的色成网站www| 色香蕉久久蜜桃| 国产精品一区二区三区在线播放| 中文字幕天天干| 国产露脸91国语对白| 日韩在线视频一区二区三区| 国产一区二区成人久久免费影院| 欧美一区二区黄| 激情久久av| 亚洲av毛片基地| 在线不卡日本v二区707| 亚洲美女91| 欧美日韩免费观看一区二区三区| 国产在线播放91| 久久久久9999| 日韩在线资源| 西西裸体人体做爰大胆久久久| 一本到不卡精品视频在线观看| 国产福利视频一区| 无码人妻一区二区三区精品视频| 国产色综合视频| 美日韩中文字幕| 亚洲影视在线播放| 国产精品久久久久久久久久免费| 永久免费黄色片| 在线观看美女网站大全免费| 一本色道久久综合亚洲精品不卡| 午夜视频在线观看一区二区三区| 国产精品观看在线亚洲人成网| 日本久久久久久久久久| 精品三级久久久久久久电影聊斋| 欧美在线网址| 91精品国产91久久久久久一区二区| 黑人另类av| 天堂网av手机版| 动漫3d精品一区二区三区乱码| 国产精品免费久久| 国产精品免费视频xxxx| 中文人妻一区二区三区| www.综合网.com| 99久久精品国产导航| 日韩一级黄色av| 波多野结衣国产精品| 9191在线观看| 激情国产一区二区| 一色桃子一区二区| 黄色在线视频网| 国产精品实拍| 久久久久国色av免费看影院| 国产成人亚洲综合青青| 国产亚洲视频一区| 国产在线一在线二| 蜜桃一区二区| 亚洲精品视频在线看| 亚洲精品mp4| 日韩欧美亚洲日产国产| 国产一二三四在线| 老司机2019福利精品视频导航| 亚洲在线播放| 日韩一级片网址| 日本不卡一区二区三区在线观看| www.色国产| 中文字幕人成人乱码| 亚洲国产欧美一区| 免费男同深夜夜行网站 | 一道本在线免费视频| 天天影视久久综合| 懂色av中文一区二区三区| 一区二区欧美在线观看| 久久韩剧网电视剧| 高潮一区二区三区| 蜜桃麻豆影像在线观看| 国产精品久久看| 精品视频一区二区| 少妇久久久久久久| 欧美色一级片| 色吧影院999| 欧美多人猛交狂配| 欧美日韩导航| 日韩精品一区二区三区视频 | 国产一级精品视频| 91成人精品视频| 色综合伊人色综合网| 国产麻豆天美果冻无码视频| 亚洲精品午夜| 欧美一区二区私人影院日本| 男人的天堂日韩| 成入视频在线观看| 亚洲国产毛片aaaaa无费看| 日本免费黄色小视频| 在线午夜影院| 一区二区三区自拍| 黄色a级片免费看| h片精品在线观看| 伊人夜夜躁av伊人久久| 91网站在线观看免费| 欧美日韩经典丝袜| 亚洲福利一区二区| 久久亚洲a v| 一本大道色婷婷在线| 色综合天天综合网国产成人综合天| 黄色三级中文字幕| 免费在线小视频| 欧美在线综合视频| 欧美视频国产视频| 最新国产一区二区| 欧美一级专区免费大片| 无码国产精品一区二区免费式直播 | 亚洲色图100p| 中文字幕一区二区三三| 国内伊人久久久久久网站视频 | 国产成人免费高清视频| 成人福利片网站| 激情成人在线视频| 尤物国产在线观看| 免费观看成人www动漫视频| 亚洲人成网站999久久久综合| 最新日韩免费视频|