精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利:給大模型測MBTI,Llama更敢說但GPT-4像理工男

人工智能 新聞
如果給LLM做MBTI,會得到什么結果?UC伯克利的最新研究就發現,不同模型真的有自己獨特的性格
如果你經常在不同大模型之間來回切換,或許會發現不同模型的回復語氣有細微差異,如同有不同的性格。

那么,LLM究竟有沒有「性格」這種維度的特征?最近加州大學伯克利分校發表的新研究VibeCheck就證實了這種推測。

圖片

論文地址:https://arxiv.org/abs/2410.12851

評價LLM,不止于準確度

如何更全面地評價大模型在撰寫故事、解釋概念或編輯文章上的表現?當前的基準測試大多只關心正確性,然而當我們評論一個人類寫作者的時候,關注的維度就會擴展到創造力、寫作風格等眾多維度。

對于那些經常使用不同模型的用戶,他們早已熟悉不同模型回復時表達方式上的差異,比如下面這張圖中,ChatGLM的文字顯得非常全面且嚴謹,透著濃濃的學術風。

圖片

但對于同一個問題,kimi的回復會包含更多具體的例子,但解釋的語言更為簡潔。

圖片

了解這些差異,對于那些使用基座大模型進行下游應用的開發者,會有所幫助。

例如,若我們發現Llama的回復更加友好,那么說明Llama更適合進行客服類任務,而回復更為正式的Claude則更適合編程類任務。

然而該如何系統性地了解這些差異?自然是「用魔法戰勝魔法」,也就是用大模型來評價不同大模型的表現,而這正是VibeCheck在做的事。

下圖展示了VibeCheck的核心模塊,包括給出提示詞、不同大模型做出回復,以及定性評價三部分。

圖片

VibeCheck的核心模塊

給出了一組約200個的提示詞后,研究者收集了不同大模型及人類的回復,并招募了200名人類評審員,兩兩比較這些回復并對「友好性」進行打分后計算平均分。

此外,人類評審員還會對大模型和人類回復的細微差異進行描述,例如,他們發現:

  1. 大模型的回答通常很正式,而人類的回答則更口語化
  2. 大模型提供客觀答案,人類使用主觀表達
  3. 大模型拒絕回答其知識范圍之外的問題

除了人類評審員,VibeCheck還調用了GPT-4o mini來評價不同大模型的回復,結果發現與人類的評估結果相符。也就是說,GPT-4o mini也能發現上述人類評審員總結的細微差異。

下面是VibeCheck考察的10個評估維度,包括

  1. 自信:使用試探性或不確定的語言。
  2. 細節程度:提供簡短或包含細節的回答。
  3. 正式性:隨意、對話式的非正式語言,或復雜,學術性的語言
  4. 情感基調:保持中立或超然,或者在回應中表達熱情或同理心
  5. 創意:堅持標準、可預測的答案,或提供具有新穎想法或想象性場景的回應
  6. 明示性:使用模糊、隱晦的語言,或直接且明確地陳述事物
  7. 幽默詼諧:以直接嚴肅的方式回應,或使用幽默、俏皮語言、文字游戲
  8. 參與程度:被動呈現信息,或通過修辭疑問、互動性語句主動吸引讀者
  9. 邏輯嚴謹:提供結論而缺乏充分論證,或構建有充分支持的論點,推理清晰
  10. 簡潔性:使用冗長的語言和過多的細節,或使用最少的詞匯清晰表達觀點

有了VibeCheck,你可以給出自己定義的問題以及不同大模型的回復,之后由代碼自動生成多維度的評估,具體可參考論文附帶的GitHub倉庫。

圖片

倉庫地址:https://github.com/SutekhVRC/VibeCheck

主流LLM的細微差異

接下來看看三種主流大模型:Llama-3-70B、GPT-4和Claude3-Opus之間的對比。

在使用眾包及游戲排位賽的大模型評價平臺Chatbot Arena上,Llama3的表現被認為優于GPT-4及Claude3。但經由VibeCheck的評估可發現,其中另有玄機。

結果發現,Llama3更愿意參與敏感或暴力話題,對倫理的重視較少,回復更加具有對話性(例如使用更多的你,我這樣人稱代詞)和幽默感,而這些正是Chatbot Arena的用戶所關注的特征.正因為人機偏好對齊做得好,Llama3才能獲得這樣的好評。

接下來,VibeCheck還考察了文本摘要生成、數學及描述圖片這三個具體應用中不同大模型的差異,并根據這些差異解釋了為何用戶對不同大模型存在偏好。

例如,Command X和TNLG是兩個用于文本摘要/總結生成的大模型,然而經過VibeCheck的拆解,可發現:

1)Command X通常明確陳述引言和結論,TNLG則使用斷斷續續的句子

2)Command X能提供具體例子或軼事來說明觀點

3)Command X能夠捕捉到一個故事的多重視角和情感方面,TNLG則更客觀

這些特征決定了,相比TNLG,人類評審員會更加偏好Command X。與此同時,VibeCheck能夠分別以71.29%的和61.42%的準確率預測模型在前述10個維度的PK結果和人類評審員的評價。

而在數學問題上,Llama-405B的回復相比GPT-4o更加詳細,對解題步驟的講解巨細靡遺,而GPT-4偏向于使用如Latex這樣的正式符號。

然而,在數學相關問題上,用戶偏向于使用正式的語氣并頻繁使用符號,對大模型思維過程的過度解釋與人類偏好呈負相關。

VibeCheck能夠以97.09%的準確率預測模型在上述10個維度上的對決結果,并以72.79%的準確率預測用戶偏好。

圖片

在描述圖像的任務中,研究發現GPT-4V更多使用詩意的語言,并將標題結構為一個動態故事,推斷圖像中主體的個性和情感,而Gemini則堅持更直白的描述。

VibeCheck能夠實現接近完美的99.13%模型匹配準確率(相比人類給出的評價)和89.02%偏好預測準確率

圖片

結論

隨著大模型的應用范圍越來越廣,距離我們的日常生活越來越近,我們會不自覺地將大模型擬人化,而人是會具有個性的。

雖然VibeCheck更多關注文字相關的任務,但未來可以使用類似的框架,去評價不同的文生圖及文生視頻模型,考察這些模型的產出是否也存在微妙的「個性」差異。

搞清楚這些差異,就相當于開發了一條全新的藍海賽道,讓當下純粹卷模型準確性的大模型廠商有了差異化競爭的可能,從而讓各種性格的大模型得以百花齊放。

而基于大模型開發具體應用的開發者,也可以關注不同大模型在語氣、氛圍上的細微差異,選擇合適自己應用場景的大模型,或者通過微調,讓大模型在某項指標上有所改進。

例如可以根據VibeCheck的評價結果改進得到更幽默的大模型,而不必招募人類評審員。

更關鍵的是,通過VibeCheck具體的拆解,我們可發現,用戶對不同任務的偏好存在差異。

例如在回答人文類的問題時,更具有對話感、語氣更友好的大模型受歡迎;而在解答數學問題時,回答簡潔且語氣正式的大模型用戶評價更高。

這樣細致的拆解,能夠讓我們更好地進行人機偏好對齊,從而讓大模型能更貼心地為人類服務。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-31 16:15:51

模型圖像

2024-04-07 00:45:00

開源模型

2024-03-25 08:30:00

AI數據

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-12-02 08:20:00

2023-04-07 09:28:31

模型訓練

2023-07-15 23:54:57

GPT-4AI谷歌

2023-12-04 13:52:00

模型數據

2025-04-18 08:42:52

模型推理AI

2023-06-08 11:27:10

模型AI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-08-05 13:45:46

模型AI

2024-03-04 08:15:00

2025-01-22 15:21:00

2023-12-04 18:56:03

AI模型

2025-05-15 09:10:00

2023-08-14 08:04:13

2025-04-30 09:09:00

2023-05-26 17:20:29

模型工具
點贊
收藏

51CTO技術棧公眾號

丝袜美腿中文字幕| 日韩久久精品一区二区三区| 久草资源在线视频| 欧美日韩一本| 欧美日韩aaaaaa| 蜜臀在线免费观看| 欧美日本韩国一区二区| 久久精品国产成人一区二区三区| 欧美国产亚洲视频| www色com| 久久精品色综合| 在线一区二区视频| 青青青青在线视频| 成年人在线看| av成人老司机| 91在线观看免费高清| 超碰中文字幕在线| 午夜久久福利| 中文字幕亚洲综合| 亚洲成人日韩在线| 爱爱精品视频| 欧美精品久久久久久久多人混战 | 色婷婷综合久久久久中文 | 任你弄在线视频免费观看| 久久久久久免费| 国产伦精品一区二区三区视频黑人 | 狠狠色伊人亚洲综合网站l| 国产精品中文字幕一区二区三区| 日韩av免费在线看| 国产大片aaa| 欧美日本三区| 久久国产精品久久久久| 中文字幕在线观看免费高清| 欧美成人专区| 精品久久久久久综合日本欧美| 色戒在线免费观看| a成人v在线| 91精品福利视频| 男女激情无遮挡| 欧美v亚洲v| 亚洲综合在线视频| 欧美大片免费播放| 超碰在线caoporn| 国产精品成人一区二区艾草 | 国产乱码一区| 精品国自产拍在线观看| 狠狠网亚洲精品| 国产免费亚洲高清| 在线亚洲欧美日韩| 免费在线看成人av| 国产剧情久久久久久| 真实新婚偷拍xxxxx| 免费人成精品欧美精品| 国产精品自拍偷拍| 一本一道精品欧美中文字幕| 奇米色777欧美一区二区| 日韩美女视频免费在线观看| 三级黄色在线视频| aa亚洲婷婷| 欧美一区第一页| 五月天激情国产综合婷婷婷| 国产欧美短视频| 欧美在线视频在线播放完整版免费观看 | 亚洲精品久久久中文字幕| 成人不卡视频| 欧美日韩免费高清一区色橹橹| xxx国产在线观看| 亚洲午夜剧场| 日韩女优av电影| 老司机午夜免费福利| 婷婷精品在线观看| 在线观看免费高清视频97| 一二三四在线观看视频| 欧美顶级大胆免费视频| 欧美另类暴力丝袜| 天天操天天干视频| 老色鬼久久亚洲一区二区| 国产精品亚洲自拍| 精品人妻无码一区二区三区蜜桃一| 国产成人精品亚洲777人妖| 精品国产一区二区三区麻豆免费观看完整版 | 午夜福利理论片在线观看| 成人免费看的视频| 欧洲精品亚洲精品| 国产黄色在线观看| 精品福利在线视频| 性欧美videossex精品| 美女国产精品久久久| 亚洲第一精品福利| 免费一级特黄3大片视频| 四季av在线一区二区三区| 欧美成人午夜视频| 日韩中文字幕在线观看视频| 精品一区二区三区在线视频| 99精彩视频在线观看免费| 天堂av在线免费观看| 亚洲欧洲无码一区二区三区| 九一国产精品视频| 日韩av懂色| 日韩成人在线视频| 尤物在线免费视频| 国产欧美二区| 亚洲一区二区久久久久久| 欧美偷拍视频| 亚洲欧美一区二区久久 | 在线观看涩涩| 欧美一区二区精美| 亚洲天堂久久新| 欧美激情第10页| 国产精品678| 丰满肥臀噗嗤啊x99av| 国产精品你懂的| a在线视频观看| 国产亚洲高清在线观看| 国产午夜精品一区理论片飘花| 久久av高潮av无码av喷吹| 日本最新不卡在线| 久热这里只精品99re8久 | 免费在线黄色网址| 一区二区日韩av| 中文av字幕在线观看| 亚洲人和日本人hd| 韩国三级电影久久久久久| 91尤物国产福利在线观看| 久久久精品免费网站| 全黄性性激高免费视频| 国内不卡的一区二区三区中文字幕 | 91精品国产乱码久久久久久| 日本三级久久久| 婷婷亚洲一区二区三区| 亚洲电影在线播放| 欧美人与性动交α欧美精品| 久久国产影院| 国产精品中文在线| a√在线中文网新版址在线| 色呦呦日韩精品| 亚洲精品乱码久久| 亚洲高清不卡| 国产精品美女诱惑| 色av手机在线| 日韩亚洲欧美成人一区| 99鲁鲁精品一区二区三区| 久久国产婷婷国产香蕉| 午夜精品区一区二区三| 成人涩涩视频| 最近免费中文字幕视频2019| 日韩xxx视频| 欧美激情一区三区| 久草福利视频在线| 成人av资源电影网站| 国产精品v片在线观看不卡| 九色蝌蚪在线| 欧美视频精品在线| 国产精品情侣呻吟对白视频| 蜜桃免费网站一区二区三区| 亚洲电影网站| 亚洲ww精品| 两个人的视频www国产精品| 国产裸体无遮挡| 亚洲精品国产无套在线观| 国产大学生av| 日韩午夜激情| 欧美重口乱码一区二区| 青青热久免费精品视频在线18| 在线精品国产欧美| 亚洲视频在线观看免费视频| 国产精品久久久久久久久久免费看 | 午夜不卡影院| 国产午夜精品一区理论片飘花| 在线视频你懂得| 一卡二卡三卡日韩欧美| 深田咏美中文字幕| 美女尤物久久精品| 亚洲精品高清国产一线久久| 亚洲日韩中文字幕一区| 欧美日韩福利在线观看| 天堂网av2014| 色婷婷久久久亚洲一区二区三区| 懂色av粉嫩av浪潮av| 国产精品一区二区三区网站| 国产精品网站免费| 欧美亚洲激情| 91传媒在线免费观看| 久久久男人天堂| 中文字幕视频一区二区在线有码| 99视频在线观看免费| 欧美性xxxx| 国产激情无码一区二区三区| 97久久人人超碰| 奇米影视四色在线| 99精品国产一区二区青青牛奶| 色婷婷精品国产一区二区三区| 国产一区二区三区免费在线 | 天天干在线播放| 中文字幕亚洲一区二区va在线| 图片区偷拍区小说区| 日韩精品免费专区| 国产视频在线观看网站| 国产精品欧美三级在线观看| 91在线播放视频| 日韩免费小视频| 久久久久久久久久亚洲| www.亚洲免费| 日韩电影在线观看中文字幕 | 在线观看91久久久久久| 人妻少妇一区二区三区| 欧美日韩国产小视频| 国产手机在线视频| 亚洲欧美日韩在线| 中文字幕人妻一区二区三区在线视频| 国产精品亚洲综合一区在线观看| av无码精品一区二区三区| 欧美日韩国产高清| 在线不卡日本| 欧美一二区在线观看| 成人在线视频网址| 爱情电影网av一区二区| 国产成人自拍视频在线观看| 爱看av在线| 欧美乱大交xxxxx| 幼a在线观看| 国产一区二区三区在线观看网站 | 性无码专区无码| 亚洲国产精品久久人人爱| 久久福利免费视频| 欧美激情资源网| 丰满少妇高潮一区二区| 成人美女视频在线观看18| 黄色一级片免费播放| 老司机午夜免费精品视频| 黄色国产一级视频| 激情综合自拍| 丁香色欲久久久久久综合网| 一区二区三区在线电影| 一区二区三视频| 日韩免费特黄一二三区| 日韩免费电影一区二区| 伊人春色精品| 欧美日韩精品中文字幕一区二区| 免费看久久久| 精品国产乱码久久久久久郑州公司 | 欧美一级二级三级蜜桃| 一级特黄aa大片| 色婷婷一区二区| 波多野结衣大片| 91福利视频网站| 懂色av蜜臀av粉嫩av喷吹| 欧美无人高清视频在线观看| 青青草视频在线观看免费| 色呦呦一区二区三区| 国产精品尤物视频| 欧美午夜理伦三级在线观看| 中文字幕第99页| 欧美久久免费观看| 国产精品一级二级| 日韩视频一区在线观看| 国产 欧美 自拍| 亚洲国产精品成人一区二区| 天天色综合av| 亚洲日韩中文字幕在线播放| 啊v在线视频| 久久综合电影一区| 丁香花在线影院| 欧美亚洲视频在线观看| 美女网站视频一区| 成人av资源在线播放| 伊人久久亚洲| 精品在线一区| 成人高清电影网站| 91精品国产吴梦梦| 在线国产精品一区| 蜜臀av午夜一区二区三区| 奇米777欧美一区二区| 亚洲图片 自拍偷拍| 成人一区在线看| 蜜桃无码一区二区三区| 一区在线观看视频| 日韩无码精品一区二区三区| 日本道色综合久久| 色哟哟网站在线观看| 女同一区二区三区| 久久久久久久久久久一区| 日韩久久电影| 日韩欧美精品免费| 天堂精品中文字幕在线| 亚洲高清在线不卡| 99久久精品免费| 天天干天天操天天拍| 亚洲自拍偷拍麻豆| 国产一级片免费在线观看| 3d动漫精品啪啪一区二区竹菊| 人人妻人人澡人人爽精品日本 | 亚洲淫片在线视频| 无码日韩精品一区二区免费| 亚洲毛片aa| 在线一区免费观看| 国产女同无遮挡互慰高潮91| 91在线云播放| 久久久久久久久久久久久女过产乱| 午夜精品免费在线| 亚洲熟妇无码久久精品| 亚洲精品电影在线观看| 麻豆视频在线免费观看| 欧美在线观看一区二区三区| 国产日韩在线观看视频| 日韩电影在线播放| 99精品视频免费| 天天操夜夜操很很操| 国产人成亚洲第一网站在线播放| 黄色小视频在线免费看| 91精品国产色综合久久不卡蜜臀| 免费成人av电影| 91精品成人久久| 久久综合给合| 亚洲欧美丝袜| 久久久一二三| aaaaa级少妇高潮大片免费看| 亚洲免费av高清| 亚洲天堂久久久久| 国产午夜精品全部视频播放| 国产中文在线播放| 99c视频在线| 香蕉久久网站| www.久久久精品| 久久精品人人爽人人爽| 久久草视频在线| 精品国产91亚洲一区二区三区婷婷 | 男人天堂视频在线| 亚洲另类xxxx| 青青青免费在线视频| 99久久一区三区四区免费| 99久久影视| 91极品视频在线观看| 久久久久久久精| 尤物视频免费观看| 亚洲欧美国产日韩天堂区| 亚洲一级少妇| 蜜桃网站成人| 石原莉奈在线亚洲二区| 新91视频在线观看| 色哟哟一区二区三区| 日本大臀精品| 日本人成精品视频在线| 国内精品久久久久久久影视简单 | 精品一区二区三区毛片| 久久国产三级精品| 亚洲一级二级片| 7777精品伊人久久久大香线蕉经典版下载 | 日韩中文字幕在线观看视频| 日韩高清av在线| 91精品产国品一二三产区| 欧美中文娱乐网| 免费的成人av| 日韩福利小视频| 日韩欧美中文字幕精品| 高h视频在线播放| 国产精选一区二区| 久久久蜜桃一区二区人| 国产在线综合视频| 欧美日韩精品欧美日韩精品一综合| 午夜伦全在线观看| 亚洲最大福利网站| 亚洲国内自拍| 亚洲AV无码国产成人久久| 欧美亚洲日本一区| 成人免费网址| 国产一区二区黄色| 久久这里只有| 人人澡人人澡人人看| 精品免费视频一区二区| 亚洲国产福利| 在线无限看免费粉色视频| 懂色av一区二区在线播放| 天堂中文在线网| 色先锋资源久久综合5566| 国产午夜精品一区在线观看| av日韩一区二区三区| 日本一区二区久久| av免费观看网址| 欧美孕妇孕交黑巨大网站| 97精品一区| 性久久久久久久久久久| 欧美亚洲尤物久久| 日韩伦理av| 欧洲国产精品| 国产宾馆实践打屁股91| 国产91精品看黄网站在线观看| y97精品国产97久久久久久| 爱爱精品视频| 奇米视频7777| 精品久久久久久久中文字幕| 午夜视频在线观看网站| 国产精品初高中精品久久| 日韩av中文字幕一区二区三区| 欧美黄色免费看| 国产亚洲欧美视频| 福利在线一区| 中文字幕 日韩 欧美| 欧美午夜www高清视频| 污视频免费在线观看|