PersonaGym：評估角色agent與LLMs 原創

sbf_2000

發布于 2024-8-15 09:21

瀏覽

0收藏

PersonaGym：評估角色agent與LLMs-AI.x社區

一、結論寫在前面

論文來自卡內基梅隆大學，伊利諾伊大學芝加哥分校，佐治亞理工學院，普林斯頓大學等等

論文標題：PersonaGym: Evaluating Persona Agents and LLMs

論文鏈接：??https://arxiv.org/pdf/2407.18416??

角色agent，即根據指定角色行事的LLMagent，已在各種應用中展現出令人印象深刻的上下文響應能力。這些角色agent在教育、醫療保健和娛樂等多個領域提供了顯著的增強功能，模型開發者可以針對不同用戶需求調整agent響應，從而擴大agent應用的范圍。然而，評估角色agent性能極其困難，因為評估角色遵守度在自由形式的跨環境交互中的復雜性，這些環境與每個角色agent相關。

論文介紹了 PersonaGym，一個評估框架，旨在使用動態生成的角色特定問題評估跨多個agent任務的角色agent。與采用靜態角色、環境和問題的傳統方法不同，PersonaGym 在相關環境中動態初始化agent，并在五個不同任務上對其進行評估。基于決策理論，PersonaGym 旨在評估每個角色agent的多種交互模式。論文還提出了 PersonaScore，一個量化 LLM 作為給定角色agent的角色扮演熟練度的指標。

論文對6個開源和閉源LLM進行評估，使用包含200個角色和10,000個問題的基準測試，揭示了在現有最先進模型中角色agent能力提升的重大機遇。例如，盡管Claude 3.5 Sonnet是一個更先進的模型，但其PersonaScore相對于GPT 3.5僅提高了2.97%。重要的是，論文發現模型尺寸和復雜度的增加并不必然意味著角色agent能力的增強，從而突顯了在忠實和高效的角色agent方面迫切需要算法和架構的創新。

二、論文的簡單介紹

2.1 論文的背景

隨著LLM agent的應用持續快速多樣化，為了使不同應用和用戶能夠獲得高度個性化的體驗，需要讓agent根據不同的用戶需求進行調整。角色agent，即被賦予特定角色的語言模型agent，已成為實現大規模個性化和定制化用戶體驗的社區標準。這些角色agent能夠根據所賦予的角色行事，并通過從特定角色分布生成輸出，推斷出其角色的個性和經歷。這使得模型開發者能夠針對各種用戶需求對agent的響應進行定向調整。例如，在拖拉機制造環境中，當被問及“您個人在拖拉機中看重什么”時，Claude 3.5 Sonnet通常會回答說“作為AI助手”，它對拖拉機沒有意見。然而，當扮演農民角色時，它會回答：“首先，我看重的是強大的動力……燃油效率非常重要。柴油不便宜，省下的每一分錢都是賺到的。”

PersonaGym：評估角色agent與LLMs-AI.x社區

圖1：比較一個沒有定義角色的通用LLM（本例中為GPT 3.5）與同一LLM扮演“牛仔”角色時對兩個問題的回答。

這些角色agent在各種情境下展示了在多樣化和個人化對話生成方面的潛力，在數學推理、物理學和軟件開發等任務中提升了性能，并在心理學等領域模擬人類行為，用于科學研究。

近期研究表明，角色agent的能力在不同場景和模型中存在差異。然而，針對這一問題的初步探索顯示出重大局限性：（1）它們使用預設角色的數據集來初始化角色agent，從而極大限制了對未包含在數據集中的角色agent的評估；（2）角色agent未在多個與agent相關的環境中進行初始化；（3）這些基準通常僅沿agent能力的一個維度（例如，語言能力）評估角色agent，未能全面洞察LLMagent在扮演角色時所有維度的交互。

為解決這些問題，論文提出PersonaGym，這是首個針對角色agent能力的動態評估框架。該框架源于對角色agent多維度評估系統的需求，旨在評估agent在眾多與角色agent相關的環境中，沿著不同agent行動維度的能力。

2.2 如何評估

在角色agent評估的背景下，論文將環境定義為agent在其中操作和交互的外部設置或條件。理解agent如何與其環境交互對于評估其性能和能力至關重要。agent交互通常是agent做出決策的結果，因此，理解agent決策的方法可用于評估agent在其環境中的交互。為此，論文利用決策理論，該理論是研究在不確定性情況下合理化和選擇行動的領域，研究agent如何根據其目標、信念和不同行動的預期結果來做出決策并與環境交互。基于決策理論的三個類別，論文將評估任務分組如下：

規范性評估：在給定環境中選擇最優決策，其中“最優”是相對于完全理性的決策者而言的：基于上述理論，論文引入了預期行動任務，其中角色agent被置于一個環境中，并給出一個場景以促使agent根據場景選擇一個行動。然后根據提供給agent的角色和場景評估該行動的最優性。

規范性評估：決策理論中的規范性評估分支關注的是在給定環境下，AIagent應如何行動。論文將語言習慣、人格一致性和毒性控制等任務歸類為源自決策理論規范性評估分支的任務。在語言習慣任務中，人格agent的評估依據是其回應是否符合該人格預期的語言習慣。構成語言習慣的要素包括行話、句法、語氣和整體說話風格。在人格一致性方面，人格agent會被詢問其人格的不同屬性，以測試agent在回應查詢時是否忠于其人格屬性。最后，在毒性控制方面，人格agent被置于環境中，并以引發毒性反應的方式進行詢問。需要注意的是，在毒性控制中，得分越低表示回應越毒性，得分越高表示毒性越低。

描述性評估：描述性評估分支關注的是理解agent為何做出特定的決策。論文還包含了行動合理性任務，這與決策理論的描述性評估分支相關。在此任務中，人格agent被置于一個環境中，并給出一個場景以及agent據稱采取的行動。然后，agent被要求在其所處的環境中為采取該行動進行合理性說明。

這些決策理論的特征構成了研究、解釋和評估agent在環境中交互的不同軸線。因此，論文將PersonaGym基于決策理論，以建立特定環境中人格agent評估的有意義任務。

2.3 PersonaGym

2.3.1 公式化

PersonaGym通過生成問題來評估人格（誘導）agent，這些問題針對五項評估任務，并在agent預期交互的環境中進行情境化。用p表示人格描述，用M_p表示分配了人格p的大型語言模型。論文將環境定義為agent存在和操作的設置及外部場景或條件。

PersonaGym：評估角色agent與LLMs-AI.x社區

圖 2：在 PersonaGym 中選擇相關環境并初始化角色agent以進行評估的過程。從 150 個多樣化的環境中，LLM 推理器根據要分配給agent的角色描述選擇相關環境。一旦選定這些環境，agent便在這些相關環境中初始化，并提出多個問題，旨在根據五個評估任務引導agent與其環境互動。隨后，兩個強大的 LLM 評估模型對這些agent響應進行評估，以產生agent的最終整體 PersonaScore

2.3.2 方法

PersonaGym 是一個動態角色agent評估框架，評估agent在五個任務（圖2）中的相關環境表現。該框架包括幾個關鍵組件：

動態環境選擇一個 LLM 推理器根據agent的角色描述從150個多樣化選項池中選擇相關環境。環境分布如圖5所示。

問題生成對于每個評估任務，LLM推理器為每個選定的環境生成10個特定任務的問題，針對給定的agent。這些問題旨在評估agent在給定任務中按照預期角色行為進行響應的能力。

角色agent響應生成 agentLLM使用系統提示“你是[角色]。你的回答應緊密反映該角色的知識和能力。”來承擔給定角色，如(Gupta et al., 2024)中所做的。然后，角色agent對每個生成的任務問題進行響應。

推理示例為了指導LLM評估，評估評分標準通過每個可能分數( 1-5 )的示例響應進行了增強。LLM推理器根據agent的角色描述、提出的問題以及特定任務的評分指南，生成能夠引發評分標準中每個可能分數的問題響應示例。這些示例針對每個角色agent的角色定制，并為每個問題生成一次。提示模板、評分標準概要及示例包含在附錄A.4中。

集成評估兩個最先進的LLM評估模型對每個agent響應進行評估。它們提供了包含任務細節、評分標準、agent特定示例、角色描述、問題和響應的綜合評分標準。評估者生成一個帶有解釋的分數(1-5)。最終分數是兩個模型的平均值。盡管LLM評估可能引入偏見，但論文通過具有明確標準的詳細評分標準來緩解這一問題，遵循(Liu et al., 2023)。論文通過人工評估驗證LLM評估的有效性，并使用集成方法減少潛在的差異。

2.4 實驗

2.4.1 實驗設置

基準模型本研究評估了三款開源和三款閉源LLM作為角色agent在種子環境中的表現。開源模型包括：LLaMA-2-13b、LLaMIA-2-70b和LLaMA-3-8b。閉源模型包括：GPT 3.5、Claude 3 Haiku和Claude 3.5 Sonnet。

環境和問題生成論文采用GPT-4o（gpt-4o-2024-05-13）執行兩項主要功能：(1) 選擇與角色agent相關的環境，(2) 根據角色和選定設置為每個PersonaGym任務生成特定任務問題。論文將溫度和核采樣參數設置為0.9進行環境和問題生成。論文使用GPT-4o生成了200個角色進行評估。論文觀察到，超過200個角色后，GPT-4o的多樣性有限成為制約因素，導致角色屬性重疊，損害了整體多樣性。未來改進或修改角色列表的努力應考慮利用多樣化的LLM生成技術。

評估模型在論文的實驗中，論文采用兩款評估模型根據特定任務評分標準評估角色agent的響應：GPT-4o和LLaMA-3-70b。兩款評估模型均在溫度為0下運行，以獲得基本確定性的輸出。

2.4.2 主要結果

任務和模型間性能差異顯著表1展示了模型在不同任務中的性能顯著差異。行動理由和角色一致性顯示出最高的模型間差異（分別為2.08和1 .34），而預期行動、語言習慣和毒性控制表現出較低的差異（分別為0.56、0.94和0.78）。值得注意的是，Claude 3 Haiku在行動理由和角色一致性方面表現不佳，與其他任務相比，這是由于其對特定角色agent的抗拒。沒有單一模型在所有任務中始終表現優異。盡管某些模型在特定領域表現出色（例如，GPT 3.5和Claude 3 Haiku在毒性控制方面），但它們在其他任務中的表現不一，表明缺乏全面能力作為特定方向的角色agent。這些發現強調了多維度評估在評估角色agent能力中的重要性。
語言習慣作為共同挑戰

表1還顯示，語言習慣成為最具挑戰性的任務，所有模型的得分均低于4。從LLaMA-2-13b到LLaMA-2-70b，此任務的改進微乎其微，并且是唯一一個GPT 3.5表現不如LLaMA-2-13b的任務。這些結果表明，語言習慣任務存在顯著困難。

PersonaGym：評估角色agent與LLMs-AI.x社區

表1：6個大型語言模型在200個角色描述和每個任務10個問題（總計10K個問題）上的基準測試結果。作為PersonaGym的一部分，論文提出了5個評估任務，所有這些任務都基于決策理論，以適當地評估角色agent在不同環境交互軸上的表現。加粗的結果表示每個任務中得分最高的模型。每個任務和模型的標準偏差包含在括號內。最后一行展示了所有6個模型在每個任務上的平均得分的方差。

PersonaGym：評估角色agent與LLMs-AI.x社區

表2：GPT 3.5、Llama2（13b）和Llama2（70b）模型與人類評估分數之間在隨機抽樣的100個角色上的平均相關性得分。每個條目中的分數格式為Spearman/ Kendall-Tau指標。從論文的結果來看，角色評分與人類在評估任務上的判斷高度相關，從而為論文的提出的框架評估LLM角色agent的有效性提供了證據。

角色agent任務中的模型大小與性能盡管LLaMA _2 在所有任務中從13B 到 70B 版本顯示出明顯的改進（平均增加 0. 414），但 LLaMA 3 僅憑 8 億參數就表現出了非常強大的性能。在大多數任務中，LLaMA 3 超過了其他模型，除了毒性控制，這表明它作為角色agent的強大能力。相反，Claude 3 Haiku 盡管是一個先進的閉源模型，但不愿意采用角色，導致平均分數最低。

2.4.3 額外研究

角色評分與人類判斷高度相關表 2 展示了角色評分與人類評估之間的Spearman和Kendall-Tau相關性得分，針對GPT3.5、LLaMA-2-13b和LLaMA-2-70b模型在100個隨機抽樣的角色上進行評估。兩個獨立的人類評估者對每個評估任務的角色進行了評估。結果顯示角色評分與人類評估之間存在很強的相關性。使用LLaMA-2-70b的語言習慣任務中，最高任務級別的Spearman得分達到84.59%，而Kendall-Tau的最高得分是9. 9%，觀察到使用LLaMA-2-70b的預期行動和使用LLaMA-2-13b的語言習慣。總體角色評分相關性在三個模型中平均為76.1%（Spearman）和73.3%（Kendall-Tau）。這些強相關性驗證了角色評分在大規模自動化評估角色agent方面的潛力，表明其與人類判斷的一致性。

在幾個關鍵任務中，特別是角色一致性方面，LLaMA-2-13b與人類評估的相關性高于GPT 3.5和LLaMA-2-70b。這種意外的性能表明較大模型在響應中可能存在潛在的模糊性，特別是在LLaMA-2-70b的角色一致性和預期行動的Spearman相關性得分較低中尤為明顯。

Claude 3 對角色扮演的抗拒性(Claude 3 Resistant to Role Playing) 論文的實驗揭示了Claude 3 Haiku強烈不愿承擔角色agent任務。圖4顯示，Claude拒絕以角色agent身份回答問題的比率約為第二高拒絕率模型（LLaMA-3-8b）的8.5倍，并且比所有其他基準模型合計的拒絕率高約2.6倍。Claude經常以缺乏“個人經驗”作為“AI助手”的理由來解釋拒絕以角色agent身份回應。Claude 3 傾向于將問題標記為“敏感”，這可能源于其對安全措施的重視，以防止有害或有毒的回應。論文假設 Claude 3 的拒絕可能是因為角色扮演可能繞過大型語言模型（LLM）的安全措施并引發倫理問題（Deshpande 等人，2023）。相比之下，Claude 3.5 Sonnet 在大多數任務中并未表現出這種抵抗性，而是展現出穩健的性能，從而引發了對 Claude 3.5 Sonnet 是否比 Claude 3 Haiku 擁有更少安全限制的擔憂。未來的工作應致力于確定 Claude 3.5 Sonnet 在維持安全考慮的同時，能夠啟用角色agent的程度。

PersonaGym：評估角色agent與LLMs-AI.x社區

圖 3：（頂部）PersonaGym 中靜態環境的分布，有助于可視化從給定角色中選擇的相關環境的多樣性。（底部）實驗中使用的角色屬性分布。

2.5 定性分析

環境與角色分布 PersonaGym 采用了多樣化的環境，如圖 3 所示，包括社交活動（例如，“生日派對”、“婚禮”）、娛樂活動（例如，“徒步旅行徑”、“高爾夫球場”）以及各種聚會（例如，“會議”、“黑客馬拉松”）。這種全面分布涵蓋了日常生活場景和專業情境，為評估角色agent提供了堅實的基礎。圖 3 中的詞云可視化揭示了豐富的角色屬性，突出強調了職業角色（例如，“教師”、“醫生”、“工程師”）、地點（例如，“紐約”、“悉尼”、“東京”）和個人興趣（例如，“徒步”、“倡導”、“烹飪”）。這一系列多樣化的屬性，包括更具體的特征如“復古車愛好者”和“環保活動家”，表明實驗采用了廣泛的角色類型，使得能夠全面評估大型語言模型在不同角色類型和情境下的角色扮演能力。

模型-人類一致性案例附錄C提供了一個示例，展示了PersonaGym框架與人類評估在不同大型語言模型（LLMs）上對給定人格和任務的高度一致性。36歲的澳大利亞環境律師這一人格在各個模型的回應中得到了一致的體現，每個模型都調整了其語言風格以適應法庭環境和律師的角色。值得注意的是，LLaMA-2-13b模型從PersonaGym和人類評估者那里都獲得了最高分（4.5分），可能是因為它特別提到了原住民并使用了澳大利亞口語（"G'day"），這與給定的人格高度吻合。GPT 3.5和LLaMA-2-70b模型都獲得了4.0分，表明它們的表現雖然competent但稍顯不夠貼合。所有模型都能夠使用適合法庭的語言風格來代表代理人，而不是使用更為非正式的澳大利亞口語。這種在不同模型之間以及PersonaGym與人類評估者之間的評分一致性表明，該框架能夠對角色扮演任務中的語言習慣進行背景感知的細致評估，捕捉到與人類判斷一致的細微人格體現差異。

模型-人類分歧案例盡管PersonaScore在大多數情況下與人類判斷高度一致，論文在附錄C中展示了一個例子，突顯了PersonaGym框架與人類評估之間的差異，以促進未來對改進PersonaGym的研究。該角色被描述為一個22歲的倫敦作家，喜歡繪畫，然而所有三個模型的回應都未能一致地反映這一特定背景。值得注意的是，PersonaGym對這些回應給予了高分（4.5, 4.5, 和 4.0），而人類評估者給出的分數則低得多（分別為2.0, 2.0, 和3.0）。例如，只有LLaMA-2-70b模型包含了任何英式俚語（"mate," "bubbly"），而其他回應則缺乏獨特的倫敦或英國語言標志。此外，沒有一個回應展現出作為描述藝術作品的作家所預期的更為復雜或分析性的語言。這種差異表明，PersonaGym在懲罰未能建立和保持特定角色預期語言習慣的agent回應方面存在改進空間。

PersonaGym：評估角色agent與LLMs-AI.x社區