深挖RLHF潛力，復旦語言和視覺團隊創新獎勵模型優化，讓大模型更對齊

作者：機器之心 2024-01-15 16:41:00

現在，復旦團隊進一步挖掘 RLHF 的潛力，重點關注獎勵模型（Reward Model）在面對實際應用挑戰時的表現和優化途徑。

繼第一份大模型對齊技術報告（Secrets of RLHF in Large Language Models Part I）獲 NeurIPS 2023 workshop best paper 后，第二份報告強勢歸來，復旦語言和視覺團隊聯合推出的第二份報告將進入這一領域更深層的探索和優化之旅。在首份報告中，復旦團隊揭示了 RLHF 在大語言模型中的基本框架，并深入分析了 PPO 算法的內部機制，特別是 PPO-max 的高級版本在策略模型訓練穩定性中的關鍵作用。

現在，復旦團隊進一步挖掘 RLHF 的潛力，重點關注獎勵模型（Reward Model）在面對實際應用挑戰時的表現和優化途徑。

Secrets of RLHF in Large Language Models Part I: PPO 論文鏈接：https://arxiv.org/pdf/2307.04964.pdf
Secrets of RLHF in Large Language Models Part II: Reward Modeling 論文鏈接：https://arxiv.org/abs/2401.06080

復旦團隊究竟做了什么？

隨著 ChatGPT、GPT-4 等大型語言模型的技術創新和廣泛應用，這些模型已成為當下的技術熱點，革新了我們與機器互動的方式，為各行各業提供了前所未有的模型支持。這些模型在解決復雜問題、自動生成內容和理解復雜指令方面展現出巨大價值。然而這些模型在在對齊人類價值觀和偏好方面，仍有所局限。OpenAI、Anthropic 等研究團隊對此的應對策略是深入研究基于人類反饋的強化學習（RLHF），目標是使 AI 系統在價值觀上與人類更加一致。

OpenAI 的超級對齊、過程監督和 Anthropic 的憲法式 AI 等最新研究，都進一步強調了 AI 對齊的重要性。這些概念不僅關注于如何讓 AI 回答更加符合人類的文化和審美標準，而且還關注于如何讓 AI 在更廣泛的倫理和價值觀層面與人類保持一致。這些進展不僅展示了科學上的挑戰，也體現了哲學上的探索。它們在確保 AI 的目標與人類社會真正對齊的過程中起到了關鍵作用，對未來人類文明的發展至關重要。

為了使大模型與人類的偏好對齊，RLHF 通過獎勵模型（reward model）學習人類的偏好。好的獎勵模型能夠反映人類的偏好和價值目標，指引大模型充分發揮自身的能力造福社會；反之，壞的獎勵模型則歪曲誤解人類的偏好，誤導大模型滑向不被人類理解和接納的深淵。因此，獎勵模型的設計和實施對于大型語言模型的發展至關重要。

在研究過程中復旦團隊曾發現一個有趣的現象，如果按照特定方式選擇 hh-rlhf 數據集（Anthropic 公開的有用和無害的人類偏好數據集）中的 70% 數據用于訓練獎勵模型，這個獎勵模型用于 PPO 階段訓練將導致模型無論輸入任何內容都只會回復「免責聲明」：

這種現象是 hh-rlhf 數據集中存在大量沖突、模糊數據的結果，這樣的沖突會導致獎勵模型無法準確反映人類的偏好，語言模型無法捕捉到一致的獎懲，便采用這種萬金油策略來應對獎勵模型。而復旦團隊所做的第一個工作便是揭露了 hh-rlhf 數據集中存在大量噪音數據的現象。通過去除數據集中的噪音，可以使得模型更加貼合人類的喜好。正如下述例子中所看到的：

除了構造出對于訓練 RM 來說更加優質的數據，還可以從 RM 本身出發，適當改變 RM 的選擇策略等，使得 RM 變的更好，進而使得 LLM 能夠更貼切人類的喜好，這便是復旦團隊所做的第二個工作。團隊提出了使用對比學習、元學習的方式，很大程度提高了 RM 對于數據好壞的甄別的能力，RM 的改進直接使得 LLM 變得更加符合人類的需求。

通過對比學習后的 RM 能夠指導 LLM 回答問題更加精確，更符合人類價值觀偏好。比如在遇到有害問題時，優化前的 LLM 只會拒絕回答問題，但是優化后的 RM 能夠更具體的回答有害的地方，給出更符合人類價值觀的回答，正如下述例子所看到的：

上述例子中優化前的 LLM 沒有按照用戶的指示回答問題，而是說它不能理解或回答問題，這是不準確的，因為作為人工智能，它能夠理解并根據輸入生成語言。這個回答不能解決用戶的問題，也沒有幫助。另一方面，對比學習優化后的 LLM 選擇不提供表示笨的詞語，相反，它通過強調支持孩子的重要性并認識到他們獨特的優勢和劣勢，提供了一種建設性的方法。這種回應是有幫助的，因為它將對話轉向了一種積極和支持兒童發展的方法，這比提供負面標簽更有益，危害更小，更符合人類價值觀的對齊。

同時復旦團隊的研究進一步提升了語言模型在面對不同數據分布的同一任務時的表現，確保了模型能夠在相同任務不同數據分布的情況下，也能準確把握和遵循人類價值觀，提高了語言模型的泛化能力。

通過 RLHF 的應用，我們可以對模型的輸出進行細致的調整，引導模型以更符合人類喜好和期望的方式作出反應。例如，未經 RLHF 優化的模型可能提供的回答簡單直接，可能缺乏文藝氣息；而經過 RLHF 優化的模型則能提供更加典雅、有文學感的回答。正如下述對比的例子所看到的那樣，第一條回答略顯生硬，更談不上「信達雅」，第二條回答卻明顯更文學氣息，更耐人尋味。通過 RLHF，大模型從從生硬的「機言」跨越到多情的「人語」。

深化 RLHF：獎勵模型在大語言模型中的關鍵作用與挑戰

在復旦團隊的技術報告中，他們深入探索了 Reinforcement learning from human feedback（RLHF）這一技術。此技術對于使語言模型更好地與人類價值觀和意圖對齊，產生更有幫助和更無害的回應具有重要意義。同時報告指出了在實際應用中獎勵模型所面臨的挑戰，包括數據集中固有的不正確和模糊的偏好數據，以及獎勵模型在特定數據分布上訓練時的泛化困難。

為了應對這些挑戰，復旦團隊從數據和算法兩個角度進行了深入研究。在數據方面，通過多個獎勵模型的一致性結果來量化偏好的強度，并分析了不同強度偏好數據獎勵模型性能的影響。在算法方面，團隊探索了如何學習泛化特征以區分選擇和拒絕的回應，并利用元學習來促進獎勵模型對于超出分布（OOD）數據的泛化能力，以及迭代 RLHF 優化。獎勵模型被訓練成為人類偏好的代理，但在準確反映人類偏好方面面臨著諸多挑戰。

此外，復旦團隊還開源了包含偏好強度注釋的 anthropic-hh 數據集，并使用 GPT-4 標記了驗證集。本技術報告所使用的訓練代碼在項目網站提供。這些研究和開發不僅為 AI 技術樹立了新的里程碑，也為未來的研究和應用開辟了新的道路，進一步提升了語言模型的響應質量和適應性。通過這些工作，團隊更加深化了對 RLHF 的理解，并為大語言模型的優化開創了新篇章。

項目地址：https://github.com/OpenLMLab/MOSS-RLHF

數據影響力：塑造人類偏好模型的關鍵因素

復旦團隊探索了人類偏好數據的固有噪聲問題，并重點研究了偏好強度對獎勵模型表現的影響。通過分析不同強度偏好數據對模型性能的影響，團隊提出了新的獎勵模型方法，以更準確地建模偏好。實驗顯示，通過這種方法，能夠更有效地辨別正確和錯誤的偏好標注，并提升模型的整體性能。

在這部分中，報告深入探討了數據如何影響對人類偏好的建模。

通過隨機初始化若干獎勵模型，訓練后在數據集上評估得到對數據集中比較對的細粒度打分，研究團隊量化了每個比較對的偏好強度，并分析了不同強度偏好數據對獎勵模型性能的影響。上圖中展示的是測試集上偏好強度的分布情況，注意到數據集中大約 25% 的數據的偏好強度小于零，并且有很多數據的偏好強度在 0 附近，意味著可能存在不正確的數據偏好標注和低差異的數據。從數據集中抽取了一些真實存在的樣本如下：

數據示例一：標簽錯誤（harmful）

chosen 標簽對應的回復包含了剝奪人類睡眠的方法，而 rejected 標簽對應的回復拒絕了這種對人類有害的回答。從無害性角度來說，rejected 的回復是更安全、更符合人類偏好的。而模型評估 chosen 與 rejected 的平均得分差異（即偏好強度）為 - 6.23，表示更偏好 rejected 回復，這與人類價值偏好一致。

數據示例一：標簽錯誤（helpful）

chosen 拒絕回復，rejected 給出了比較詳細的解釋。從有用性的角度來說，rejected 標簽對應的回答是我們更希望看到的。而模型評估 chosen 與 rejected 的平均得分差異為 - 5.85，表現出對 rejected 數據的偏好，與人類價值偏好一致。

數據示例二：低差異

對于上述 chosen 和 rejected 對應的回復，差異不大。模型評估 chosen 與 rejected 的平均得分差異為 - 0.0007，表示模型認為這兩個回復差別不大，符合人類價值判斷。

在復旦團隊的技術報告中提供了一個關于偏好強度的細致分析（如下左圖所示）。

將數據集按照偏好強度從小到大排序，等分成若干組分別計算組內數據的統計信息。可以看出，偏好差異的均值在不同數據組中表現出顯著的差異。這反映了數據中存在的不同偏好強度，從幾乎無差異到顯著差異的偏好都有所體現。同時，偏好差異的標準差顯示出一種 U 形模式，這意味著在偏好非常明顯或非常不明顯的情況下，模型在評估偏好時的不確定性增加。

此外，團隊使用 GPT-4 對測試集進行標注，衡量提出的偏好強度量化指標與 GPT4 評估的一致性。

團隊發現平均偏好差異與 GPT-4 一致性很高（如下右圖所示）。這說明偏好強度指標一定程度上反映了真實世界的人類價值偏好。

這一發現為我們提供了深入理解獎勵模型處理不同類型偏好數據的能力，并指出了優化模型時需要考慮的關鍵方面。通過對偏好差異的這種細致分析，我們能更好地調整獎勵模型，以提高其在處理復雜偏好情境時的準確性和魯棒性。

復旦團隊進一步考慮在獎勵模型訓練過程中對于不同類型的偏好數據施加不同的處理，以及如何通過調整方法來優化模型性能。例如，團隊深入分析了不同類型數據對獎勵模型的影響，通過識別噪音數據并進行矯正操作（如：標簽反轉等），發現對偏好強度最低的 10% 樣本單獨訓練，其在測試集上的正確率低于 35%，但是如果將其標簽反轉，正確率可以接近 65%。

實驗表明，對數據集中特定部分進行細致處理，可以顯著提高獎勵模型在理解復雜人類偏好方面的性能。

在研究中，復旦團隊探索了四種去噪方法（flip、margin、soft label 等）來提升獎勵模型的性能，它們在實際測試中都顯示出了相對于原始方法的改進。團隊構造了三個測試集，分別是原始測試集、GPT4 清洗后的測試集以及 GPT4 與原始測試集保持一致的測試子集。這些方法的訓練過程如下圖中所示。實驗顯示，原始方法在訓練過程中在會有明顯的精度下滑，表明了原始數據集存在噪聲，會導致訓練過擬合。而相比較來說，四種去噪方法在所有測試集上能夠保持穩定的精度，表現出比原始方法整體更好的性能。

復旦團隊使用 PPO 方法，利用上述四種方法和原始方法訓練得到的獎勵模型微調 SFT 模型，下圖反映了 PPO 訓練過程中各項指標的變化情況，注意到 KL 散度和 PPL 指標顯示去噪方法能夠提供更穩定的 PPO 訓練過程。

復旦團隊利用 GPT-4-turbo 評估了不同方法經過 PPO 訓練得到的語言模型相比較于原始方法的輸出質量，特別是在有害提示下的表現，復旦團隊的方法顯示出了顯著的改善。這可能歸因于處理有害提示相關的偏好數據中的噪聲數據時去噪的有效性。

這些實驗成果為如何更好地建模人類偏好提供了新的視角，并指出了未來研究的方向。

對比學習：獎勵模型的新視角

在傳統的獎勵建模中，一個重大挑戰是模型通常在「chosen」和「rejected」樣本之間表現出高度的特征相似性，如上圖所示，通過 t-SNE 獲得的特征分布顯示，在基線模型中，「chosen」和「rejected」樣本特征分布有顯著的重疊。這表明模型無法捕捉固有的細微差異以及數據上的區別。缺乏這樣的辨別能力可能會導致表現不佳，因為模型可能很難有效地了解是什么使特定行為或結果變得更好或不更好。

相比之下，對比學習有一些先天的優勢：1）有效的特征提取：對比學習通過比較相似和不相似的樣本來訓練模型，這有助于模型更有效地學習數據中的獨特特征。2）強大的泛化能力：通過學習區分不同的樣本，使用對比學習訓練的模型通常表現出更好的泛化能力，使它們能夠更有效地處理新的、看不見的數據。

在 RLHF 的背景下，將對比學習整合到偏好建模中需要仔細對比數據的構造。常有的兩種方法則是：① 「chosen」數據和「rejected」數據的差異對比 ②「chosen」數據和「rejected」數據的直接對比。

這兩種方法都有其優點和局限性。如果目標是使模型能夠更精確地識別和獎勵表現明顯優于壞數據的好數據，那么第一種方法可能更合適，它允許模型學習區分喜歡和不喜歡。然而，如果目標是增強模型的泛化能力并使其能夠有效地區分各種數據，那么第二種方法可能更理想，它使模型能夠通過區分選擇和拒絕的反應來推斷偏好。在實踐中，還可以考慮將這兩種方法結合起來以獲得更好的建模結果。

復旦團隊基于已有的兩種對比學習方法來探究對比學習在獎勵模型中能否區分出數據的差異性。

首先是 SwAV（Swapping Assignments between Views）：SwAV 是一種創新的無監督視覺特征學習方法，與傳統的對比學習方法不同，它在同時對數據進行聚類的同時，確保了對同一圖像不同增強（或「視圖」）的聚類分配的一致性。該方法包括創建圖像的多個視圖，預測每個視圖的聚類分配，然后使用交換機制來匹配一個視圖的聚類分配與另一個視圖的預測。這種方法提高了學習效率，避免了比較每一對可能的圖像，從而降低了計算成本。

其次是 SimCSE（Simple Contrastive Learning of Sentence Embeddings）：SimCSE 是一種利用對比學習來學習句子嵌入的技術。它通過使用相同的句子作為正樣本，將它們輸入到基于 Transformer 的模型（如 BERT）中以生成嵌入。關鍵之處在于，相同的句子在不同的 dropout 掩碼下進行建模，從而產生了嵌入的變化。負樣本則來自不同的句子，使得能夠高效而有效地學習句子表示，而無需復雜的數據增強或外部標記數據。

如上圖所示，當在獎勵模型中引入 SimCSE 后，通過 t-SNE 獲得的特征分布顯示，選擇和拒絕響應之間的特征分布重疊減少了。

復旦團隊還利用 GPT-4-turbo 評估了不同方法相比較于基線模型 (普通 PPO 和 SFT 模型) 的輸出質量，如下圖所示，在有用性和無害性上，模型性能都有一定的提升，表明對比學習確實可以通過讓獎勵模型增強區分數據之間的差異性的能力來改善模型的能力。

MetaRM：引領獎勵模型的未來

復旦團隊所提出的目標是，當策略模型的分布隨著 PPO 訓練而變化時，獎勵模型仍應保持對從新分布中采樣的響應的區分度。

在本節中，復旦團隊提出了 MetaRM，一種通過元學習將原始偏好數據與移位分布對齊的方法。MetaRM 的關鍵思想是：獎勵模型的訓練階段應該最小化原始偏好數據的損失，同時最大化從轉移的策略分布中采樣的響應之間的差異。

MetaRM 的實現依靠四個關鍵步驟：首先，計算差異損失來評估策略變化后響應的差異；其次，根據梯度上升方向調整獎勵模型參數；接著，使用更新后的參數計算原始偏好對的普通損失；最后，優化原始參數，以沿著梯度下降方向進行調整。總體來說，MetaRM 通過元學習過程調整獎勵模型，確保模型在面對策略分布的演變時，仍能夠識別和獎勵高質量的響應。

總之，MetaRM 的方法是使用元學習訓練獎勵模型，即使在策略模型的分布發生變化時，也能夠識別出質量響應，確保響應仍與原始偏好對齊。

Main Results：實驗結果深度剖析 RLHF

內部任務評估

在上表中，展示了與 SFT 模型響應相比，復旦團隊所提出方法的獲勝、平局和失敗比例。回合數代表相應回合的模型生成的響應。

此外，為了更全面地展示復旦團隊所提出方法的優越性，表格 3 中展示了與其它基線（包括普通 PPO）對比的最佳性能，還提供了對 GPT-4 和人類評估的評估結果。

外部任務評估

如圖所示，即使在 OOD 情景下，復旦團隊所提出的方法仍然優于基線。這表明該方法可以在新領域實現對齊，而無需昂貴的偏好標記一組查詢，從而顯著降低了 RM 培訓的培訓成本。此外，團隊觀察到與內部分布評估結果相比，他們所提出的方法在獲勝率上略有下降。

總結：深度剖析獎勵模型推動 RLHF 新發展

在這篇技術報告中，復旦團隊全面審視了強化學習與人類反饋（RLHF）在大語言模型中的應用，并提出了創新的獎勵模型方法。團隊的研究不僅解決了數據集中存在的不正確和模糊偏好問題，還提高了模型對于新場景的泛化能力。通過復旦團隊所提出的方法，語言模型能夠更準確地理解和符合人類的意圖和價值觀，從而產生更有幫助和更安全的回應。復旦團隊的工作不僅推動了 RLHF 技術的發展，也為未來的研究者和開發者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference

幾千年來，語言一直是連接人類文明的紐帶。每一種語言都是一個獨特的文化世界，充滿著細膩的情感和深厚的歷史。在這個數字時代，我們試圖通過機器翻譯來跨越語言障礙，但僅僅依靠字面意思的翻譯往往無法傳達語言的真正魅力。就像生活在一個五彩斑斕的世界里，卻只能看到黑白的世界。幸運的是，RLHF 在模擬人類偏好方面不僅限于安全和道德；它還可以用來滿足人們對高質量翻譯的偏好。為了實現這一目標，復旦團隊監督微調 LLaMA-7b 模型，賦予其基本翻譯功能，然后利用獎勵模型來學習人類翻譯偏好。最后，復旦團隊通過 PPO 算法優化翻譯模型，使其生成更符合忠實、表達、優雅偏好的翻譯。

以上三個英漢翻譯的例子生動地說明了翻譯不僅僅是語言的轉換，更是文化和情感的傳遞。在復旦團隊技術報告的下一部分中，將努力探索如何將人類偏好和文化理解有效地融入到機器翻譯系統中。通過實驗和數據分析，期望開發出一種不僅精確而且富有情感深度和文化敏感性的翻譯模型。這樣的模式不僅可以提高翻譯的準確性，而且可以促進不同文化之間的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.”

— Steve Jobs

人工智能代理生成代碼的過程比最初看起來更加復雜。編程是一門與自然語言的復雜性和可變性相似的學科，提供了多種可能性。然而，如此廣泛的選擇范圍，與稀疏獎勵信號的問題并列時，極大地限制了智能體的探索能力。因此，關鍵的挑戰在于在復雜任務的背景下制定穩健有效的探索策略，這是當前研究中尚未解決的問題。未來，復旦團隊將進一步闡述人工智能代理如何充分探索代碼合成任務。

責任編輯：張燕妮來源：機器之心

模型數據