精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

LLM「啊哈時刻」竟會自我糾正，單體數學性能暴漲！UIUC華人一作

作者：新智元 2025-03-03 09:00:00

人工智能新聞

LLM在推理任務中表現驚艷，卻在自我糾正上的短板卻一直令人頭疼。UIUC聯手馬里蘭大學全華人團隊提出一種革命性的自我獎勵推理框架，將生成、評估和糾正能力集成于單一LLM，讓模型像人類一樣「邊想邊改」，無需外部幫助即可提升準確性。

AI不僅能解答復雜的數學題，還能像老師一樣檢查自己的答案。

不僅如此，發現錯誤后自己立刻改正——這一切都不需要任何人幫忙！

近日，UIUC聯手馬里蘭大學全華人研究團隊最新研究Self-rewarding correction for mathematical reasoning，實現了上述目標。

該研究團隊打造了一款「自我獎勵推理模型」，讓大模型 (LLM) 從生成推理路徑到自我評估，再到糾正錯誤，全部一氣呵成。

不僅性能碾壓傳統方法，連計算成本都大幅降低！

論文地址：https://arxiv.org/abs/2502.19613

LLM在數學和編程等推理任務中展現了驚人的能力，特別是在OpenAI o1發布后，具備強大推理能力的LLM以及提升推理的方法引起了更多關注。

這類模型的一個理想特性是能夠檢測自己生成回答中的不一致和錯誤，并通過反饋糾正這些錯誤，生成更好的回答，這種過程常被稱為自我糾正。

研究表明，LLM可以根據外部真實獎勵反饋改進初始回答，并決定何時停止自我糾正循環，這種方法在數學推理和一般任務中都證明是有效的。

然而，這些獎勵模型通常本身也是LLM，在推理時需要運行多個模型，增加了計算成本和部署復雜性。

相比之下，若沒有外部獎勵反饋，當前LLM很難僅憑自身能力改進初始回答，這一局限被稱為內在自我糾正的不足。

近期研究表明，LLM本身可以通過生成方式產生獎勵信號。

例如，「LLM作為評判者」方法提示LLM評估文本輸出，實際上替代了人類反饋。

另一個新興方向是生成式獎勵模型，將評估任務轉化為遵循指令的問題，利用生成特定標記的概率作為獎勵值，這些方法利用了LLM的下一標記預測能力，將生成和評估整合到一個統一框架中。

在這些見解的基礎上，研究人員探討了自我獎勵推理模型，從而將三種能力集成到單一的LLM中。

地址：https://github.com/RLHFlow/Self-rewarding-reasoning-LLM

自我獎勵推理語言模型

研究人員將自我獎勵推理過程形式化為一個多輪馬爾可夫決策過程（MDP）。

在觀察到初始提示后，LLM將生成一個初始推理嘗試。然后，LLM通過生成一個評估來自我獎勵其響應。

如果模型評估其答案為正確，生成過程即停止。否則，LLM進入下一步，生成一個改進的響應和評估，其中生成過程基于更新后的狀態。

自我改進過程持續進行，直到模型產生一個自我評估，判斷答案為正確。

在本研究中，團隊使用了ToRA驗證腳本，該腳本基于Python符號數學庫SymPy。下表1是自我獎勵推理路徑示例。

遵循LLMs的標準后訓練實踐，研究團隊采用了兩階段方法：

1 自我獎勵指令跟隨微調（IFT）。從初始LLM（例如，一個通用聊天機器人）開始，他們通過順序拒絕采樣過程收集演示數據，并進行微調，得到改進模型，該模型集成了自我獎勵推理能力。

2 強化學習（RL）優化。進一步使用強化學習優化上一步的改進模型，以其作為參考模型。這一階段可以進一步提升模型評估正確性和改進先前響應的能力。

自我獎勵指令跟隨微調

通過標記預測進行自我獎勵。為了訓練LLMs評估推理步驟，研究團隊將此任務形式化為一個指令跟隨任務。

具體來說，他們允許模型在評估中包含推理，同時要求它們輸出特定標記以指示評估結果。

他們嘗試了不同的標記選擇，例如：

(i) 提示「最近的最終答案是否正確（是或否）？」并以「Yes」和「No」作為響應標記；

(ii) 明確的標記，如「『VERIFY』correct」和「『VERIFY』wrong」。

他們的實驗顯示這些選擇之間存在顯著的性能差異。

在推理過程中，他們從分布中采樣評估標記。這能夠使用標準的推理流程，而無需任何特定調整。（參見表1的示例）

通過順序拒絕采樣的數據收集：研究人員采用了一種拒絕采樣方法，生成大量自我糾正軌跡，并僅保留所需的軌跡。

他們按順序提示基礎模型并分別生成不同的步驟。然后，將它們組合成包含自我獎勵和自我糾正模式的較長CoT（思維鏈）軌跡。

數據收集過程包括以下步驟：

1 生成初始推理響應：從MATH和GSM8K等數據集的訓練提示中采樣，每條提示生成N_1=50個初始響應作為基礎軌跡。

2 自我獎勵信號采樣：對于每個提示和初始響應，進一步采樣N_2=8個自我評估，并僅保留一個與真實結果 (ground truth) 相同的評估結果。然后，使用真實驗證器r? 將其分為Gcorrect和Gwrong。

3 糾正采樣：對于Gwrong中的每個提示和初始響應，他們通過提供初始響應錯誤的反饋，采樣M_1=8個完成結果，以收集成功修正錯誤響應的軌跡。而對于Gcorrect中的每個提示和初始響應，也告訴模型該響應是錯誤的，并收集M_2=4個完成結果。

通過這樣做，他們還希望在錯誤判斷的情況下額外收集「正確到正確」的軌跡。

最終，他們收集了8×|Gwrong|+4×|Gcorrect|條完整軌跡。

下表2中提供了一個數據收集過程的示例。由于資源限制，他們將迭代次數限制為兩次，并對每個基礎樣本最多保留一條軌跡。

KL正則化的強化學習

在這一階段，研究團隊使用強化學習進一步增強自我獎勵的IFT模型。他們考慮了深度強化學習方法和直接對齊算法。

學習信號：為了便于強化學習階段，他們假設存在一個針對軌跡τ的軌跡級獎勵函數。然而，與RLHF中的BT模型或先前數學推理文獻中的結果監督獎勵 (ORM)從數據中學習代理獎勵不同，他們主要使用Oracle獎勵：

驗證最終結果是否正確。其主要優點是Oracle獎勵可以在很大程度上減輕獎勵操控的風險。這在最近的文獻中也被稱為基于規則的強化學習。

他們還將研究額外的規則設計，用于獎勵值分配 (PPO訓練) 或數據排序 (DPO訓練)，其中隱含的u^*由使用的規則集決定。

遵循標準的RLHF 方法，研究團隊優化以下KL正則化目標：

最優策略及其相關的優化值滿足以下最優性條件。

簡單來說，通過定義「最優值」和「最優策略」，讓LLM在有限步驟內根據外部指令調整行為，同時用獎勵機制（比如判斷結果對錯）來提升表現。

為了避免計算太復雜，研究團隊還用了一種叫「直接偏好優化」(DPO) 的方法，通過比較不同選擇的好壞來訓練，讓它更聰明地完成任務。

換句話說，這個模型就像教LLM玩一個游戲：先告訴它目標是什么（比如答對題），然后通過反復嘗試和反饋（比如「這個錯了，換個方法」），讓LLM學會如何在幾步之內找到正確答案，最后得出一個能衡量它表現的「損失函數」。

主要實驗

任務、數據集與數據格式

使用標準基準評估模型的數學推理能力，包括MATH500、OlympiadBench和Minerva Math。

這些數據集規模適中，確保模型評估的可靠性和高效性，涵蓋代數、幾何、概率、數論和微積分等主題。

在訓練階段，主要使用NumiaMath-CoT數據集中的提示。具體而言，使用50K子集進行自我獎勵IFT階段，10K子集用于驗證和模型選擇，其余數據用于強化學習訓練。

在推理過程中，模型最多生成4096個token，并使用VLLM 0.5.4加速推理過程。

評估指標

采用兩類指標來評估模型性能：（1）數學推理與自我修正能力；（2）獎勵模型的準確性。

首先考慮以下指標來評估模型的數學推理和自我修正能力。

第一次嘗試的準確性（Turn 1）：第一次回答的準確性；
最終準確性（Final accuracy）：最終答案的準確性；
：從首次嘗試到最終答案的準確性提升；
：從錯誤（incorrect）到正確（correct）的問題占比；
：從正確到錯誤的問題占比。

由于自我獎勵推理框架的特性，引入了額外的衡量獎勵模型準確性的指標。

同時，將對提出的框架進行更全面的分析，使用稍簡化的模板，并在計算在面對誤導性獎勵時，將正確答案修改為錯誤答案的比例。

獎勵模型準確率（RM Accuracy (a, b)）：針對正確和錯誤軌跡的分類準確率。其中，a表示真陽性率（正確軌跡的識別率），b表示真陰性率（錯誤軌跡的識別率）；
比例：在面對誤導性獎勵時，將正確答案修改為錯誤答案的概率。

在所有評估中，遵循慣例，使用零樣本思維鏈提示（zero-shot CoT prompting）和貪婪解碼（greedy decoding）方法，基于Qwen-2.5-Math模型進行評估。

主要結果

表3中報告了主要結果。需要注意的是，由于四舍五入，可能存在0.1的誤差。

表3. Qwen2.5-Math-7B-base 實驗的主要結果

單輪基線模型用于訓練常規的CoT推理模型。帶有?符號的基線模型在外部提示下執行自我修正，其中訓練可能用于增強這種能力。遵循近期開源數學推理項目的慣例，使用貪婪解碼方法進行評估。

內在自我修正與提示通常失敗

首先觀察到，在沒有明確獎勵信號的情況下，內在的自我修正通常會降低最終測試的準確性。

分析輸出結果，發現模型傾向于修改初始響應，而不管其正確性如何，因為它們缺乏機制來確定何時應該優化答案，何時應該終止修正過程。

此外，即使提供了真實獎勵，在錯誤到正確轉換方面，僅通過提示的基礎模型也只能取得微小的改進。

還注意到，STaR/RAFT方法（通過對修正的錯誤嘗試進行微調）未能顯著提升性能。

此外，在修改初始嘗試時，STaR/RAFT+變體（包含正確到正確的軌跡）變得更加保守。雖然這減少了錯誤的修正（?c→i(t1, t2)），但也降低了，最終導致測試準確性下降。

這些發現與之前的研究一致，凸顯了內在自我修正的局限性，即使通過訓練也難以克服。

新模型顯著優于現有的自我修正基線方法

在所有任務中，自我獎勵推理模型通過更高的?(t1, t2)持續提升了最終準確性，優于基線方法。

注意到，在具有自我修正行為的合成軌跡上進行微調，能夠顯著提高模型的，這表明模型更擅長修正自我生成響應中的錯誤。

與STaR/RAFT不同，通過自我獎勵IFT訓練的模型還表現出顯著更低的，表明由于額外的自我獎勵信號，它們更擅長識別何時停止修正。

由于STaR/RAFT(+)和自我獎勵IFT使用了相同的數據合成方法（拒絕采樣），但基于不同的自我修正框架，這些結果凸顯了自我獎勵推理框架的優勢。

新模型相比單輪基線方法提升了最終準確性

自我自我獎勵推理模型（經過RL訓練）還與單輪對應的模型進行了比較。

無論是PPO還是DPO，自我獎勵推理模型由于額外的修正步驟，均實現了更高的最終測試準確性。

例如，自我獎勵IFT + PPO模型在OlympiadBench上的最終準確性為43.4%，在Minerva Math上為38.4%，而其單輪對應模型分別為39.5%和33.1%。

同樣，使用DPO的自我獎勵推理模型在MATH500上達到78.6%，在OlympiadBench上為40.1%，在Minerva Math上為34.6%，而單輪DPO模型分別為76.8%、39.0%和31.6%。

然而，由于額外的修正步驟，自我獎勵模型在推理過程中使用了更多的token。

深度強化學習算法優于直接對齊算法

可以觀察到，PPO（近端策略優化）在性能上大幅優于迭代DPO（直接偏好優化）。

例如，經過PPO訓練的模型在Olympiad Bench上的最終準確性為43.4%，而DPO方法僅為40.1%。

這表明，當絕對獎勵信號可用時，強制偏好結構（如Bradley-Terry模型）可能是不必要的，甚至可能降低性能。

另一個可能的原因是DPO在數據利用上的局限性。

注意到，在實驗設置中，只能為40%到60%的提示收集到比較對。

對于剩余的提示，模型要么沒有生成任何正確軌跡，要么所有軌跡都是正確的。因此，DPO使用的訓練數據少于PPO，這可能是其準確性較低的原因之一。

獎勵模型（RM）準確性

由于自我獎勵框架將生成器和獎勵模型統一起來，所以評估了模型作為獎勵模型的準確性。

Qwen2.5-Math-7B-base有時可能無法嚴格遵循格式，可能是因為模型未經過指令微調。

然而，這種情況發生的比例不到10%，因此重點關注包含評估步驟的樣本，并進一步引入人工監督以總結統計數據。

在表4中報告了結果。

表4. 獎勵模型準確性結果（%）

在三個基準測試中，自我獎勵信號在兩類情況下的準確性。例如，MATH-500 C表示識別正確軌跡的準確性，而MATH-500 W表示識別錯誤軌跡的準確性。標有(?)的模型被選為最終模型。

RL階段的學習動態

盡管RL訓練提高了最終準確性，但最終測試準確性由第一輪準確性（turn-1 accuracy）和?(t1, t2)共同決定。

研究團隊特別注意到，最終準確性的提升主要來自更高的第一輪準確性，因為經過RL訓練的模型，通常具有更高的第一輪準確性，但同時也表現出較低的。

為了理解RL訓練的學習動態，在圖1中繪制了三個基準測試的測試準確性隨RL訓練步驟的變化情況。

研究團隊觀察到，在RL訓練的早期階段，第一輪準確性和最終準確性均有所提升，且它們之間的差距?(t1, t2)也有所增加或保持穩定水平。

然而，在訓練步驟達到100左右時，最終準確性的提升主要來自更高的第一輪準確性，且兩者之間的差距縮小。

還在圖中繪制了平均生成長度的變化。

最初，長度有所減少，因為Qwen2.5-Math-7B-base模型傾向于生成大量Python代碼，導致響應較長。

代碼通常占用大量token，可能導致推理路徑不完整，并且這種行為會被獎勵信號抑制。

隨后，生成長度在下一階段增加，表明RL訓練也鼓勵了反思和自我修正能力。

最終，生成長度再次減少，同時伴隨著更高的第一輪準確性和更小的?(t1, t2)。

基于兩輪對話框架的更多實驗結果

數據格式：簡化的兩輪對話框架

此前，將多個推理步驟合并為一個長的思維鏈（CoT）軌跡，這與常見的實踐一致。

然而，這種方法對新研究提出了重大挑戰，因為模型（尤其是Qwen2.5-Math-7B-base）往往無法嚴格遵循基于歷史評估或修正響應的指令。

例如，即使自我評估結果為「[VERIFY] wrong」，模型有時仍會生成評估結果并選擇是否修正響應。

此外，模型可能執行多輪自我評估和修正，但這些步驟緊密耦合，無法輕松解耦為獨立的階段。

為了解決這些問題，研究團隊采用了簡化的兩輪對話框架，其中用戶在不同步驟之間提供明確的指令。

具體而言，在接收到數學問題后，模型首先生成思維鏈推理a?和自我評估y。然后，用戶根據自我評估y提供一個確定性指令o：

由于你的初始響應自我評估為錯誤，上述解決方案可能因對問題的理解不足而存在錯誤。請修正錯誤（如有）并重寫解決方案。將最終答案放在方框內；
由于你的初始響應自我評估為正確，請確認其正確性并提供進一步的修改。將最終答案放在方框內。

同時，在收集數據時，根據設計的模板，自我獎勵信號直接由真實獎勵（ground-truth oracle reward）確定，無需額外的推理。

盡管這種簡化可能會降低獎勵模型的準確性，但通過修改自我獎勵信號，有助于受控實驗。

參見表6中的示例。

Llama模型與Qwen模型實驗結果幾乎一致

Llama模型的實驗與Qwen模型的結果高度一致。

實驗表明，Llama模型表現出與Qwen模型相似的趨勢。

具體而言，內在自我修正（無論是否結合類似STaR/RAFT的訓練）無法可靠地修正自我生成響應中的錯誤。

模型傾向于修改其初始響應，而不管其正確性如何，這使得這些方法主要對較弱模型有益。

然而，對于在第一次嘗試中就能解決大多數問題的較強模型，內在自我修正和STaR/RAFT方法顯著降低了第二輪準確性。

相比之下，自我獎勵IFT模型通過有效修正錯誤并保留已經正確的響應，持續提升了第一輪準確性。

這證明了所提出框架的通用性。

為了進一步評估自我獎勵IFT模型，將自我獎勵信號與真實獎勵（oracle reward）保持一樣，以消除獎勵信號質量的影響，并直接評估模型修正錯誤響應的能力。

實驗表明其修正能力有所提升。

新框架提高了計算擴展的效率

自我修正需要生成多個LLM響應，因此在相同的推理預算下比較模型性能至關重要。

在響應數量受限的情況下，先前的自我修正方法，通常表現不如自一致性方法。

為了解決這一問題，在按比例分配的測試計算預算下，對自我獎勵修正進行分析，采樣N條推理路徑，并使用多數投票確定最終輸出。

圖2報告了結果。

圖2. Llama-3-8B-it的獨立采樣與自我獎勵修正的多數投票結果

在實驗中，對于MATH任務，IFT模型平均每條軌跡收集1.61個樣本，M-DPO對齊模型平均每條軌跡收集1.65個樣本；對于GSM8K任務，IFT模型平均每條軌跡收集1.27個樣本，M-DPO對齊模型平均每條軌跡收集1.25個樣本。

對于MATH和GSM8K任務，在固定的推理預算下，自我獎勵修正模型始終優于獨立采樣方法。

數據分布的消融研究

自我獎勵IFT模型優于使用外部ORM的自我糾正。為了更好地理解自我獎勵信號的動態，研究團隊將自我獎勵IFT模型與在相同數據集上訓練的外部ORM（結果監督獎勵模型）進行了比較，結果見下表7。

他們觀察到，自我獎勵IFT模型在第二輪準確性 (turn-2 accuracy)和?(t1, t2)上均優于使用外部ORM的自我糾正方法。這凸顯了將生成器和獎勵模型統一于單一LLM的潛力。

然而，他們也注意到，外部ORM（用于評估Llama-3-SFT策略）和自我獎勵RM（用于評估自我獎勵IFT策略）在獎勵模型準確性上存在顯著差距。

具體來說，自我獎勵IFT方法（自我獎勵IFT策略+自我獎勵RM）在識別正確軌跡時的準確率為70.0%，略高于Llama-3-SFT策略+外部ORM的66.9%。

但對于錯誤答案的軌跡，自我獎勵IFT模型的準確率為76.4%，遠低于Llama-3-SFT策略+外部ORM的88.4%。

為了深入探究這一差異，他們使用自我獎勵RM來指導Llama-3-SFT策略的自我糾正。

有趣的是，在這種設置下，Llama-3-SFT 的獎勵模型準確性與外部ORM更為接近，這表明可能存在分布外 (OOD) 問題。

具體而言，在自我獎勵IFT階段，策略從Llama-3-SFT轉變為自我獎勵IFT策略，而獎勵模型是在原始Llama-3-SFT策略生成的數據上訓練的。

此外，即使使用自我獎勵RM和外部ORM評估相同的Llama-3-SFT策略，也觀察到自我獎勵訓練略微降低了獎勵模型的能力，這主要歸因于模型容量的限制。

RL訓練中的額外規則設計

研究團隊還對下列策略進行了初步實驗，以分析它們對模型性能的影響。

PPO訓練的獎勵分配策略
DPO訓練的數據排序策略

多輪DPO訓練中排序策略的影響

對于固定的(x, a?)，研究團隊嘗試了以下排序策略：

為了簡化實驗，僅對模型進行了一次迭代訓練。結果如表9所示。

表9. 使用Llama-3-8B-it作為基礎模型，對M-DPO和蒸餾訓練集影響的消融研究。

在不同的基礎模型和任務中，觀察到模型在將正確的初始答案錯誤分類為錯誤時更加保守。因此，經過M-DPO微調的模型顯著降低了。

相應地，M-DPO方法進一步增強了自我獎勵推理語言模型，提高了第二輪準確性和?(t1, t2)。有趣的是，盡管訓練過程中并未明確涉及a?的生成，但第二輪中的修正能力自然遷移，從而提高了第一輪準確性。

然而，當超過某個閾值時，過低的可能使模型過于保守，最終降低修正率。

這一點在使用僅D_M-DPO2的實驗中得到了驗證，其中在MATH任務中從8.8%降至5.6%。相反，使用D_M-DPO1進行訓練會鼓勵模型修改其初始響應，表現為更高的p_c→i(t1, t2)，并略微增強了修正能力。

在GSM8K任務中，使用D_M-DPO1訓練的模型的有較低的，這主要是由于獎勵模型準確性較低和第一輪準確性較高所致。

如果考慮修正軌跡的比例，自我獎勵IFT實現了45.9%，而M-DPO對齊模型略優于它，達到46.4%。

此外，結合D_M-DPO1和D_M-DPO2通常能產生接近最優的結果，通過使模型更清楚何時修改其初始響應來達到平衡。

DPO訓練無法一致提升獎勵模型準確性

在實驗過程中，研究人員觀察到M-DPO訓練也會改變a?的生成分布，從而不可預測地影響獎勵模型的準確性。

盡管在D_M-DPO3中包含了比較對，并盡力調整該數據集中的數據組合，但仍然面臨正確答案識別性能下降的問題。

此外，對于簡單的平衡D_M-DPO3（例如在GSM8K中），兩類獎勵模型的準確性都變得更差。

無論是哪種情況，獎勵模型的準確性并未得到一致提升。

懷疑這是由于DPO隱式獎勵（log π/π_ref）與采樣概率log π之間的不匹配所致。

同樣，對于PPO訓練，可能也需要采用多輪設計，而新研究僅對部分響應施加KL正則化，并允許模型更容易地調整自我獎勵階段。

PPO訓練中的額外規則設計

還研究了PPO訓練中不同的獎勵信號設計，旨在增強自我修正能力，特別是在訓練的后期階段。

具體而言，嘗試了以下兩種方法：

如果第一次嘗試錯誤且最終答案正確，則分配1.5的獎勵；否則，最終答案正確分配1.0，錯誤分配0.0。
將學習分為兩個階段。在第一階段，我們僅使用基于正確性的獎勵進行訓練；然后從第一階段初始化模型，并應用第一種方案中的修改獎勵分配。

研究人員觀察到，模型很容易利用第一種獎勵設計中的漏洞，即它們故意在第一次嘗試中預測錯誤答案，然后在第二輪中修正它。

盡管簡單的獎勵修改失敗了，但預計更復雜的多輪RL策略可以進一步改進RL訓練。

主要作者

Wei Xiong

目前，Wei Xiong是伊利諾伊大學厄巴納-香檳分校（UIUC）計算機科學博士生。

2023年8月，他從香港科技大學獲數學碩士學位；2021年，從中國科學技術大學獲數學與電子工程雙學士學位，其中統計專業績點第一，電子工程排名第二。

他的研究興趣主要集中在基于人類反饋的強化學習（RLHF），用于對齊大型語言模型。

Chenlu Ye

她是伊利諾伊大學厄巴納-香檳分校（UIUC）計算機科學博士生。

2024年8月，她從香港科技大學獲人工智能與信息處理（IIP - AI）碩士（MPhil）學位。她從中國科學技術大學獲得統計學學士學位。

Hanning Zhang

伊利諾伊大學厄巴納-香檳分校（UIUC）計算機科學碩士一年級學生，導師是張彤教授。

2024年畢業于香港科技大學（HKUST），主修計算機科學。曾擔任張彤教授指導下的研究實習生，研究主題LLM幻覺和對齊。2023年夏季，在Blender Lab擔任研究實習生，導師是季恒教授。

研究興趣包括自然語言處理（NLP）和大模型（LLMs）。對LLM對齊有廣泛的興趣。正在研究數學推理的獎勵建模。過去還研究過LLM幻覺。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

6080日韩午夜伦伦午夜伦| 国内精品亚洲| 一区二区三区在线视频免费| 日本伊人精品一区二区三区介绍| 天天综合成人网| 国产二区在线播放| 一区二区三区福利| 精品国产sm最大网站| 亚洲国产一区二区三区在线| 欧美福利视频一区二区| 麻豆精品在线| 亚洲视频1区2区| 国产精品99久久久久久久久| 亚洲の无码国产の无码步美| www免费视频观看在线| 日韩激情av在线| 亚洲精品一区二三区不卡| 人体内射精一区二区三区| 国产免费高清av| 四虎成人av| 欧美日韩亚州综合| 在线国产99| 在线免费观看av片| 欧美激情电影| 欧美久久婷婷综合色| 中文字幕欧美人与畜| 亚洲天堂男人网| 欧美成人自拍| 欧美丰满一区二区免费视频| 亚洲美女自拍偷拍| 国产美女www爽爽爽视频| 国产精品久久久久久久免费观看 | 不卡视频观看| 成人精品免费看| 国内偷自视频区视频综合| 色悠悠在线视频| √最新版天堂资源网在线| www.99精品| 国产精品成人av| 精品视频高潮| 成人嫩草影院| 在线亚洲免费视频| 日本一区视频在线| 国产亚洲二区| 老司机精品免费视频| 欧洲一级精品| 中文字幕免费不卡在线| 国产欧美va欧美va香蕉在线| 亚洲不卡的av| 国产一区二区久久久久| 亚洲夂夂婷婷色拍ww47| 国产精品自拍首页| 成人午夜视频在线播放| 精品av一区二区| 欧美另类videos死尸| 久久精品无码中文字幕| 欧美日本网站| 精品一区二区久久久| 久久99精品久久久久久噜噜| 免费中文字幕av| 99热播精品免费| 亚洲综合激情另类小说区| 精品一区二区视频| 中国一区二区视频| 欧美深夜福利| 亚洲天天在线日亚洲洲精| 亚洲黄色av片| 欧美大胆a人体大胆做受| 中文一区在线播放| 国产欧美日韩在线播放| 精品乱码一区内射人妻无码 | 麻豆91在线看| 久久久久久中文| 91成人精品一区二区| 无码国模国产在线观看| 色噜噜久久综合| av片在线免费| 午夜毛片在线| 91视频精品在这里| 91在线视频免费| 中文字幕精品三级久久久| 欧美亚洲国产一区| 日韩av网址在线观看| 在线a免费观看| 日本一区二区三区视频在线| 亚洲成人精品影院| 中文字幕av久久| 国产在线一二三| 不卡一区二区在线| 亚洲精品欧美极品| 最近中文字幕在线视频| 99热这里只有精品8| 久久综合国产精品台湾中文娱乐网| wwwwww日本| 国产成人一二片| 欧美一区二区精品| 国产精品区在线| 美女一区网站| 婷婷综合另类小说色区| 欧美日韩dvd| 国产一二区在线| 国产精品麻豆视频| 视频一区不卡| 好男人免费精品视频| 99精品久久99久久久久| 国产精品9999久久久久仙踪林 | 日韩中文字幕91| 8090成年在线看片午夜| 亚欧洲精品在线视频| 欧美日韩亚洲一区| 欧美美最猛性xxxxxx| 波多野结衣亚洲一区二区| 久久精品国产大片免费观看| 在线看福利67194| 女人黄色一级片| 国内黄色精品| 亚洲午夜色婷婷在线| 三级黄色片网站| 日韩有码一区| 亚洲精品视频免费在线观看| 少妇大叫太粗太大爽一区二区| 久久成人福利| 日韩精品在线私人| 亚洲精品乱码久久久久久久久久久久 | 成人黄色在线观看视频| 国产精品69毛片高清亚洲| 亚洲最大福利网站| 蜜桃视频污在线观看| 成人h精品动漫一区二区三区| 国产精品免费一区二区三区| 后入内射欧美99二区视频| 成人黄色大片在线观看 | 性做久久久久久久久| 亚洲熟妇无码一区二区三区导航| av小说在线播放| 五月天国产精品| 国产成人无码av在线播放dvd| 福利一区在线| 欧美一区二区成人6969| 国产精品一级无码| 欧美色图婷婷| 中文字幕亚洲一区在线观看| www日韩在线| 在线视频观看日韩| 亲子乱一区二区三区电影| 久久国产乱子伦精品| 免费观看成人av| 99视频免费观看蜜桃视频| 色欲av永久无码精品无码蜜桃| 久久蜜臀精品av| 日韩一区二区三区高清| 少妇荡乳情欲办公室456视频| 久久人人爽人人爽| 亚洲欧美日韩精品综合在线观看| 成人无遮挡免费网站视频在线观看| 亚洲一区自拍偷拍| 国产第一页视频| 国产日韩中文在线中文字幕| 亚洲精品成人av| 亚洲欧美另类日本| 一本色道88久久加勒比精品| 国产九九精品视频| 你懂的网站在线| 国产精品网站在线| 日本欧美视频在线观看| 亚洲日本在线观看视频| 欧美成人video| 精品一区二区三区蜜桃在线| 欧美国产免费| 国产精品久久久久久中文字| 性色av蜜臀av| 国产精品网站在线观看| 国精产品一区一区三区视频| 欧美一级免费| 亚洲欧美成人网| 久久午夜鲁丝片午夜精品| 免费看日韩精品| 精品国产免费人成电影在线观...| 午夜在线小视频| 欧美日韩中文在线| 中文字幕在线播放一区二区| 欧美色蜜桃97| 97国产精品人人爽人人做| 国产精品老熟女视频一区二区| 91亚洲资源网| 日本a在线天堂| 亚洲精品伦理| 一本色道久久综合亚洲精品小说 | 欧美亚洲丝袜传媒另类| 亚洲男人在线天堂| 欧美日韩一区二区高清| 7777精品| 亚洲欧美激情另类校园| 69av.com| 久久99在线观看| 视频一区二区在线观看| www555久久| 欧美一区二区视频在线观看2022 | 一区二区欧美久久| 中文字幕精品三级久久久 | 瑟瑟视频在线观看| 国内一区二区三区| 91影院未满十八岁禁止入内| 国产秀色在线www免费观看| 欧美日韩激情在线| 日韩av片在线| 视频一区视频二区在线观看| 久久久av水蜜桃| 99爱在线观看| 日韩av在线免费看| 91精品国产乱码久久久张津瑜 | 亚洲一区二区三区成人在线视频精品 | 亚洲欧美一区二区三区久久| 日韩人妻无码一区二区三区99 | 久久都是精品| 欧美日韩日本网| 这里有精品可以观看| 日韩av影视在线| 日本韩国欧美中文字幕| 久久嫩草精品久久久久| 国产精品入口免费软件| 成人在线免费观看网站| 国产精品欧美日韩| 欧美另类极品| 日韩亚洲欧美综合| 久久久国产精品黄毛片| 国产成人一区二区精品非洲| 国产精品久久久久7777| 久久精品色综合| 国产精品久久久久无码av色戒| 日韩激情精品| 精品自在线视频| 亚洲精品字幕在线观看| 亚洲国产精品人人做人人爽| 老司机免费视频| 久久婷婷麻豆| 在线不卡视频一区二区| 免费观看亚洲天堂| 午夜精品一区二区三区在线播放| 亚洲av毛片成人精品| 欧洲视频一区二区| 亚洲天堂黄色片| 99精品久久99久久久久| 中国黄色片免费看| 欧美黄在线观看| 精品国产电影| 成人国产精选| 九九久久综合网站| 色综合久久久久久| 欧美日韩国产综合久久| 久久久久久久久久99| 91麻豆成人久久精品二区三区| 另类小说第一页| 欧美视频久久| 欧美二区三区在线| 在线视频成人| 国产91精品青草社区| 理论片午午伦夜理片在线播放| 精品日韩在线一区| 中文字幕永久在线| 亚洲综合男人的天堂| 亚洲精品国产91| 国产精品一区二区无线| 国产精品wwwww| 欧美先锋影音| 日韩欧美亚洲日产国| 77成人影视| 91精品久久久久久久久不口人| 51漫画成人app入口| 综合网中文字幕| 天堂在线中文网| 欧美福利电影网| 亚洲国产av一区二区三区| 一区二区三区欧美日| 蜜乳av中文字幕| 波多野结衣中文一区| 日韩成人精品视频在线观看| 国产欧美丝祙| 永久免费看av| 欧美成人精品一区二区三区在线看| 精品国产综合久久| 香蕉免费一区二区三区在线观看| 国产精国产精品| 天天色综合社区| 欧美手机视频| 久久久久久国产精品mv| 国产精品一区二区精品视频观看| 国产97色在线| 国产亚av手机在线观看| 精品国产依人香蕉在线精品| 免费理论片在线观看播放老| 亚洲黄页视频免费观看| www香蕉视频| 欧美精品在线视频| 男人的天堂av网站| 欧美日韩久久久久| 国产第一页第二页| 伊人性伊人情综合网| 国产免费久久久久| 国产精品久久精品日日| 免费福利视频网站| 久久久天堂av| 精品人妻无码一区二区三区| 不卡av在线免费观看| 欧美一级片在线免费观看| 韩国三级电影一区二区| jizz欧美性11| 麻豆精品蜜桃视频网站| 黄色一级二级三级| 日韩电影一区二区三区| 国产免费人做人爱午夜视频| 亚洲一区视频| 久久久久久久久久久久久国产精品| 99re国产精品| 日韩精品―中文字幕| 久久成人免费| 国产成人手机视频| 蜜臀av性久久久久av蜜臀妖精| 在线观看的毛片| 久久国产精品免费| 91视频福利网| 国产激情视频一区二区三区欧美 | 亚洲巨乳在线观看| 成人动漫免费在线观看| 亚洲二区三区四区| 999久久久免费精品国产| 国产精品波多野结衣| 欧美日一区二区在线观看| 日韩欧美不卡在线| 亚洲一区自拍| 污网站免费在线| 国产成人av一区二区三区在线观看| 不卡的一区二区| 26uuu国产一区二区三区| 一区二区三区在线观看免费视频| 亚洲欧洲成人av每日更新| 91精品一区二区三区蜜桃| 亚洲已满18点击进入久久| 在线观看中文字幕视频| 在线免费av一区| 国产国语亲子伦亲子| 亚洲大胆人体av| 奇米影视888狠狠狠777不卡| 中文字幕不卡在线视频极品| 性欧美高清come| 奇米一区二区三区四区久久| 欧美亚洲福利| 狠狠色综合一区二区| 成人三级视频| 超碰成人免费在线| 免费成人av资源网| 欧美日韩人妻精品一区在线| 欧美国产日本韩| 国产一级做a爰片在线看免费| 色久优优欧美色久优优| 国产黄色一区二区| 国产一区二区免费| 青春草在线视频| 国产精品电影久久久久电影网| 日韩精品一区二区三区免费视频| 久久精品一区二区三区不卡免费视频| 国产剧情在线观看一区| 欧美激情亚洲天堂| 久久亚洲精选| 久久免费精品国产| 国产精品福利在线播放| 国产成人一级片| 欧美大片日本大片免费观看| 国产三级视频在线| 久久免费高清视频| 欧美综合影院| 日本视频精品一区| 在线欧美亚洲| 中文字幕12页| 久久九九久久九九| 一级aaa毛片| 91精品国产综合久久久久久| 国产在线超碰| 7777精品久久久久久| 一级毛片精品毛片| 亚洲欧洲精品一区二区三区波多野1战4| 影音先锋在线一区| 日本一二三四区视频| 中文文精品字幕一区二区| 国产高清中文字幕| 亚洲精品mp4| 性欧美videoshd高清| 91久久国产综合久久91精品网站| 精品国产91乱码一区二区三区四区 | 日本人亚洲人jjzzjjz| 日韩欧美中文字幕在线播放| 丰满岳乱妇国产精品一区| 久久天堂av综合合色| 日韩毛片免费看| 日韩在线电影一区| 天堂成人免费av电影一区| 免费看黄色aaaaaa 片| 午夜av电影一区| 视频一区中文字幕| 久久久噜噜噜久久中文字免|