精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓模型像人一樣思考

發布于 2025-2-13 12:10
瀏覽
0收藏

一、背景

2024年9月OpenAI發布的o1-preview模型展現出了在解決復雜問題上的強大邏輯思維能力。相比之前傳統的Chat類模型,o1類模型在解決問題時會構建出長序列的思維鏈chain-of-thought(CoT)進行推理,通過問題拆解、中間步驟驗證、思維探索等方法,最終找到問題的正確解答方法。OpenAI對o1模型的介紹中也著重強調了CoT的重要性【1】。

類似于人類在回答一個困難問題時可能會思考很長時間,o1 在解決問題時也采用了鏈式思維。通過強化學習,o1 學會了優化自己的思維鏈條并改進使用的策略。它學會了識別和糾正自己的錯誤,學會將復雜的步驟拆解成更簡單的部分,學會在當前方法無效時嘗試不同的解決方案。這個過程顯著提升了模型的推理能力。

我們分別測試了ChatGPT與OpenAI o1-preview對"strawberry"單詞中字母"r"的數量的回答,發現o1-preview不僅給出了正確答案,還展示了它獲取答案的推理過程。

讓模型像人一樣思考-AI.x社區

o1-preview的出現激起了人工智能領域對大模型推理能力探索的浪潮。至今已經涌現出了QwQ,DeepSeek等許多性能比肩o1的開源模型。與此同時,研究者們探索出了多種模型思維鏈生成的構建方法。本文就目前最主流的有監督學習SFT + 強化學習RL方法進行一些簡單介紹,希望能夠給到讀者一些啟發。

二、構建流程

構建模型思維鏈背后的關鍵技術,正是強化學習。強化學習通過獎懲機制,激勵模型進行探索,促進其在任務執行中的持續優化。與傳統的有監督微調方法相比,強化學習強調更多的探索和自我優化,能夠幫助模型突破數據本身的局限,學會更多的推理模式和思維方式。下面就SFT和強化學習在思維鏈中的應用分別進行介紹。

1.有監督微調SFT

有監督微調SFT是一種非常高效的讓模型學習“模仿”生成思維鏈來解決問題的訓練方法。通過在預先構建好的CoT數據中進行teacher learning,SFT可以讓不具備生成長CoT內容或者CoT效果比較差的基礎模型性能得到大幅提升。SkyThought通過在數學問題中進行研究,作者發現使用高質量CoT數據進行SFT,模型就能夠達到比肩o1-preview的效果【2】。

讓模型像人一樣思考-AI.x社區

然而僅使用CoT數據進行SFT會存在幾點問題:

  • 目前CoT的數據主要通過API蒸餾高性能o1類模型生成,這些模型本身的CoT生成能力決定了使用生成數據SFT后的模型上限。
  • CoT數據的人工標注成本昂貴,在SFT的后期,模型性能的提升可能對高質量數據的需求成指數級增加。
  • SFT方式是一種確定性的學習方式,目前還沒有研究發現僅通過SFT能夠讓模型出現超出數據范圍的探索能力,這可能會限制模型學會通用推理能力。

為了解決上面的問題,我們需要借助強化學習的力量。目前幾乎所有的研究人員都將SFT作為強化學習的前置訓練,以此加速強化學習的訓練。值得一提的是,在最近開源的DeepSeek-R1技術報告中,作者發現即使不使用SFT直接在基礎模型上進行強化學習訓練,模型也能學會生成思維鏈,而且在訓練到一定階段,模型的思維鏈中還會自發性地涌現出反思這類行為。不過作者也提到,這種直接強化學習得到的模型生成的內容可讀性會比較差【3】。因此,SFT作為RL的前置訓練還是有必要的。

2.強化學習訓練

強化學習RL早已在人工智能領域大量應用,無論是之前名噪一時的AlphaGo,還是最近幾年大模型訓練中的RLHF,強化學習已被證明可以應用在進一步提升SFT后的模型性能。在介紹如何應用RL提升模型長CoT能力之前,我們先簡單回顧下RL的幾個重要概念。

(1)結果監督法

結果監督方法顧名思義,是指只利用最終的結果來對整個策略步驟進行優化的方法。

數據生成:結果監督的數據一般可通過人工標注或者模型生成獲得。在使用模型生成時,一般會采用拒絕采樣reject sampling的方法。對于數學這類有明確答案的問題,我們可以直接比較生成的最終答案和gt是否匹配,不匹配的數據直接刪除。對于代碼問題,可以通過執行測試樣例的方法剔除錯誤數據。

模型訓練:結果獎勵模型ORM一般采用二分類模型,通過標注的數據來判斷結果是否正確。所以直接在數據上進行有監督訓練即可。

(2)過程監督法

過程監督方法是對思維鏈的每步推理都進行評分,因此PRM是一種針對思維鏈訓練的改進獎勵模型。相比于結果監督,過程監督的獎勵更加稠密,因此訓練時穩定性和效率會更好。這里我們可以參考OpenAI的比對試驗,相比于結果監督模型ORM,過程監督模型PRM在每個問題生成的N個候選答案中找到正確答案的概率更大,并且隨著N的增加,其與ORM之間的差距會進一步拉大【4】。

讓模型像人一樣思考-AI.x社區

數據生成:OpenAI開源的過程監督數據集PRM800K質量比較高,采用的是人工標注的方法,只可惜PRM800K數據集只有數學問題。除了人工標注方法外,也可以通過模型生成,感興趣的可以參考Math-Shepherd中的方法【5】。

模型訓練:過程獎勵模型本質上是一個輸出標量分值的模型,不同的研究者會使用不一樣的訓練方法,可以參考Math-Shepherd中的方法將整個推理過程輸入,mask掉步驟以外的tokens,這樣可以提高訓練效率。最近也發現一篇清華研究者提出的使用隱式獎勵訓練PRM的方法,這種方法可以直接使用ORM數據來訓練,也很有參考價值【6】。

結果監督和過程監督方法對比 


優點

缺點

結果監督

  • 標注簡單
  • 無須進行步驟拆分
  • 給模型更大的優化自主性
  • 學習不穩定,容易陷入局部最優
  • 訓練效率低


過程監督

  • 訓練穩定,高效
  • 能引導模型進行步驟級的優化
  • 標注成本高
  • 需要明確的步驟拆分方法

強化學習訓練

無論是使用結果獎勵模型還是過程獎勵模型,有了這些模型我們就可以對策略模型的輸出結果打分,然后使用PPO這類強化學習算法不斷調整模型參數,讓模型自己優化思維鏈。

3.解碼策略

o1類模型的推理除了正常的序列解碼之外,還可以結合蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)來增加思維鏈的搜索空間,從而提高模型找到正確答案的概率。

蒙特卡洛樹搜索是一種通過模擬隨機游戲過程來尋找最優策略的算法。該算法的主要步驟可以分為四個階段【7】:

  • 選擇(Selection):從根節點開始,按照一定的策略(如使用UCT方法)選擇一個子節點,直到到達一個尚未完全展開的節點
  • 擴展(Expansion):在選擇的節點上開展新的子節點
  • 模擬(Simulation):從擴展的新節點開始,進行隨機模擬直到到達終止狀態
  • 回溯(Backpropagation):將模擬的結果反饋回樹的上層節點,更新這些節點的狀態信息

讓模型像人一樣思考-AI.x社區

相比于每個節點都隨機采樣的方法,MCTS依靠(Upper Confidence Bound applied for Trees,UCT)算法實現了搜索過程中規避掉已充分探索的低概率獲勝節點,成為找到最佳決策路徑的一種非常高效的搜索算法。

UCT值的計算方法

讓模型像人一樣思考-AI.x社區

Q:截止到本輪rollout為止,該節點的累積reward

N:截止到本輪rollout為止,該節點的累積被訪問次數

N_parent:截止到本輪rollout為止,該節點的父節點累積被訪問次數

c:探索權重,c值越大,MCTS越傾向于選擇選擇累積被訪問次數較少的節點

通過UCT的公式,搜索的前期一般將c設置的比較大,對節點充分探索。在探索后期將c值減小,從而更多采樣獲勝概率高的路徑,提高評估準確性。

MCTS方法在大模型推理中的應用

在這里我們以微軟的開源工作rStar來詳細介紹MCTS是如何應用在大模型推理階段的。首先假設我們已提前訓練好一個具有CoT能力的模型M,并且在模型M中預先定義了5個行動策略,A1、A2、A3、A4和A5。它們分別代表了模型在推理的每一步可以選擇的行動,如重構問題、拆解問題,推理下一步等等。在每次回答問題之前,模型會先根據設定的rollouts數量用MCTS方法構建樹,然后再從所有的有效回答中選擇最佳的一個返回給用戶。

上面的描述可能不容易理解,我們可以通過一次rollout過程來幫助我們理解。首先我們把原始問題看作是樹的根節點,從根節點出發我們進行一次MCTS。在第一次搜索階段,因為根節點下面都沒有子節點,所以MCTS會選擇根節點,而在后續探索中,如果一個節點之前已經被探索過,MCTS會根據其子節點的UCT值選擇最大的一個。接著,我們對根節點進行拓展,MCTS會將所有可能的子節點都擴展出來,然后從中隨機選擇一個。后面的模擬就是會不斷重復選擇-擴展,直到到達葉子節點(節點生成了最終答案,或者節點到達了最大步驟限制)。這樣一個從根節點到葉子節點的路徑稱之為1個rollout。我們可以發現,在一次rollout過程中,MCTS是有可能在一些擴展階段生成出葉子節點(但是沒有被選擇)。此外,實際推理過程中,模型在每個節點都會生成多個sample,每個sample都會被當作一個節點,以此拓展搜索空間。

在多輪rollouts之后,我們就得到了一棵相對完整的樹,之后在rStar中,作者使用了另一個打分模型從所有的有效結果路徑中找到一個評分最高的路徑作為最終結果【8】。

讓模型像人一樣思考-AI.x社區

三、總結

模型思維鏈能力的構建離不開SFT和RL的共同訓練。SFT作為RL的前置訓練用來提升模型思維鏈內容的基礎質量,因此需要保證數據的質量。RL訓練用于進一提高模型思維鏈的探索能力,其中結果監督和過程監督兩種方法各有利弊,應結合自身情況選擇。

參考資料:

【1】??https://openai.com/index/learning-to-reason-with-llms/??

【2】??https://novasky-ai.github.io/posts/sky-t1/??

【3】??https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file??

【4】??https://arxiv.org/abs/2305.20050??

【5】??https://arxiv.org/abs/2312.08935??

【6】??https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f??

【7】??https://en.wikipedia.org/wiki/Monte_Carlo_tree_search??

【8】???https://zhuanlan.zhihu.com/p/9154878387??

本文轉載自 ??AI遇見云??,作者: AI遇見云

已于2025-2-13 13:38:28修改
收藏
回復
舉報
回復
相關推薦
欧美熟妇精品一区二区| 五月天久久狠狠| 亚洲免费在线观看av| 伊人精品一区| 欧美日韩精品电影| 日韩精品一区在线视频| 国产高清视频在线播放| 黑人巨大精品欧美一区| 久久久久久国产精品美女| av小说在线观看| 日韩精品视频一区二区三区| 欧美性猛交xxxx富婆| gogogo免费高清日本写真| 手机看片国产1024| 精品一区二区在线看| 777午夜精品福利在线观看| 91制片厂在线| 亚洲精品亚洲人成在线观看| 欧美一区二区三区性视频| aa视频在线播放| av片在线免费观看| 99国产精品国产精品久久| 国产日韩在线一区| 国产嫩bbwbbw高潮| 在线日韩av| 成年无码av片在线| 超薄肉色丝袜一二三| 久久365资源| 91精品在线麻豆| 欧美自拍小视频| f2c人成在线观看免费视频| 亚洲欧洲国产专区| 午夜一区二区三区| 日韩精品视频无播放器在线看 | 欧美日韩在线看| 艳母动漫在线观看| www.在线视频.com| 99re免费视频精品全部| 91在线精品播放| 一本色道久久综合精品婷婷| 久久精品亚洲| 91精品国产高清| 99免费在线观看| 在线播放不卡| 久久久久国产精品免费| 日本福利片在线观看| av一区二区在线观看| 亚洲欧美国产精品| 少妇无套高潮一二三区| 伊人春色之综合网| 一区二区三区视频免费| 日本黄色网址大全| 天美av一区二区三区久久| 精品久久久网站| 丰满人妻一区二区三区大胸| 日韩精品免费视频一区二区三区 | 高清国产mv在线观看| 国产一区二三区| 91在线国产电影| 精品国产av一区二区三区| 黑人精品欧美一区二区蜜桃| 91沈先生作品| 亚洲第一黄色片| 成人免费观看av| 国产福利不卡| 手机看片1024国产| 国产日韩视频一区二区三区| 日韩中文字幕一区| 黄网站在线播放| 一区二区三区日韩在线观看| 国产资源第一页| 爱情岛亚洲播放路线| 精品久久久视频| 人妻内射一区二区在线视频| 在线看欧美视频| 欧美日韩国产精品成人| 91精品国产三级| 懂色av一区二区| 亚洲女同性videos| 女同久久另类69精品国产| 综合久久十次| 2019精品视频| 瑟瑟视频在线免费观看| 精品亚洲aⅴ乱码一区二区三区| 成人福利网站在线观看| 成人午夜免费福利| 久久精品一级爱片| 日本丰满少妇黄大片在线观看| heyzo在线播放| 在线亚洲欧美专区二区| 91福利免费观看| 精品国产乱子伦一区二区| 亚洲石原莉奈一区二区在线观看| 日韩欧美国产成人精品免费| 国产在线成人| 国产精品精品一区二区三区午夜版| 91精品国产乱码久久久| av中文字幕在线不卡| 亚洲毛片aa| а√天堂资源官网在线资源| 欧美亚洲高清一区二区三区不卡| 在线视频一二区| 偷拍一区二区| 欧美成人精品一区二区| 日本视频网站在线观看| 国产精品一二三四五| 久久综合九色99| а√天堂官网中文在线| 欧美性猛交xxxx免费看| 久久久久xxxx| 欧美精品羞羞答答| 97在线免费观看| 中文字幕777| www.av亚洲| 男女裸体影院高潮| 奇米777日韩| 亚洲精品xxx| 曰本女人与公拘交酡| 蜜臀久久99精品久久久画质超高清 | 六月丁香久久丫| 精品国产欧美一区二区三区成人| 一级片视频在线观看| 国产高清不卡二三区| 亚洲综合首页| av激情成人网| 亚洲精品一区二区三区不| 国产亚洲欧美精品久久久www| 久热成人在线视频| 日韩国产高清一区| 亚洲欧美小说色综合小说一区| 日韩欧美在线123| www.97视频| 美女高潮久久久| 色噜噜色狠狠狠狠狠综合色一 | 成人性生交大片免费看视频直播| 国产鲁鲁视频在线观看免费| 欧美日韩黄色大片| 少妇愉情理伦片bd| 91精品高清| 成人激情综合网| 免费av在线| 欧美精品免费视频| 国产三级aaa| 久草这里只有精品视频| 亚洲一区二区高清视频| 日韩一级视频| 久久天堂电影网| 国产成人精品亚洲精品色欲| 亚洲欧美综合网| 91香蕉国产线在线观看| 亚洲欧洲日韩| 高清av免费一区中文字幕| 中中文字幕av在线| 精品三级在线看| 中文在线观看免费网站| 成人精品国产一区二区4080| 热99这里只有精品| 亚洲资源网你懂的| 国产精品高精视频免费| av大片在线观看| 制服丝袜成人动漫| 青青草手机在线观看| 成人午夜在线播放| 日本毛片在线免费观看| 国产永久精品大片wwwapp| 国产精品吹潮在线观看| 九色porny在线| 日韩美女在线视频| 在线观看亚洲天堂| 国产亚洲精品bt天堂精选| 国产成人黄色网址| 欧美色123| 久久99精品久久久久久久久久| 正在播放日韩精品| 最近2019年好看中文字幕视频| 国产又粗又猛又黄又爽| 亚洲精品日韩一| 少妇精品一区二区| 另类成人小视频在线| 日本一二三区视频在线| 欧美a大片欧美片| 国产精品久久久亚洲| av在线播放国产| 日韩大陆欧美高清视频区| 中文字幕免费播放| 亚洲精品欧美专区| 一级黄色片大全| 国产一区二区不卡| 日韩欧美精品在线观看视频| 99成人在线视频| 国产一区在线免费观看| 欧美美女被草| 97在线观看免费| 超碰在线免费播放| 亚洲欧美福利视频| 丰满少妇被猛烈进入| 91久久国产综合久久| 国产精品99久久久久久成人| k8久久久一区二区三区| 日韩成人精品视频在线观看| 一区二区毛片| 国产奶头好大揉着好爽视频| 日韩美女国产精品| 99国内精品久久久久久久软件| 综合在线影院| 久久久久久久久久久国产| 电影在线高清| 日韩黄色高清视频| 国产suv一区二区| 91成人网在线| 日韩 欧美 中文| 洋洋av久久久久久久一区| 老熟妇一区二区| 99在线视频精品| 天天久久综合网| 日韩 欧美一区二区三区| 国产av天堂无码一区二区三区| 天天射天天综合网| 亚洲二区三区四区| 亚洲区小说区图片区qvod| 国产高清一区二区三区| 成人综合日日夜夜| 国产精品一区二区三区毛片淫片| 免费毛片b在线观看| 免费91在线视频| 日本中文字幕在线看| 国产一区二区三区丝袜| 青青青草原在线| 亚洲第一福利网| www.蜜臀av.com| 日韩一区二区麻豆国产| 国产一区二区麻豆| 欧美日本一道本| 在线观看免费中文字幕| 在线亚洲+欧美+日本专区| 亚洲 欧美 成人| 黑人精品xxx一区一二区| 日本熟女一区二区| 亚洲无人区一区| 中文字幕第28页| 午夜成人免费视频| 日本五十熟hd丰满| 五月开心婷婷久久| 国产成人无码一区二区三区在线| 亚洲一区二区三区三| 精品视频久久久久| 午夜天堂影视香蕉久久| 国产精品自拍视频一区| 亚洲va欧美va人人爽| 日韩精品在线不卡| 欧美日韩国产在线| 无码人妻aⅴ一区二区三区有奶水| 欧美日韩国产一区中文午夜| 日本高清不卡码| 欧美日韩中文一区| 国产精品人妻一区二区三区| 欧美一二三区在线观看| 性欧美18一19性猛交| 亚洲福利在线观看| 深夜福利免费在线观看| 国产亚洲欧洲高清| 国产秀色在线www免费观看| 久久精品色欧美aⅴ一区二区| 99福利在线| 久久久在线观看| 亚洲涩涩在线| 国产精品你懂得| 激情综合婷婷| 国产伦精品一区二区三区免| 亚洲69av| 一本一生久久a久久精品综合蜜 | 欧美精品18videos性欧美| 国产伦子伦对白在线播放观看| 国产成人精品一区二区| 日本午夜精品久久久久| 成人午夜电影免费在线观看| 久久av免费看| 99精品视频网站| 一区二区三区导航| 色播五月综合网| 成人中文字幕在线| 成熟人妻av无码专区| 亚洲精品高清在线| 男人日女人网站| 91麻豆精品国产91久久久资源速度| 韩国av电影在线观看| 亚洲欧美在线第一页| 国产黄色在线网站| 欧美诱惑福利视频| 国产va免费精品观看精品| 精品亚洲欧美日韩| 亚洲一区二区| 免费激情视频在线观看| 国产大陆精品国产| 国产三级av在线播放| 亚洲一区国产视频| 成人黄色免费网| 亚洲国产99精品国自产| 亚洲乱亚洲乱妇| 热久久免费国产视频| 欧美日本三级| 亚洲精品国产精品国自产观看| 黄色成人av网站| 午夜两性免费视频| 91在线国内视频| 私库av在线播放| 欧美日韩一区二区三区免费看| 日韩一级免费视频| www日韩欧美| 日本免费一区二区三区四区| 亚洲综合成人婷婷小说| 成人av二区| 美女av免费在线观看| 国产成人在线影院 | 亚洲草久电影| 91最新在线观看| 91老师片黄在线观看| 久久久精品国产sm调教| 欧美疯狂做受xxxx富婆| 国产视频福利在线| 欧美综合在线第二页| 精品三级av| 欧美做暖暖视频| 国产一区二区剧情av在线| 国产毛片欧美毛片久久久| 欧美日韩中文字幕| 天天射,天天干| 久久全球大尺度高清视频| 国产精品毛片aⅴ一区二区三区| 新呦u视频一区二区| 久久精品日产第一区二区 | 国产精品高潮呻吟| 成人免费视频国产免费| 亚洲免费精彩视频| 麻豆免费在线| 久久久久久草| 国产亚洲福利| free性中国hd国语露脸| 激情成人中文字幕| 天天干天天做天天操| 国内免费久久久久久久久久久| 亚州一区二区| 日本一本中文字幕| 成人国产精品免费网站| 日韩高清免费av| 日韩av在线免费观看| 色在线中文字幕| 免费试看一区| 日本亚洲欧美天堂免费| 少妇愉情理伦三级| 欧美日韩美少妇| 黄色小网站在线观看| 91精品婷婷国产综合久久蝌蚪| 91不卡在线观看| 欧美丰满熟妇bbb久久久| 亚洲动漫第一页| 亚州男人的天堂| 国产成人精品在线观看| 日韩综合一区| 亚洲精品无码一区二区| 午夜电影网亚洲视频| 国产在线观看免费| 成人黄色免费网站在线观看| 欧美在线三区| 白嫩情侣偷拍呻吟刺激| 日韩欧美中文免费| 日本电影全部在线观看网站视频| 91在线高清视频| 夜久久久久久| 亚洲一二三四五六区| 欧美成人精品3d动漫h| 深夜成人在线| 水蜜桃亚洲精品| 国产九九视频一区二区三区| 久久精品国产亚洲av高清色欲| 精品偷拍一区二区三区在线看| 三级成人在线| 日本一二三区视频在线| 久久众筹精品私拍模特| 国产精品久久久久久无人区| 欧美激情视频三区| 欧美日韩爱爱| 91亚洲一区二区| 欧美丝袜一区二区| 人人干在线视频| 激情视频一区二区| 久久99久久99精品免视看婷婷 | 久久午夜夜伦鲁鲁片| 欧美中文字幕久久| 日本片在线观看| 日韩精品国内| 成人免费va视频| 日本三级一区二区三区| 久久久久久高潮国产精品视| 国产亚洲一卡2卡3卡4卡新区 | 成人系列视频| 日本少妇毛茸茸| 91麻豆精品国产自产在线观看一区| 高清毛片在线观看| 男女h黄动漫啪啪无遮挡软件|