精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

沒想到!AlphaZero式樹搜索也能用來增強大語言模型推理與訓練

人工智能 新聞
研究團隊提出了大語言模型的樹搜索推理與訓練增強框架 TSLLM,在經驗結果上強調了可靠中間價值評估的重要性與樹搜索算法在不同問題上的效果與效率,驗證了 AlphaZero 式的蒙特卡洛樹搜索的高效性與進一步迭代優化大語言模型本身的可能。

萬梓煜是上海交通大學的三年級在讀博士生,導師為溫穎教授和張偉楠教授,主要研究興趣為強化學習與大語言模型、決策大模型。馮熙棟是倫敦大學學院四年級博士生,導師為汪軍老師。同時目前也是Google DeepMind的student researcher。主要研究方向是強化學習與大語言模型,多智能體以及元強化學習。

2016年 DeepMind 的 AlphaZero 展示了強大的學習和適應能力,登上《自然》雜志封面,并在之后通過自我對弈不斷提升自身水平,最終戰勝了人類冠軍,而這也為之后學者在大語言模型與樹搜索的結構化結合奠定了基礎。

大語言模型樹搜索

大語言模型與思維鏈(Chain-of-Thought, CoT)的結合增強了其復雜推理能力,使其在數學和邏輯推理等任務上表現更佳。然而,語言模型仍存在誤差:一方面,受數據數量和質量的影響,大語言模型在復雜任務上仍與專家系統和求解器有差距;另一方面,僅依靠大語言模型難以解決長程規劃(long-horizon planning)任務。

為解決這些問題,研究者提出了將結構化的樹/圖搜索與大語言模型結合的方式。思維樹(Tree of Thought, ToT)模仿人類認知中的慢系統,利用深度/廣度優先搜索顯著提升大語言模型的規劃能力。Reasoning via Planning (RAP) 則將大語言模型的思維鏈過程視作規劃(planning),使用其內在知識進行狀態評估,并結合傳統蒙特卡洛樹搜索(MCTS),從而增強語言模型的性能。這些方法利用大語言模型的多任務能力,通過提示工程(prompt engineering)對中間結果進行價值判斷。

然而,這種方法并不普遍適用。評估多步推理問題的中間狀態本身也是一個推理子問題,依賴CoT生成評估,無法保證評估的可靠性。此外,語言模型的自我評估能力和逆轉詛咒問題,以及子問題難度降低不顯著等因素,限制了這類方法的應用效果,尤其是對于較小規模、易部署的模型。

一個潛在的解決方案是參考AlphaZero。2016年,DeepMind通過AlphaZero在復雜多步推理問題如圍棋上取得突破性進展。AlphaZero結合了傳統MCTS和深度神經網絡的優勢,使用價值函數學習簡化了MCTS中的Simulation/Rollout過程,并通過蒸餾樹搜索增強策略的迭代優化,為大語言模型在樹搜索評估和長程規劃效率問題上提供了方向。

基于此,來自倫敦大學學院,上海交通大學,卡耐基梅隆大學的合作團隊將 AlphaZero 方法精髓與大語言模型的文本生成結合,提出了大語言模型樹搜索訓練增強框架 TSLLM。通過將這一任務建模為多步決策問題,引入強化學習中價值函數學習的概念,以訓練的方式微調一個價值函數以提供更為魯棒可靠的搜索中間價值評估。與此同時在 TSLLM 中也實現了不同樹搜索算法的對比,尤其是探究了價值函數結合的簡化 MCTS 在不同類型任務上的優缺點。最后,團隊探究了由樹搜索引導的迭代優化方式對大語言模型進一步優化的可能性。目前,該論文已被ICML 2024接收。

圖片

  • 論文名稱:AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training
  • 論文鏈接:https://arxiv.org/abs/2309.17179
  • 代碼鏈接:https://github.com/waterhorse1/LLM_Tree_Search

TSLLM的基本框架如下:

圖片

圖一:TSLLM 基本框架一覽

TSLLM 有如下特點:

  • TSLLM 是一個普遍適用和可擴展的框架,通過學習價值函數可應用于幾乎任何任務,以及任何大小的語言模型。
  • TSLLM 在不同問題上驗證了樹搜索能增強大語言模型推理階段表現的同時,也進一步驗證了其迭代增強語言模型作為一個語言模型訓練新范式的潛力。
  • 在設計上,TSLLM 支持逐句/詞元細粒度的搜索。
  • 使用可靠魯棒的價值函數作為狀態評估,TSLLM 支持包括簡單的 BFS/DFS,傳統 MCTS,AlphaZero 式的 MCTS-α,MCTS-Rollout 等算法。
  • TSLLM進行了全面且公平的對比。例如,為了實現與非搜索算法(如 CoT/CoT-SC)的公平對比,TSLLM 通過統計總體計算量的方式衡量不同算法的效果與效率。

AlphaZero 式的樹搜索增強的大語言模型

研究團隊將大語言模型的自回歸生成過程建模為一個多步決策問題,定義詞元/句級的語言生成過程的概率建模。對于給定的自然語言任務,他們通過學習的價值函數估計與最終獎勵估計,建模自然語言任務生成過程中的期望回報與稀疏獎勵。并通過樹搜索的方式在推理與訓練階段增強大語言模型的能力。

大語言模型推理階段增強:

基于學習得到的價值函數,TSLLM 中實現了不同的樹搜索算法,從簡單的價值函數引導的廣度/深度搜索(DFS/BFS-V)到傳統 MCTS,該團隊基于 AlphaZero 的中間價值回傳思想實現了 MCTS-α,以及提出離線搜索變種MCTS-Rollout。下圖比較了傳統 MCTS 與 AlphaZero 式的 MCTS 的主要區別,如圖所示,傳統 MCTS 需要通過模擬(Simulation)達到停止節點,才會開始價值回傳。另外,在 TSLLM 中,他們還討論并實現了多條搜索路徑的聚合形式,以及提出了考慮計算量的公平比較方式。

圖片

圖二:傳統蒙特卡洛樹搜索(左)與AlphaZero 式的蒙特卡洛樹搜索(右)對比。

大語言模型迭代訓練增強:

最后,在 TSLLM 中,研究團隊指出樹搜索還能夠進一步強化大語言模型本身。他們將結構化搜索作為一個策略增強算子( Policy Improvement Operator),利用這個算子本身,可以迭代式的優化語言模型策略與價值/獎勵估計函數。在 TSLLM 中,研究團隊類比 AlphaZero/Expert Iteration 中的迭代式優化方法:一方面通過 supervised finetuning 蒸餾這一更好表現的策略分布,而另一方面持續微調價值函數估計。通過這樣的方式不斷持續增強大語言模型策略本身的任務解決能力與價值函數指導的搜索增強策略的能力。

實驗結果

在實驗過程中,團隊非常重視樹搜索算法和基線算法的合理對比。針對于一些算法評估的不合理現象,團隊強調了:

  • 算法的合理對比。樹搜索算法天生會帶來更高的計算復雜度,合理的算法對比應在相似的計算量上進行。
  • 選擇合理基線和設定。例如,團隊發現一個經常被忽略的基線算法:Majority-Vote + Outcome Reward Model。實驗中團隊發現其可以作為簡單卻非常強大的基線,在GSM8K上甚至可以超過樹搜索算法。同時團隊嚴格避免了不合理的實驗設定:如利用測試集的真值進行樹搜索回溯。

在實驗中,團隊在數學推理/規劃,邏輯推理任務,價值對齊的文本生成以及文本化的決策推理任務上進行了豐富的實驗與對比,在搜索深度上最大達到了 64,顯著深于之前的算法。

圖片

微調學習的價值函數有更可靠、更好的泛化能力:

團隊首先就基于學習的價值函數與大語言模型自我評估的方式進行對比。下表實驗結果表明基于學習的價值函數無論是在 GSM8k還是 Game24 問題上都優于 ChatGPT,即使在評估 ChatGPT 本身作為策略的中間狀態時,表現依舊優于 ChatGPT 本身,充分說明了基于學習的價值函數的可靠性與魯棒性。

圖片

不同的搜索算法具有其不同適應性:

團隊比較TSLLM 中不同樹搜索算法在類似計算量下的結果,發現 MCTS-α與 MCTS-Rollout的搜索算法主要在長程推理(搜索樹深度較大,如 Alignment,Endgame)問題上,顯著優于其他搜索算法。但對于輕量級或搜索深度較低的問題,BFS/DFS也具有較強的性能。

圖片

樹搜索算法的Scaling(擴展)性質受限:

同時,團隊也嘗試了對樹搜索的采樣次數進行scaling。結果發現,絕大部分樹搜算算法都可以隨著路徑搜索次數的增加而獲得性能提升。但同時團隊也發現,一些簡單的baseline (如COT-SC+ORM)具有更好的scaling性質。例如在GSM8K中, COT-SC+ORM的baseline可以取得比樹搜索更優越的性能與擴展屬性。基于這個結果,團隊認為如何獲得更為優越的擴展性能將成為樹搜索算法未來的重要研究方向。 

圖片


團隊的實驗也驗證了迭代優化可以進一步提升大語言模型的能力:

下文左圖展示了 TSLLM 通過 MCTS-α在訓練問題集上搜索迭代的結果,在 GSM8k 上相比于初始的策略模型圖片,通過一輪樹搜索算法的搜索迭代優化后的策略圖片的表現優于在 5、10 倍采樣數據上進行 Rejection Sampling 優化的結果;然后也可以發現,在RLHF 數據集上,圖片的表現依舊不如 PPO,這主要是由于 PPO 對語言模型參數進行了多次在線迭代優化。當對比迭代后的價值函數圖片我們也可以發現,其能夠進一步增強圖片的樹搜索結果。

圖片

總結

總結來說,在這一工作中,研究團隊提出了大語言模型的樹搜索推理與訓練增強框架 TSLLM,在經驗結果上強調了可靠中間價值評估的重要性與樹搜索算法在不同問題上的效果與效率,驗證了 AlphaZero 式的蒙特卡洛樹搜索的高效性與進一步迭代優化大語言模型本身的可能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-08-12 06:52:02

谷歌面試ArrayList

2015-07-15 13:00:31

英特爾開源

2023-08-10 08:00:00

2021-01-27 18:13:35

日志nginx信息

2019-04-12 09:24:46

Spring Clou服務注冊

2017-12-26 15:41:26

2018-01-26 23:23:23

JDBC MySQL數據庫

2012-12-28 13:47:36

Raspberry PGeek

2017-02-09 17:00:00

iOSSwiftKVC

2022-01-05 17:13:28

監控HTTPS網站

2021-11-29 05:37:24

Windows Def操作系統微軟

2020-08-14 08:19:25

Shell命令行數據

2009-04-28 07:48:29

蓋茨打工基金會

2022-03-21 08:55:53

RocketMQ客戶端過濾機制

2023-10-31 12:29:25

模型訓練

2020-11-24 09:55:37

編程語言C ++Vasa

2023-02-26 00:00:02

字符串分割String

2019-03-08 10:08:41

網絡程序猿代碼

2024-08-27 09:35:47

2018-12-26 09:44:02

分布式緩存本地緩存
點贊
收藏

51CTO技術棧公眾號

日韩欧美激情在线| 一区二区三区四区视频精品免费| 国产成人小视频在线观看| 五月婷六月丁香| 成人综合日日夜夜| 五月天欧美精品| 亚洲国产精品久久久久久女王| 国产精品怡红院| 中文日韩在线| 久久韩国免费视频| 在线免费观看黄色小视频| 美女视频一区| 精品福利免费观看| 中文字幕中文字幕一区三区| 丰满少妇高潮在线观看| 七七婷婷婷婷精品国产| 欧美黑人xxxⅹ高潮交| 精品无码在线观看| 电影一区二区在线观看| 欧美日韩专区在线| 欧美日韩黄色一级片| 日韩成人av网址| 奇米777在线视频| 69堂免费精品视频在线播放| 亚洲一区二区偷拍精品| 一区二区三区视频| 男同在线观看| 不卡的看片网站| 91最新在线免费观看| 波多野结衣人妻| 国产精品日韩欧美一区| 欧美高清激情视频| 欧洲美女女同性互添| 亚洲丝袜啪啪| 日韩成人在线观看| 稀缺小u女呦精品呦| 国产精品亚洲欧美一级在线| 欧美色老头old∨ideo| 久久精品.com| 色戒汤唯在线观看| 亚洲第一狼人社区| 免费网站永久免费观看| 在线看女人毛片| 中文字幕欧美一区| 一区二区不卡视频| 91社区在线| 欧美国产国产综合| 四虎一区二区| 丁香婷婷在线| 欧美极品aⅴ影院| 日韩欧美亚洲在线| 国产免费永久在线观看| 欧美经典一区二区| 视频一区不卡| 免费a在线观看| 久久久综合视频| 欧美另类高清视频在线| 精品美女视频在线观看免费软件| 91在线观看视频| 欧美二区三区| 二人午夜免费观看在线视频| 国产精品少妇自拍| 色中文字幕在线观看| 国产午夜精品久久久久免费视| 最新欧美精品一区二区三区| 最新av在线免费观看| 羞羞视频在线观看不卡| 亚洲成人av免费| 91九色在线观看视频| 欧产日产国产精品视频| 色综合av在线| 无码少妇一区二区三区芒果| 色狠狠一区二区三区| 欧美一区二区三区播放老司机 | 久久精品国产999大香线蕉| 国产精品人人做人人爽| 国产又粗又猛又黄又爽无遮挡| 国产真实乱子伦精品视频| 99久久综合狠狠综合久久止| 人妻少妇精品无码专区久久| 久久久国产午夜精品| 日韩一本精品| av黄在线观看| 精品动漫一区二区| 亚洲免费看av| silk一区二区三区精品视频| 国产婷婷97碰碰久久人人蜜臀| caopeng视频| 久久久久久久久国产一区| 久久久久久久久爱| 成人黄色免费网| 国产成人在线视频网址| 美女一区视频| 中国av在线播放| 一本一道综合狠狠老| 亚洲免费在线播放视频| 天堂99x99es久久精品免费| 在线日韩欧美视频| 三级影片在线看| 亚洲日本国产| 成人精品一区二区三区电影免费| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 精品人妻无码一区二区色欲产成人 | 手机在线一区二区三区| 国内精品免费午夜毛片| 中文字幕人妻精品一区| 成人午夜激情影院| 亚洲一卡二卡区| 精精国产xxx在线视频app| 欧美日韩国产片| 波多野结衣av在线免费观看| 欧美91福利在线观看| 国产精品aaa| 秋霞av鲁丝片一区二区| 一区精品在线播放| 欧美日韩黄色一级片| 日韩中文字幕在线一区 | av免费网站在线| 色88888久久久久久影院按摩| 男人的天堂免费| 色呦哟—国产精品| 国产成人精品999| 欧美一级片免费| 亚洲免费观看高清在线观看| 黑人粗进入欧美aaaaa| 精品国产18久久久久久洗澡| 欧美成人激情在线| 在线免费观看高清视频| 国产日韩欧美一区二区三区乱码| 日韩欧美视频网站| 国产一区调教| 欧美激情综合色综合啪啪五月| 在线观看视频二区| 国产精品午夜电影| 粉嫩虎白女毛片人体| 天堂av一区二区三区在线播放| 久久久中文字幕| 亚洲精品久久久狠狠狠爱| 日韩一区有码在线| 色天使在线观看| 久久看人人摘| 成人天堂噜噜噜| 免费黄色网页在线观看| 欧美狂野另类xxxxoooo| 国产人与禽zoz0性伦| 青娱乐精品视频在线| 亚洲国产激情一区二区三区| 国产精品久久久久久久久免费高清| 亚洲人成五月天| 精品国产乱子伦| 国产三级一区二区三区| 玩弄japan白嫩少妇hd| 欧美日韩在线网站| 国产精品色悠悠| 欧美日本一道| 欧美一区二区三区公司| 九九免费精品视频| 成人aaaa免费全部观看| 99久久久无码国产精品6| 免费一区二区| 国产精品视频免费在线观看| 日韩在线观看www| 制服丝袜亚洲网站| 久久久久久久久久综合| 99re在线精品| 青青草精品视频在线观看| 四虎成人av| 91久久大香伊蕉在人线| av2020不卡| 亚洲色图av在线| 国产精品露脸视频| 亚洲精品高清视频在线观看| 国产精品果冻传媒| 麻豆久久婷婷| 国产精品亚洲天堂| 999在线精品| 国产精品wwwwww| 八戒八戒神马在线电影| 亚洲精品美女久久久久| 欧美日韩 一区二区三区| 综合中文字幕亚洲| 91亚洲一线产区二线产区| 嫩草成人www欧美| 日本黄色a视频| 黄色免费大全亚洲| 国产精品老女人视频| 69xxx在线| 亚洲欧美成人精品| 国产一区二区自拍视频| 五月天视频一区| 国产色无码精品视频国产| 成人精品视频一区二区三区尤物| 欧美激情成人网| 欧美视频四区| 午夜精品一区二区在线观看| 草草视频在线一区二区| 国产精品国语对白| 超免费在线视频| 中文字幕成人精品久久不卡| 神马午夜一区二区| 欧美日韩中文字幕一区二区| 激情五月色婷婷| 最近日韩中文字幕| www.黄色在线| 99视频一区二区| 99re6在线观看| 久久亚洲欧洲| 男人添女荫道口图片| 99热国内精品| 欧美成人综合一区| 精品中文字幕一区二区三区四区| 日韩美女免费观看| 国模雨婷捆绑高清在线| 日韩在线视频播放| 免费在线高清av| 精品国产91久久久久久久妲己| 亚洲自拍第二页| 色视频欧美一区二区三区| 国产无码精品在线播放| 中文字幕一区二| 真实乱视频国产免费观看| 国产99久久久国产精品潘金网站| 中文av一区二区三区| 久久黄色影院| 中文字幕无码精品亚洲35| 欧美激情一区| 在线丝袜欧美日韩制服| 欧州一区二区| 日本电影一区二区三区| 天天做夜夜做人人爱精品| 97自拍视频| 精品视频在线观看免费观看| 国产精品视频网址| 性欧美freehd18| 日韩免费av片在线观看| 伊人色综合一区二区三区影院视频| 欧美精品18videos性欧| 污污网站在线观看| 欧美日韩成人网| 羞羞电影在线观看www| 欧美另类老女人| 18av在线播放| 欧美人在线观看| 成人免费高清观看| 午夜精品福利在线观看| av资源新版天堂在线| 久久久久久美女| 黄频免费在线观看| 午夜精品在线视频| 周于希免费高清在线观看 | 日日夜夜一区| 91夜夜未满十八勿入爽爽影院| 亚洲a成人v| 亚洲影院高清在线| 深夜激情久久| 国严精品久久久久久亚洲影视| 成人激情自拍| 国产日韩精品久久| 妖精视频一区二区三区| 欧美一区二区三区在线免费观看| 久草成人在线| 亚洲一区三区视频在线观看 | 啊v视频在线一区二区三区| 日本高清视频在线播放| 久久国产精品首页| 98色花堂精品视频在线观看| 2020欧美日韩在线视频| 浪潮色综合久久天堂| 国产精品美女午夜av| 国产中文欧美日韩在线| 国产一区二区三区高清| 尤物tv在线精品| 亚洲综合欧美日韩| 欧美日韩午夜| a√天堂在线观看| 美腿丝袜亚洲一区| 男人操女人下面视频| 91视频免费播放| 神马久久久久久久久久久| 亚洲欧美成人一区二区三区| 日本中文字幕在线免费观看| 在线观看欧美精品| 精品久久久免费视频| 国产视频精品免费播放| 免费日本一区二区三区视频| 欧美激情日韩图片| 欧美aaa视频| av观看久久| 狠狠做六月爱婷婷综合aⅴ| 日本xxxxx18| 欧美专区18| 一区二区三区四区影院| 久久久精品中文字幕麻豆发布| 中国毛片直接看| 一本色道久久综合亚洲aⅴ蜜桃 | 日韩精品欧美激情| 精品孕妇一区二区三区| 69av在线播放| 国产精品中文| 秋霞毛片久久久久久久久| 欧美日韩日本国产亚洲在线| 欧洲熟妇精品视频| 成人性生交大合| www.xx日本| 日韩欧美一区二区三区久久| 国内精品久久久久久久久久| 亚洲一级一级97网| 2020av在线| 91免费看片网站| 精品免费一区二区| 3d动漫一区二区三区| 国产乱妇无码大片在线观看| 亚洲理论片在线观看| 亚洲国产日韩在线一区模特| 国产一区二区在线视频聊天 | 狠狠色噜噜狠狠色综合久| 久久久人成影片免费观看| 国产情侣av自拍| 91丨九色丨黑人外教| 久久午夜无码鲁丝片午夜精品| 欧美日韩免费高清一区色橹橹| 亚州精品国产精品乱码不99按摩| 欧美成人精品在线| 欧美成人福利| 视频一区二区精品| 久久婷婷影院| 少妇户外露出[11p]| 亚洲成人一区二区| 国内爆初菊对白视频| 九九热这里只有在线精品视| 亚洲毛片在线免费| 亚洲国产精品久久久久久女王| 老司机免费视频久久| 国产精品揄拍100视频| 黄色成人av网| 四虎影视精品成人| 91精品国产91久久久久久吃药 | 欧美aa视频| 欧美13一14另类| 性色一区二区三区| 中文字幕人妻一区二区| 日韩欧美在线观看| 西西人体44www大胆无码| 91成人在线观看国产| 亚洲精品亚洲人成在线观看| 看av免费毛片手机播放| 91麻豆免费观看| 在线视频一区二区三区四区| 亚洲欧美国产制服动漫| 国产综合色区在线观看| 亚洲v国产v在线观看| 精品中文字幕一区二区| 国产美女久久久久久| 日韩一级大片在线| 国内高清免费在线视频| 精品一卡二卡三卡四卡日本乱码 | 永久免费看片在线观看| 一区二区三区在线视频免费| 韩国av电影在线观看| 欧美最猛性xxxxx(亚洲精品)| 九色精品91| 中文字幕第88页| 一区二区三区欧美亚洲| 神宫寺奈绪一区二区三区| 日韩美女主播视频| 欧美a级成人淫片免费看| 国产探花一区二区三区| 午夜免费久久看| 狠狠色伊人亚洲综合网站l| 国产欧美欧洲在线观看| 欧美视频成人| 欧美色图亚洲激情| 51久久夜色精品国产麻豆| 日韩精品分区| 蜜桃91精品入口| 国内精品不卡在线| 久久夜靖品2区| 中文亚洲视频在线| 97久久亚洲| 日本熟妇人妻中出| 亚洲综合视频在线观看| 日本在线视频1区| 成人国产精品一区| 宅男噜噜噜66国产日韩在线观看| 免费看91的网站| 日韩你懂的在线观看| 第84页国产精品| 神马午夜伦理影院| 久久精品人人做人人爽人人| 精品国产无码一区二区三区| 热久久免费视频精品| 亚洲一级淫片| 亚洲国产无码精品| 欧美一区二区三区电影| 欧美一区 二区 三区| 国产精品视频一二三四区| 国产亚洲一区二区三区四区 | 亚洲人a成www在线影院| 欧美国产中文高清| 精品久久久久久中文字幕2017|