精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型+蒙特卡洛樹搜索,一招讓LLaMa-3 8B奧數(shù)水平直逼GPT-4

人工智能 新聞
通過算法層面的創(chuàng)新,未來大語言模型做數(shù)學題的水平會不斷地提高。

這幾天,17 歲中專生姜萍在 2024 阿里巴巴全球數(shù)學競賽預選賽中取得全球第 12 名的新聞刷了屏。而同時,AI 挑戰(zhàn)賽的成績顯示,在所有 563 支 AI 參賽隊伍中,最高分 34 分,平均分 18 分,趕上了人類選手平均水平。

AI 參與數(shù)學競賽的主要短板是邏輯推理能力弱,證明題很難拿到完整得分點。這也是 GPT-4、LLaMA 等當前大語言模型(LLM)在需要策略和邏輯推理的任務中面臨的重大挑戰(zhàn)。

其中的一大障礙是輸出的準確性和可信度,尤其是在需要保證精度的數(shù)學上下文中,LLM 在推理時往往容易產(chǎn)生幻覺。輸出結果表面上看似合理,但實際上不相關或事實不正確,最終導致不合理的推理過程。

雖然像 Self-Refine 這樣的重寫技術有助于緩解這種傾向,但依然可能導致現(xiàn)實世界復雜的數(shù)學問題產(chǎn)生誤導性或錯誤的結果。

因此,為了應對這些挑戰(zhàn),來自復旦大學、上海 AI Lab 的研究者提出了 MCT Self-Refine(MCTSr),將 LLM 與蒙特卡洛樹搜索(MCTS)算法相結合,并重點提高 LLM 在復雜數(shù)學推理任務(比如奧數(shù)競賽題)中的表現(xiàn)。

作為一種決策工具,MCTS 廣泛應用于人工智能中需要戰(zhàn)略規(guī)劃的場景,通常用于游戲和復雜的問題解決環(huán)境。本文通過將 MCTS 的系統(tǒng)探索能力與 LLM 的 Self-Refine 和 Self-Evaluation 能力相結合, 旨在創(chuàng)建一個更強大的框架來應對當前 LLM 難以解決的復雜推理任務。

圖片

  • 論文地址:https://arxiv.org/pdf/2406.07394
  • 項目地址:https://github.com/trotsky1997/MathBlackBox

不過,在將 MCTS 與 LLM 集成過程中存在一些技術挑戰(zhàn)。傳統(tǒng)的 MCTS 策略可能與 LLM 輸出的隨機性和生成性不太吻合,后者通常涉及無限、連續(xù)的潛在動作空間。這種不一致需要在 MCTS 框架內(nèi)采用定制的期望計算和反向傳播方法,以更好地適應 LLM 的特有屬性。

此外,研究者還引入了一種動態(tài)剪枝策略,它結合了改進的置信上限(UCB)公式,以優(yōu)化高風險任務中有效決策制定所需要的探索 - 利用平衡。 

可以說,這項研究推進了 LLM 在復雜推理挑戰(zhàn)中的應用,為未來整合 AI 相關的技術創(chuàng)新奠定了基礎,從而使得 LLM 驅動的應用擁有了更強大的決策制定、推理準確性和可靠性。

方法概覽

MCTSr 架構圖如圖 1 所示:

圖片

MCTSr 工作流包括:

  • 初始化:使用模型生成的答案和虛擬響應建立根節(jié)點,以最大限度地減少模型過度擬合趨勢;
  • 選擇:該算法采用值函數(shù) Q 對所有未完全展開的答案進行排序,并采用貪心策略選擇值最高的節(jié)點進行進一步的探索和優(yōu)化;
  • Self-Refine :選擇好的答案 a 使用 Self-Refine 框架進行優(yōu)化。最初,模型生成反饋 m,指導優(yōu)化過程以產(chǎn)生增強的答案 a ′;
  • Self-Evaluation:精煉后的答案經(jīng)過評分從而采樣一個獎勵值,并計算其 Q 值。這涉及模型自我獎勵反饋和約束,如嚴格的評分標準和抑制滿分,以確保評分的可靠性和公平性;
  • 反向傳播:將精煉答案的值反向傳播到其父節(jié)點和其他相關節(jié)點,以更新樹的值信息。如果任何子節(jié)點的 Q 值發(fā)生變化,則更新父節(jié)點的 Q;
  • UCT 更新:在所有節(jié)點的 Q 值更新完成后,確定一個候選節(jié)點集合 C,用于進一步擴展或選擇,然后使用 UCT 更新公式更新所有節(jié)點的 UCT 值,以備下一步的選擇階段。

迭代上述階段,直到滿足終止條件 T 為止。

Self-Refine 

在 self-refine 階段, 模型通過多輪對話完善提示來優(yōu)化針對問題 P 的答案 a。首先,模型生成一個關于答案 a 的反思性或批判性評論 m。隨后,在 m 的指導下,模型修改答案 a,產(chǎn)生一個改進版本 a',這種迭代的精煉方式提高了模型響應質量。

自評估

在數(shù)學問題 P 的答案精煉過程中,一個答案 a 的 Q 值被定義為將 a 進一步精煉成更優(yōu)答案的預期質量。這個定義是基于從 a 到其重寫形式的轉換具有馬爾可夫性質,即下一個狀態(tài)(即改寫后的答案)僅依賴于當前狀態(tài)(即當前的答案 a),而與之前的狀態(tài)無關。

此外,研究者還設計了三個約束:提示約束、滿分抑制、重復采樣。采樣后,計算 a 的 Q 值。

圖片

反向傳播

在所有葉節(jié)點的獎勵值經(jīng)過采樣和 Q 值更新完成后,然后將這些變化傳播至其父節(jié)點和祖節(jié)點。在這個更新過程中,如果節(jié)點 a 的子節(jié)點集合 Children (a) 中任何元素的 Q 函數(shù)值發(fā)生變化,那么節(jié)點 a 的 Q 函數(shù)值也將進行更新。這樣的傳播確保了節(jié)點的 Q 值能夠反映其所有可能子節(jié)點的最新狀態(tài)和評估。 

圖片

更新 UCT 和選擇

在更新了樹中所有節(jié)點的 Q 值之后,會進入下一輪選擇階段。這個過程包括以下步驟:

  • 候選節(jié)點選擇:在選擇節(jié)點時,研究者無需從根節(jié)點開始,而是按層次順序遍歷樹中的節(jié)點。
  • UCT 更新:借鑒 AlphaGo,該研究使用 UCT 和 UCB-1 方法來平衡節(jié)點的探索和利用;對于候選集 C 中的節(jié)點 a,其 UCT_a 值為:

圖片

終止函數(shù)

提前終止:當搜索結果的改進開始減少或連續(xù)搜索產(chǎn)生重復結果時,終止發(fā)生。

搜索約束:一旦展開次數(shù)達到預定限制或樹中的一個或多個節(jié)點滿足最大深度約束,搜索就會終止。

實驗結果

為了評估 MCTSr 算法在解決數(shù)學問題中的有效性,研究者將 LLaMA3-8B 作為基礎模型,并使用 MCTSr 進行增強。他們在 Zero-Shot CoT、Self-Refine、4-rollouts MCTSr 和 8-rollouts MCTSr 等幾種設置中,將 LLaMA3-8B 與 GPT-4、Claude 3 和 Gemini 1.5-Pro 等進行了比較。

研究者在 GSM8K 和 GSM-hard 測試集(它們分別包含了典型和具有挑戰(zhàn)性的數(shù)學問題)上評估了上述方法,結果如下表 1 所示。

可以發(fā)現(xiàn),MCTSr 的 rollout 次數(shù)與成功率之間存在著直接相關性,并隨著迭代次數(shù)增加而顯著提升,在不太復雜的 GSM8K 中尤為明顯。不過對于更復雜的 GSM-Hard 測試集,即使 rollout 次數(shù)更高也會達到性能上限,表明當前策略在解決復雜問題時存在局限性。

這些結果強調了 MCT-Self-refine 算法的穩(wěn)健性和潛在邊界,以及持續(xù)改進的必要性,從而有效應對更復雜的挑戰(zhàn)。

圖片

下表 2 展示了在 MATH 數(shù)據(jù)集上應用不同復雜度級別的 MCT-Self-refine 算法的結果。數(shù)據(jù)集分為五個難度級別,從 Level 1(最簡單)到 Level 5(最具挑戰(zhàn)性)。

結果顯示,Level 1 的成功率最高,8 次 rollout 后,MCTSr 實現(xiàn)了 90.16% 的成功率,解決了 437 個問題中的 394 個。隨著 rollout 次數(shù)的增加,這一級別的成功率顯著提高。

在最具挑戰(zhàn)性的 Level 5 難度,8 次 rollout 后,MCTSr 的成功率為 34.06%,解決了 1324 個問題中的 451 個。這說明了隨著難度不斷增加,該算法在高度復雜的場景中性能受到限制。

所有級別的整體性能顯示,8 次 rollout 后,MCTSr 的累計成功率為 58.24%,解決了 5000 個問題中的 2912 個。這一成功率相較于 Zero-Shot CoT 的初始成功率 24.36% 有了顯著提高。這表明了,rollout 次數(shù)的增加與成功率的提高呈現(xiàn)出一致性,強調了 MCT-Self-refine 算法在提升不同數(shù)學復雜度級別的問題解決能力方面的有效性。

這些結果還驗證了 MCT-Self-refine 算法在學術和問題解決上下文中的潛力,并強調了其對 MATH 數(shù)據(jù)集中不同復雜度級別問題的可擴展性和適應性。

圖片

下表 3 為 MCT-Self-refne 算法在奧數(shù)競賽的三個數(shù)據(jù)集上進行了測試:AlME、GAIC Math Odyssey 和 OlympiadBench。

AIME:從 Zero-Shot CoT 的 2.36%(解決 22 個問題)到 MCTSr 的 11.79%(解決 110 個問題)。

GAIC Math Odyssey:成功率從 17.22%(解決 67 個問題)上升至 49.36%(解決 192 個問題)。

OlympiadBench:從 Zero-Shot CoT 的 1.25%(解決 16 個問題)提高到 MCTSr 的 7.76%(解決 99 個問題)。

這些結果證實了 MCT-Self-refine 算法在未見過的數(shù)學問題上的適用性,表明其在奧林匹克等競爭性學術環(huán)境中具有優(yōu)勢。

圖片

如表 4 所示。與當前閉源大模型進行比較時,MCTSr 可以有效提升小參數(shù)開源模型(如 LLaMa-3)的數(shù)學推理能力到相當?shù)乃健?/span>

圖片

更多技術細節(jié)和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-17 18:04:38

2023-04-28 15:27:06

微軟模型

2024-04-19 14:52:13

MetaGPT-4模型

2025-02-24 10:15:00

2024-04-19 09:17:33

AI模型

2025-02-13 09:34:13

2023-09-07 13:25:00

AI模型

2025-05-26 08:52:00

2025-08-04 08:34:00

2024-08-15 15:45:00

AI訓練

2024-05-09 08:33:33

2024-07-02 01:09:02

2025-01-10 11:42:40

2024-05-27 09:16:37

2025-02-17 12:30:00

2024-07-10 09:37:57

2023-09-11 15:57:16

人工智能模型GPT-4

2025-04-26 09:25:00

模型推理AI

2023-08-14 17:38:58

百度文心一言大模型評測

2023-10-11 13:09:52

訓練模型
點贊
收藏

51CTO技術棧公眾號

jlzzjlzz亚洲女人| 蜜桃av在线播放| 国产一区福利在线| 欧美极品少妇全裸体| 久久久久成人精品无码中文字幕| 日韩电影免费看| 亚洲国产成人一区二区三区| 99国产高清| 国产精品久久久久久人| 在线观看国产精品入口| 日韩av在线免播放器| 亚洲国产成人va在线观看麻豆| 久操av在线| 久久久国产精品午夜一区ai换脸| 亚洲在线第一页| 四虎成人在线观看| 中文字幕免费精品| 亚洲色图18p| 久久av一区二区三| 欧美成人福利| 欧美小视频在线观看| 黑人巨茎大战欧美白妇| 成人免费一区二区三区视频网站| 国产激情视频一区二区在线观看| 日韩免费在线看| 久久久无码一区二区三区| 日韩欧美中文在线观看| 天天操天天干天天综合网| 一区二区高清视频| 日本一级在线观看| 风间由美性色一区二区三区 | 三级福利片在线观看| 国产一区二区导航在线播放| 欧美中文在线观看国产| 欧美成人精品一区二区免费看片 | 深田咏美在线x99av| 蜜桃久久一区二区三区| 精品一区二区精品| 国产成人在线精品| 日韩免费视频一区二区视频在线观看| 国产精品精品| 视频直播国产精品| 成年人网站免费在线观看| 亚洲2区在线| 5月丁香婷婷综合| 成人羞羞国产免费网站| 日本高清视频在线观看| 国产女主播一区| 免费在线观看一区二区| 日本精品999| 成人综合婷婷国产精品久久| 亚洲自拍小视频| 亚洲在线观看av| 青青草国产精品97视觉盛宴 | 亚洲欧洲在线一区| 国产三级视频在线看| 2欧美一区二区三区在线观看视频| 亚洲一区二区三区香蕉| 国产又粗又猛又黄又爽无遮挡| 日韩黄色免费电影| 国产精品久久久| 探花国产精品一区二区| 青青草国产成人av片免费| 国产精品久久久久久久天堂| 波多野结衣电车痴汉| 久久亚洲风情| 国产精品美女主播| 91久久精品无码一区二区| 蜜臀久久99精品久久久画质超高清| 国产精品第一区| 中文字幕在线2018| 精品一区二区三区香蕉蜜桃| 成人激情电影一区二区| 国产毛片毛片毛片毛片毛片| 国产麻豆视频一区| 99久久久精品免费观看国产| 黑人乱码一区二区三区av| 成人白浆超碰人人人人| 国产中文一区二区| 韩国三级在线观看久| 国产女人18毛片水真多成人如厕| 亚洲图片小说在线| av小次郎在线| 天天综合网 天天综合色| av动漫免费看| 日韩成人在线电影| 日韩美一区二区三区| 日本一区二区在线观看视频| 日韩中文av| 中文字幕亚洲一区在线观看| 国产一区二区视频在线观看免费| 激情久久五月| 国产91露脸中文字幕在线| 一区二区视频免费| 国产乱子轮精品视频| 国产精品推荐精品| 国产福利在线| 夜夜操天天操亚洲| 欧洲av无码放荡人妇网站| 成人做爰免费视频免费看| 日韩欧美综合在线| 国产精品无码午夜福利| 天天射—综合中文网| 高清欧美性猛交| 亚洲 小说区 图片区| 国产伦精一区二区三区| 久久久一本精品99久久精品| 青青青青在线| 欧美色videos| 色网站在线视频| 亚洲另类春色校园小说| 久久人人爽人人爽人人片亚洲| 国产成人无码精品| 久久99精品久久久久久国产越南 | 天堂99x99es久久精品免费| 视频一区视频二区国产精品| 亚洲精品www久久久久久| 精品午夜一区二区三区在线观看| 精品久久久久久综合日本| 黄网址在线观看| 色偷偷久久一区二区三区| av在线网站免费观看| 国产精品欧美三级在线观看| 久久久久久久久久婷婷| 伊人免费在线观看高清版| 91麻豆国产福利在线观看| 美女在线免费视频| 99亚洲伊人久久精品影院| 亚洲国产美女久久久久| 国产精品99久久久久久成人| 首页综合国产亚洲丝袜| 国内成+人亚洲| 色老头在线观看| 欧美一区二区三区在线| 精品亚洲aⅴ无码一区二区三区| 亚洲黄页一区| 成人3d动漫一区二区三区91| 毛片av在线| 欧美日韩精品免费观看视频| 亚洲女优在线观看| 国产精品美女| 精品一区二区三区自拍图片区| 欧洲性视频在线播放| 欧美精品久久久久久久久老牛影院 | 夜鲁夜鲁夜鲁视频在线播放| 精品国产一区久久| 欧美成人综合色| 国产精品资源在线看| 中文字幕日韩精品久久| 国产成人a视频高清在线观看 | 麻豆视频在线观看免费网站| 欧美伊人久久久久久午夜久久久久| 久久久亚洲av波多野结衣| 亚洲国产高清一区二区三区| av在线不卡观看| 在线看一级片| 日韩免费在线观看| 精品视频在线观看免费| 国产成人精品免费网站| 毛片在线视频观看| jizz性欧美23| 午夜精品在线观看| 无码精品人妻一区二区| 婷婷中文字幕一区三区| 日本少妇毛茸茸| 欧美一级二区| 日韩国产伦理| 久久福利在线| 按摩亚洲人久久| 精品区在线观看| 亚洲尤物视频在线| 国产精品久久久久久亚洲av| 一区二区激情| 欧美日韩亚洲免费| 国产一区二区三区朝在线观看| 在线电影中文日韩| 国产精品主播一区二区| 一区二区三区高清| 性色av蜜臀av色欲av| 丝袜亚洲另类欧美综合| 中文字幕免费在线不卡| 成人h动漫免费观看网站| 91精品国产高清自在线看超| 国产三级在线| 欧美一级日韩不卡播放免费| 免费在线一级片| 久久久久久9999| 午夜天堂在线视频| 亚洲免费大片| 五月天色一区| 亚洲精品在线a| 欧洲日韩成人av| 亚洲视频tv| 亚洲精品一区二区三区影院| www.com亚洲| 亚洲女同女同女同女同女同69| 日本一区二区在线观看视频| 日日夜夜精品视频免费| 色哟哟免费网站| 亚洲美女15p| 91免费精品国偷自产在线| 毛片电影在线| 不卡av电影在线观看| 青青草视频免费在线观看| 欧美午夜精品免费| 亚洲精品在线观看av| 中文字幕精品综合| 精人妻一区二区三区| 免费一级片91| 免费看日本毛片| 久久久久久免费视频| 欧美激情第六页| 精品国产18久久久久久二百| 日本国产欧美一区二区三区| 影音先锋在线视频| 中日韩美女免费视频网站在线观看 | 主播国产精品| 国产亚洲免费的视频看| 免费国产羞羞网站视频| 欧美精品日日鲁夜夜添| 久久人人爽人人爽人人片av免费| 亚洲一级在线观看| 欧美xxxooo| 国产婷婷色一区二区三区在线| 伊人久久久久久久久| 精油按摩中文字幕久久| 日韩中文字幕组| 99国产一区| 奇米777四色影视在线看| 欧美大黑bbbbbbbbb在线| 免费在线成人av| 欧美大胆视频| 99久久久久国产精品免费| 国产视频网站一区二区三区| 国产精品吊钟奶在线| 亚洲天堂导航| 1769国内精品视频在线播放| wwwwxxxx在线观看| 欧美成人免费视频| 精品国产99久久久久久| 日韩在线视频二区| 福利成人在线观看| 亚洲欧洲日本专区| 日本一区视频| 亚洲欧美国产一本综合首页| 天堂av在线资源| 亚洲国产另类 国产精品国产免费| 国产av无码专区亚洲av| 欧美一区二区三区思思人| 国产免费一区二区三区最新不卡 | 国产女人高潮时对白| 欧美日韩成人在线| 亚洲天堂999| 欧美日韩精品免费| 国产精品久久婷婷| 337p亚洲精品色噜噜| 99精品视频在线播放免费| 日韩一区二区三区视频| 国产精品视频一区二区三区,| 欧美精品日韩一区| 国产黄色片免费观看| 日韩午夜在线观看视频| 亚洲av色香蕉一区二区三区| 欧美www视频| 韩国av免费在线| 亚洲国产欧美一区| 欧美女优在线| 一区二区中文字幕| 日本激情在线观看| 久久99久久99精品免观看粉嫩 | 综合欧美亚洲日本| 全网免费在线播放视频入口| 亚洲一区二区中文在线| xxxx.国产| 欧美性生活久久| 国产三级自拍视频| 亚洲精品一区二区三区香蕉| 日本ー区在线视频| 中文字幕一区二区三区电影| 久久bbxx| 97精品视频在线| 欧美不卡高清一区二区三区| 国产日韩综合一区二区性色av| 国产一区二区三区亚洲综合| 国产一区免费观看| 日韩av专区| a级片一区二区| 久久久久91| 在线观看视频你懂得| 91亚洲精品一区二区乱码| 成年人在线免费看片| 亚洲激情六月丁香| 91青青草视频| 日韩欧美国产精品一区| 伦理片一区二区三区| 久久这里只有精品视频首页| 乱馆动漫1~6集在线观看| 国产精品视频色| av综合网页| 亚洲欧洲中文| 亚洲最黄网站| 欧美wwwwwww| 久久在线观看免费| 国产精品视频一区二区三 | 欧美 日韩 国产 高清| 久久精品国产网站| www.啪啪.com| 日韩毛片一二三区| 天码人妻一区二区三区在线看| 欧美日本国产一区| 香蕉视频成人在线| 久久精品视频导航| 经典三级一区二区| 国产精品视频一区二区三区经| 99久久.com| 欧美私人情侣网站| av成人免费在线| 日本青青草视频| 欧美日韩一区二区三区四区| 天堂中文在线看| 欧美大码xxxx| 色成人综合网| 欧美一区二区影视| 99在线观看免费视频精品观看| 爱豆国产剧免费观看大全剧苏畅| 99热国产精品| 久久久久久久久久久久久久免费看| 欧美色窝79yyyycom| 国产中文在线| 456亚洲影院| 国产成人精品亚洲线观看| 欧美一级免费在线观看| 日本午夜精品一区二区三区电影 | 久久亚洲道色| 97在线免费视频观看| 国产一二三精品| 亚洲欧洲综合网| 欧美天堂一区二区三区| 欧美色综合一区二区三区| 久久久久久久一区二区| 草莓视频一区二区三区| 国内自拍中文字幕| 国产一区美女在线| 天天看片中文字幕| 欧美一区二区三区在线看| 巨大荫蒂视频欧美另类大| 成人国产精品久久久| 欧美国产偷国产精品三区| 在线免费观看视频黄| 中文一区一区三区高中清不卡| 久久久久久亚洲av无码专区| 亚洲欧洲国产伦综合| 欧美色网在线| 亚洲国产高清国产精品| 麻豆91在线看| 午夜国产小视频| 91精品国产乱| 日本中文字幕中出在线| 成人在线免费网站| 在线观看不卡| 久久久久久久久免费看无码 | 久久青草欧美一区二区三区| www.com国产| 在线观看精品国产视频| 欧美在线一级| 视色,视色影院,视色影库,视色网| 国产一区二区在线观看视频| 免费一级肉体全黄毛片| 亚洲国产精久久久久久| 天堂资源在线| 亚洲精品在线免费看| 激情都市一区二区| 国产一级视频在线播放| 日韩成人在线观看| 日韩性xxx| 国产91av视频在线观看| 国产91丝袜在线播放九色| 国产特黄大片aaaa毛片| 永久555www成人免费| 国产亚洲字幕| 日韩中文字幕在线视频观看| 国产喂奶挤奶一区二区三区| 国产精品探花视频| 午夜精品久久久久久久久久久久| 亚洲系列另类av| 亚洲免费黄色录像| 午夜视黄欧洲亚洲| 97在线观看免费观看高清 | 国产乱子伦农村叉叉叉| 欧美国产1区2区| 亚洲爆乳无码一区二区三区| 日本a级片电影一区二区| 亚洲情侣在线| 美女久久久久久久久久| 欧美一区二区在线播放| 性欧美超级视频| 国产天堂视频在线观看| 欧美激情综合在线| 日本人妻丰满熟妇久久久久久| 国产精品综合久久久|