精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OAI/谷歌/DeepSeek首次合體「AI夢之隊」!戰力飆升30%,碾壓一切單模型

人工智能 新聞
三個前沿AI能融合成AGI嗎?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型,在推理過程中動態協作,通過試錯優化生成過程,有效融合群體AI智慧。

三個臭皮匠頂個諸葛亮、雙拳難敵四手。。。

這些對于人類再自然不過的群體智慧思維,似乎從來沒有發生在AI身上。

我們總是期望某個AI能夠足夠智能,科技巨頭們之間的比拼也是通過單模型的不斷更新來標榜先進性。

比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型,到底哪個寫的代碼更好?

但如果,將多個AI模型的能力「融會貫通」,能否也達到三個臭AI頂個AGI的效果?

圖片

最近,一項來自于Sakana AI的研究,在推理過程中——而不是在構建——試圖將三種模型的能力整合起來。

結果令人驚訝,整合后的模型能力都遠超單個模型,三模合一的性能也好于只有兩個模型合體的性能。

圖片

Sakana AI使用一種新的推理時Scaling算法,自適應分支蒙特卡洛樹搜索AB-MCTS(Adaptive Branching Monte Carlo Tree Search)。

該算法使AI能夠高效地執行試錯操作,并讓多個前沿AI模型協同合作。

使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當前最先進的AI模型組合起來,在ARC-AGI-2基準測試中取得了令人驚訝的成績。

多模型的得分遠超單獨的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。

圖片

論文地址:https://arxiv.org/abs/2503.04412

這種想法,曾經在在2024年關于進化模型融合的研究中得到過初期驗證,通過進化計算和模型融合,利用現有開源模型挖掘到了多模型所蘊含的巨大群體智慧。

圖片

但AB-MCTS更進一步,不僅在構建新模型時,而且在推理過程中也使用多個模型。

利用不斷進步的前沿模型(例如ChatGPT、Gemini和DeepSeek),生成一種新的群體智能的形式。

推理時Scaling

當你面對一個無法一眼看透的難題時,會怎么做?

很可能,你會花更長時間獨立思考,親身實踐、反復試錯,或是與他人協作。

那么,我們是不是也能讓AI用同樣的方式去解決難題呢?

  • 第一種方法和人類使用的「更長時間思考」策略如出一轍——通過RL生成更長的思維鏈,來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。
  • 第二種方法,是讓模型反復審視問題、不斷優化答案,甚至在必要時推倒重來。
  • 第三種則是讓LLM之間進行頭腦風暴,類似于一種「群體智慧」。

這次團隊提出的AB-MCTS,正是通過推理時Scaling技術,讓AI不僅能高效地執行試錯,還能讓多個不同的AI進行集體思考。

圖片

駕馭搜索的兩個維度:深度與廣度

目前,有兩種常見的方法可以讓LLM進行試錯:

  • 第一種,是名為「序列優化」的深度優先搜索。它利用LLM生成答案,然后對其進行反復優化。
  • 第二種,是「重復采樣」,即讓LLM根據同一個提示詞多次生成解決方案。這種廣度優先搜索,會重復地查詢LLM,但不會參考先前嘗試的結果。而LLM的隨機性,則會對同一問題會產生不同的答案。

圖片

實踐證明,無論是深入搜索(優化現有解決方案)還是擴展搜索(生成新解決方案),都能有效幫助LLM找到更優的答案。

為了將這兩者有效地結合起來,團隊提出了一種用于推理時Scaling的、更高效的全新方法——AB-MCTS。

它能根據具體問題和上下文,在深度和廣度兩個方向上進行靈活搜索。

圖片

為了實現這種靈活搜索,AB-MCTS擴展了在AlphaGo等系統中得到成功應用的蒙特卡洛樹搜索 (MCTS),并采用湯普森采樣來決定探索方向。

具體而言,在每個節點(代表初始提示詞或一個已生成的解決方案),AB-MCTS會利用概率模型來評估兩種可能行動的潛在價值:

  • 生成一個全新的解決方案
  • 或者優化一個現有的方案

隨后,從這些模型中進行采樣,根據估算出的價值來決定下一步的探索方向。

為了評估尚未生成的新方案的質量,AB-MCTS會通過混合模型和概率分布來對評估過程進行建模,從而實現真正靈活的搜索。

第三個維度:AI

為了最大化LLM作為集體智能的潛力,一個名為Multi-LLM AB-MCTS的系統應運而生。

它不僅能自適應地探索搜索方向,還能根據給定的問題和情境,選擇使用哪個LLM。

圖片

具體來說,Multi-LLM AB-MCTS的運作方式如下:

  • 步驟1:算法將決定是(1)選擇一個現有節點(深入搜索),并在下一層級重復步驟1;還是(2)從當前節點生成一個新的解決方案(擴展搜索),并進入步驟2。
  • 步驟2:選擇一個LLM。
  • 步驟3:被選中的LLM會基于父節點生成一個更優的解決方案,并對結果進行評估。這個新生成的解決方案將作為一個新節點添加到搜索樹中。

至于如何選擇模型,團隊的方法是——

  • 首先,為每種模型分配了一個獨立的概率模型,并采用類似AB-MCTS的方式使用湯普森采樣;
  • 然后,這些概率模型就會根據每個LLM在搜索過程中的表現進行更新;
  • 最終,讓表現更優的LLM被選中的可能性越來越高。

實驗結果

ARC-AGI旨在評估一種類人、靈活的智能,這種智能可以高效地進行推理并解決新問題,而不像傳統指標那樣測試特定技能或知識。

實驗采用的是更具挑戰性的ARC-AGI-2。

圖片

來自ARC-AGI-2的一個示例問題:任務是從左側的三個演示案例中推斷出共同的轉換規則,并將其應用到右側的測試案例中。

為了主要評估搜索算法的最大潛在性能,使用了Pass@k指標,該指標用于衡量在k次嘗試內是否至少找到了一個正確的解決方案。

這與ARC-AGI-2比賽的官方標準不同,后者通常采用Pass@2標準(提交兩個最終答案,其中一個是正確的)。

Pass@2方法需要從搜索結果中選擇有希望的候選方案的額外步驟。

實驗是在ARC-AGI-2的公共評估集中的120個任務上進行的。

圖片

結合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現出更高的得分。

圖片

重復采樣一直被認為是ARC-AGI中一種非常有效的方法。

事實上,在實驗中,使用o4-mini進行重復采樣成功解決了23%的問題(即生成了能夠正確轉換測試用例的Python代碼)。

這一結果遠超單次嘗試的得分,展示了重復采樣的強大能力。

AB-MCTS進一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調用后變得更加明顯。

通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用,最終能夠為超過30%的問題找到正確的解決方案。

在Multi-LLMAB-MCTS中發現的一個關鍵特征是它能夠根據各個LLM在特定問題上的專長動態地分配它們。

下圖清楚地展示了這一行為:對于在演示示例中成功率較高的情況(圖的左側),觀察到對某個特定LLM的明顯偏好。

這種偏向發生的原因是在搜索過程中,算法識別出哪個LLM對于給定的問題最有效,并隨后增加該模型的使用頻率。

圖片

還有一些有趣的例子,其中單個LLM無法解決的問題在組合使用多個LLM后得以解決。

這超出了為每個問題分配最佳LLM的簡單做法。

在下面的例子中,盡管o4-mini最初生成的解答是錯誤的,但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。

這表明Multi-LLMAB-MCTS可以靈活地結合前沿模型,解決原本無法解決的問題,從而推動將LLMs用作集體智能所能實現的邊界。

圖片

使用Multi-LLMAB-MCTS解決ARC-AGI-2時的搜索樹示例。

節點中的數字表示生成順序,顏色代表所選的LLM。

黃色節點表示生成了正確轉換測試用例的代碼的節點。

這是一個單一LLM均無法找到解決方案,但通過多個LLM的組合成功解決問題的示例。

圖片

多LLMAB-MCTS使得不同LLM之間能夠協作。

上圖展示了一個例子,其中DeepSeek-R1-0528在o4-mini(來自上圖問題中生成的錯誤解答)的基礎上改進,最終得出了正確答案。

Multi-LLMAB-MCTS旨在通過推理時Scaling多個前沿模型的合作來提升性能。在結合多個LLM方面,也提出了諸如多智能體辯論(Multiagent Debate)、智能體混合(Mixture-of-Agents)和LE-MCTS等其他方法。

自2024年中以來,「推理」模型逐漸受到重視,這些模型通過強化學習優化推理過程,開啟了繼模型擴展之后的新范式——推理時Scaling時代。

通過反復執行這些模型的推理過程,并結合多個具有獨特個性的LLMs,可以進一步提升推理性能。

盡管人類大腦本身已堪稱自然奇跡,但真正撼動時代的偉業,從不屬于孤膽英雄。

無論是將人類送上月球的阿波羅計劃,構建全球信息命脈的互聯網,還是破譯生命密碼的人類基因組計劃,這些里程碑式的成就,皆源于無數頭腦之間的協作與共鳴。

正是多樣知識的交匯、思想的碰撞,才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用于AI。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-07 19:01:25

2025-11-18 09:11:48

2025-10-21 08:59:00

2020-09-16 11:46:05

AI

2014-07-21 13:19:36

2025-03-10 13:11:00

2025-04-11 09:15:00

語言模型AI數據

2024-03-19 08:18:46

GPT-5算力Altman

2018-02-07 10:31:08

IBM云存儲

2018-09-18 09:52:46

Windows Pho谷歌微軟

2025-07-10 08:50:00

2023-06-27 13:37:17

谷歌AI

2023-07-09 15:18:27

谷歌AI隱私

2025-05-07 10:12:52

英偉達模型AI

2025-03-27 09:47:23

訓練模型AI

2014-11-20 17:46:08

2023-12-29 07:54:33

AI智能體人工智能

2016-08-31 17:24:05

大數據分析

2012-12-31 11:22:58

開源開放
點贊
收藏

51CTO技術棧公眾號

人人妻人人澡人人爽欧美一区| 欧美亚洲视频在线看网址| 一区二区久久精品| gogo高清在线播放免费| 久久亚洲综合色一区二区三区 | 亚洲成a人片在线不卡一二三区| 亚洲xxxx在线| 丰满少妇xoxoxo视频| 亚洲国产一区二区在线观看 | 91黄色免费网站| 91精品一区二区三区四区| 亚洲欧美日韩综合在线| 黄网站免费久久| 日韩av大片免费看| 国产一级淫片免费| 日韩精品dvd| 亚洲激情视频网站| av中文字幕网址| 国产不卡123| 亚洲色图欧洲色图婷婷| 国产伦精品一区二区三区免 | 久久99精品一区二区三区三区| 国产做受69高潮| 国产成人自拍网站| 青青草97国产精品麻豆| 日韩电影中文字幕在线观看| 初高中福利视频网站| 日韩在线你懂得| 日韩欧美在线视频免费观看| 日本免费a视频| 老司机午夜在线视频| 欧美激情在线一区二区| 久热国产精品视频一区二区三区| 亚洲AV无码乱码国产精品牛牛 | 日韩欧美在线视频观看| 精品少妇在线视频| 日本不卡影院| 亚洲欧美视频在线观看视频| 亚洲国产精品久久久久婷婷老年| 三级毛片在线免费看| www.性欧美| 国产伦精品一区二区三区视频黑人 | 亚洲日本理论电影| 国产私拍精品| 久久精品一区二区三区四区| 久久久久久久久四区三区| 囯产精品久久久久久| 懂色av一区二区三区蜜臀 | 精品国产av一区二区三区| 精品在线观看视频| 91精品视频在线看| 国产又粗又猛又爽| 紧缚奴在线一区二区三区| 国产一区二区丝袜高跟鞋图片| 日韩乱码一区二区三区| 日韩精品五月天| 国产精品av在线| 中文字幕免费高清网站| 日本aⅴ免费视频一区二区三区| 日韩av成人在线观看| 高潮毛片又色又爽免费| 久久综合九色综合欧美狠狠| 国产精品久久精品| 国产美女精品视频国产| 韩日精品视频一区| 99久久伊人精品影院| 亚洲精品国产av| av电影一区二区| 精品蜜桃传媒| 无码国产精品96久久久久| 99久久99久久精品免费看蜜桃| 久久大片网站| av中文在线| 亚洲精品成a人| 日本a在线免费观看| 一区二区三区电影大全| 欧美在线视频全部完| 一级片免费在线观看视频| 电影一区二区在线观看| 亚洲精品资源在线| 91麻豆制片厂| 黄色成人精品网站| 日韩免费黄色av| 一区二区三区黄色片| 国产成人精品免费网站| 麻豆成人在线播放| 香蕉视频网站在线观看| 亚洲一二三区在线观看| www.中文字幕在线| 香蕉久久一区| 亚洲精品电影网站| 成年人网站在线观看视频| 国产在线成人| 国产精品久久久久7777婷婷| 亚洲av无码乱码国产精品| 91免费观看在线| 欧美少妇一级片| 在线天堂新版最新版在线8| 在线观看一区不卡| 亚洲图片欧美另类| 成人三级视频| 久久久久五月天| 中文字幕乱伦视频| 成人aaaa免费全部观看| 亚洲视频在线观看日本a| tube8在线hd| 欧美日本免费一区二区三区| 人妻体内射精一区二区三区| 欧美成人milf| 人人澡人人澡人人看欧美| 国产高清免费av| 久久精品视频在线免费观看| 国产91沈先生在线播放| 精品网站在线| 日韩hd视频在线观看| 日韩在线视频网址| 久久久久网站| 国产精品久久波多野结衣| 日本在线免费播放| 狠狠爱在线视频一区| 午夜性福利视频| 国产精品麻豆久久| 国产精品久久久久久亚洲影视| 成人毛片在线免费观看| 一区二区中文视频| 欧美日韩大尺度| 欧美大片网址| 久久免费视频在线| 99精品在线看| √…a在线天堂一区| 蜜臀视频一区二区三区| 国产婷婷一区二区三区| 国产美女免费网站| 欧美三区视频| 国产欧美一区二区三区视频| 四虎成人免费在线| 亚洲精品日产精品乱码不卡| 亚洲色图38p| 自拍自偷一区二区三区| 国语自产精品视频在线看抢先版图片| 中文字字幕在线观看| 久久影院午夜论| 免费无遮挡无码永久视频| 亚洲国产高清在线观看| 久久精品亚洲热| 97在线播放免费观看| 中文字幕亚洲一区二区va在线| 99视频精品免费| 欧美精品momsxxx| 日本精品久久久| 污视频网站免费观看| 亚洲成人免费在线观看| 亚洲成a人片在线www| 欧美日韩伊人| 国产欧美丝袜| 黄色视屏在线免费观看| 亚洲第一免费网站| 国产精品100| 久久精品在线观看| 冲田杏梨av在线| 欧美激情偷拍自拍| 99蜜桃在线观看免费视频网站| 手机在线免费看av| 精品国产三级a在线观看| 日韩 国产 在线| 91理论电影在线观看| aa免费在线观看| 秋霞欧美视频| 91在线播放国产| 日本三级在线观看网站| 精品电影一区二区三区| 人人干人人干人人干| 国产欧美一区二区精品仙草咪| 麻豆一区二区三区视频| 91精品亚洲| 国产日韩精品推荐| 粉嫩一区二区| 久久精品91久久久久久再现| 精品人妻无码一区二区| 亚洲成av人片| xxxxx99| 国产成人啪免费观看软件| 国产欧美日韩小视频| 天堂av一区二区三区在线播放| 国产精品成人免费电影| www视频在线免费观看| 亚洲国产精品字幕| 国模私拍一区二区| 一区二区不卡在线播放 | 国产精品7777777| 国产人久久人人人人爽| 日本成人xxx| 鲁大师成人一区二区三区| 免费看啪啪网站| 牛牛视频精品一区二区不卡| 国产精自产拍久久久久久蜜| 欧美人与牲禽动交com| 亚洲欧美日韩中文在线| 国产男男gay网站| 色综合中文综合网| 青青操国产视频| 国产亚洲成aⅴ人片在线观看 | 欧美日韩福利在线| 久久精品国产68国产精品亚洲| 91网站免费观看| 韩漫成人漫画| 欧美另类99xxxxx| 97电影在线观看| 亚洲成人久久久久| 99视频在线观看免费| 日本高清无吗v一区| 久久成人在线观看| 国产精品久久久久精k8| 国产乱了高清露脸对白| 激情久久五月天| 欧美一级黄色影院| 99在线精品视频在线观看| 做爰高潮hd色即是空| 国产99精品| 久久精彩视频| 高清一区二区三区| 91最新在线免费观看| 电影一区二区| 青草热久免费精品视频| 国精一区二区三区| 美日韩精品免费观看视频| 日韩子在线观看| 亚洲深夜福利视频| 四虎影视在线观看2413| 欧美精品一区二区三区在线| 国产三级三级在线观看| 欧美日韩一级二级三级| 精品无码一区二区三区的天堂| 欧美日韩国产页| 日韩精品久久久久久久酒店| 午夜精品在线看| 精品小视频在线观看| 亚洲一区二区三区激情| 青青草手机视频在线观看| 亚洲欧洲综合另类| 色老板免费视频| 自拍偷拍亚洲欧美日韩| 亚洲不卡在线播放| 亚洲私人黄色宅男| xxxx日本少妇| 亚洲精品乱码久久久久久 | 欧美在线91| 国产在线无码精品| 欧美日韩一区二区高清| 丰满少妇久久久| 国产日韩欧美在线播放不卡| 久久久久久久午夜| 美女日韩在线中文字幕| 国产免费视频传媒| 美国三级日本三级久久99| 亚洲欧美日韩一级| 紧缚奴在线一区二区三区| 亚洲一区二区中文字幕在线观看| 韩国欧美国产1区| 久久无码专区国产精品s| 99热99精品| 亚洲女优在线观看| 18欧美亚洲精品| 久久久精品人妻一区二区三区四| 亚洲一级二级在线| 国产精品久久久久久久久久久久久久久久久 | 久久国产精品99久久久久久老狼 | 日本三级日本三级日本三级极| 成人免费精品视频| 国产成人精品一区二区三区在线观看| 国产在线一区观看| 成人区人妻精品一区二| 99久久伊人网影院| 成人影视免费观看| 国产精品久久久久久久久动漫 | 亚洲在线视频一区| 精品91久久久| 欧洲精品在线观看| 国产精品自拍电影| 精品国产91乱码一区二区三区| 日本电影一区二区在线观看| 夜夜嗨av色一区二区不卡| 成年人在线观看| 国产亚洲精品久久久优势| 三区四区电影在线观看| 欧美激情视频一区二区三区不卡| 三级网站视频在在线播放| 秋霞av国产精品一区| 国产精品蜜月aⅴ在线| 96pao国产成视频永久免费| 免费福利视频一区| 亚洲欧美日韩精品久久久| 国产一区观看| 91色国产在线| 国产电影一区在线| 四虎成人免费影院| 亚洲主播在线观看| а中文在线天堂| 欧美成人欧美edvon| 加勒比一区二区三区在线| 久久久国产精彩视频美女艺术照福利 | 麻豆视频久久| 欧美激情导航| 欧美在线黄色| 97干在线视频| 精品一区二区在线播放| 中文字幕一区三区久久女搜查官| 久久精品无码一区二区三区| 日韩av一二三区| 欧美日本一道本| 欧美少妇另类| 色综合天天综合网国产成人网| 一区二区电影免费观看| 国产高清精品一区二区三区| av永久不卡| 久久久久久久久久网| 成人夜色视频网站在线观看| 欧美亚洲色综久久精品国产| 亚洲国产欧美日韩另类综合| 国产又粗又黄又爽视频| 日韩av在线资源| a毛片在线播放| 国产日韩欧美在线观看| 亚洲精品小区久久久久久| 欧美一级视频免费看| 国产麻豆精品在线| 日韩欧美视频免费观看| 日韩欧美亚洲范冰冰与中字| www.色婷婷.com| 亚洲天堂男人天堂女人天堂| 国产精品原创| 国产高清精品一区二区| 午夜天堂精品久久久久| 三级在线视频观看| 91亚洲精品久久久蜜桃| 日本三级欧美三级| 日韩亚洲欧美一区二区三区| 在线免费观看黄| 国产欧美va欧美va香蕉在线| 亚洲综合图色| 久久这里只有精品23| 懂色中文一区二区在线播放| 日韩精品一区二区亚洲av性色| 欧美日韩精品免费观看视频| 黄色av网站在线看| 日韩美女免费视频| 成人羞羞网站| 免费黄色一级网站| 国产91精品免费| 国产精品成人久久| 日韩久久久久久| 久操av在线| 粉嫩av一区二区三区免费观看| 2023国产精品久久久精品双| 一级网站在线观看| 一区二区三区在线高清| 欧美在线 | 亚洲| 68精品久久久久久欧美| 牛牛影视一区二区三区免费看| 国产欧美在线一区| 久久久久国产精品麻豆ai换脸| 综合久久中文字幕| 色999日韩欧美国产| 日韩av黄色| 女女百合国产免费网站| 国产在线不卡一卡二卡三卡四卡| 性生交大片免费全黄| 日韩视频在线你懂得| 欧美人与动牲性行为| 精品亚洲欧美日韩| 免费视频久久| 波多野吉衣中文字幕| 色天使色偷偷av一区二区| 国产1区2区3区在线| 3d蒂法精品啪啪一区二区免费| 欧美黄色免费| 99久久久久久久久久| 欧美在线一二三四区| 国产视频中文字幕在线观看| 国产一区自拍视频| 久久综合伊人| 岛国毛片在线观看| 亚洲国产欧美精品| 六月婷婷综合| 中日韩在线视频| 成人午夜激情影院| 免费精品一区二区| 久久精品国产视频| 日韩最新在线| 欧美成年人视频在线观看| 中文字幕亚洲欧美在线不卡| 欧美自拍偷拍一区二区| 日本成熟性欧美| 欧美.www| 日韩人妻一区二区三区| 日韩一区二区高清| 视频二区不卡| 波多野结衣 作品| 国产精品视频在线看| 精品人妻久久久久一区二区三区|