精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

10個小模型并聯跑贏GPT-4.1!無額外訓練,方法僅四步

人工智能 新聞
上海人工智能實驗室聯合東北大學、西北工業大學等機構,提出了Avengers框架,旨在探索開源小模型群體智能的新路徑。

近年來,語言模型技術迅速發展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐漸被谷歌、OpenAI等科技巨頭所壟斷。

與此同時,開源社區的小規模模型正面臨日益嚴峻的挑戰——

他們參數規模通常僅在7B左右,難以在多任務、多領域場景中與大型閉源模型相抗衡,尚未形成真正意義上的通用人工智能能力。

在此背景下,上海人工智能實驗室聯合東北大學、西北工業大學等機構,提出了Avengers框架,旨在探索開源小模型群體智能的新路徑。

圖片

實驗表明,Avengers框架在15個涵蓋數學、代碼、邏輯、知識和情感任務的數據集上,平均得分超越了GPT-4.1(OpenAI 4月發布的旗艦模型),并在其中9個數據集上顯著更優。

圖片

△模型路由分布圖與部分任務性能對比

Avengers框架:構建小型語言模型的協同智能

圖片

Avengers框架的設計核心是簡潔、高效且無需額外訓練,通過四個輕量的步驟,集結多個小模型的優勢:

  1. Embedding:通過嵌入理解問題
    無論是系統準備階段用作學習的驗證問題,還是用戶實時提出的新問題,框架都會首先利用文本嵌入模型將這些問題“翻譯”成語義信息向量。
  2. Clustering:通過聚類構建“任務地圖”
    在系統準備階段,Avengers通過計算這些向量間的相似性,將問題劃分為不同的簇(cluster),其中每個簇都代表著一種具備相似性的問題,例如“數學計算區”、“代碼生成區”或“邏輯推理區”。
  3. Scoring:為每個模型建立“能力檔案”
    Avengers利用各個簇的代表性驗證問題(驗證集)去“考核”模型池中的每一個小模型,并記錄下它們在每個問題類別上的表現得分。
  4. Routing & Voting:通過動態路由與投票決策,實現人盡其才,擇優輸出

當一個新問題進入Avengers后,框架會實時進行處理:

首先,通過語義嵌入理解新問題。

然后,在“任務地圖”上迅速定位該問題所屬的簇。

接著,系統查閱各模型的“能力檔案”,動態選擇(路由)在該問題類別中表現最好的一個或多個“專家模型”來生成答案。

最后,通過投票機制(如Self-Consistency),從所有候選答案中選出一致性最高的作為最終輸出。

圖片

實驗驗證:Avengers框架的有效性與潛力

為了全面評估Avengers框架的性能,研究團隊選取了覆蓋數學推理(如AIME, Math500,LiveMathBench)、代碼生成(MBPP, HumanEval)、邏輯推理(如KORBench, BBH,Knights and Knaves)、知識問答(ARC Challenge, MMLUPro,GPQA,FinQA,MedQA)和情感分析(如EmoryNLP, MELD)等五個領域的15個公開數據集。

實驗中,Avengers框架集成了10個參數量在7B左右的開源小型語言模型。

此外,為了進行更加充分的對比,研究團隊還對基線方法進行了增強。

具體而言,對于路由方法(RouterDC, EmbedLLM, MODEL-SAT),統一使用gte-qwen2-7B-instruct作為文本嵌入模型,推理時統一使用Self-Consistency策略(采樣10次)。訓練路由時,研究人員人為選取了路由模型的測試集最高性能點作為訓練終止點。對于混合方法(MoA, Symbolic-MoE),研究團隊統一使用32K上下文的Qwen2.5-7B-Instruct作為聚合模型(aggregator)。為了避免模型過多帶來的上下文窗口過長問題,研究團隊還設計了MoA(Oracle)——推理時使用在當前任務最強的3個模型,而不是全部模型。

核心實驗結果表明

  • 整體性能優越
  • 在15個數據集中,Avengers框架在其中9個數據集上的表現超越了強大的專有模型GPT-4.1。
  • 特定領域優勢顯著
  • 數學任務上,Avengers的平均性能比GPT-4.1高出18.21%

  • 代碼任務上,Avengers的平均性能比GPT-4.1高出7.46%

  • 超越其他路由與集成方法

  • 與需要訓練的先進路由方法(如RouterDC, EmbedLLM, MODEL-SAT)相比,Avengers在無需額外訓練的情況下,平均性能最高,并且在分布外泛化(Out-of-Distribution Generalization)任務上表現出更強的魯棒性,在OOD測試中平均得分比EmbedLLM高出8.14%。

  • 與混合式方法(如Mixture-of-Agents)相比,Avengers更適應小模型上下文窗口有限和指令遵循能力相對較弱的特點,展現出更好的性能,相比于MoA(Oracle)方法平均得分高出17.16%。

這些結果清晰地證明,通過Avengers框架的有效組織和調度,多個小型模型的“集體智慧”能夠達到甚至在某些方面超越頂尖大型模型的水平,相比于混合式方法,性能優勢明顯,相比于路由方法,無需訓練且OOD性能優秀。

圖片圖片

要素解析:Avengers框架為何有效?

圖片圖片

通過細致的消融實驗,研究團隊探究各組成部分對整體性能的貢獻:

  1. 對嵌入模型和聚類算法的魯棒性:實驗表明,Avengers框架的性能對于所選用的具體嵌入模型(測試了從0.56B到7B參數不等的多種模型)和聚類算法(測試了K-Means、層次聚類、GMM等多種經典算法)并不敏感。這意味著Avengers具有良好的普適性和易用性,不強依賴于特定的組件。
  2. 模型數量與性能的權衡:研究發現,隨著集成的小模型數量增加,Avengers的整體性能也隨之提升。值得注意的是,僅需3個小模型,其性能便可與GPT-4.1持平(根據簇排名自動選擇)。當模型數量達到約10個時,性能趨于飽和,尤其在知識、代碼和情感等任務上展現出良好的互補效應。這說明Avengers能夠有效地利用模型的異質性,實現“1+1>2”的效果,而無需盲目堆砌模型數量。
  3. 集成策略的有效性:在多種輸出集成策略中,基于投票的策略被證明是一種簡單且高效的選擇,它通過對單個或多個模型進行重復采樣及投票,顯著提升了最終答案的質量和穩定性。
  4. 對超參數的低敏感度:以聚類數量K為例,實驗顯示在一個相當寬泛的K值范圍內(約14至140),Avengers均能保持穩定且優于GPT-4.1的性能。這降低了超參數調優的難度,增強了框架的實用性。

這些特性共同構成了Avengers框架的核心優勢:它是一個輕量級、適應性強、且對具體組件選擇和超參數調整不敏感的協同解決方案。

意義與展望:為開源AI生態注入新活力

Avengers框架的提出和驗證,對于當前的AI研究和開源社區具有多重意義:

  • 為小型模型開辟新路徑它證明了通過有效的協同策略,參數量相對較小、資源要求較低的開源模型也能夠在復雜任務上取得良好表現,為提升開源模型實用性提供了參考路徑。
  • 推動AI技術的普惠化作為一個無需訓練、易于實現的框架,Avengers簡化了高性能AI系統的構建流程,有助于更多開發者和研究人員開展相關實驗與應用探索。
  • 促進模型生態的多樣性通過發掘和利用不同模型的獨特優勢,Avengers展示了模型在特定任務中互補使用的潛力,有助于構建一個更加豐富和多元的AI模型生態。

未來工作將聚焦于以下幾個方面:

  1. 降低初始校準成本探索更高效的聚類和模型能力評估方法,以減少框架在引入新模型或新任務時的前置計算。
  2. 擴展應用范圍將Avengers框架應用于更廣泛的任務類型(如對話系統、多模態任務)和更多樣化的模型(包括更小規模的模型)。
  3. 動態適應與進化研究在線學習和動態調整機制,使Avengers框架能夠根據實時反饋和環境變化,持續優化其模型選擇和集成策略。

本文第一作者張逸群(東北大學博士三年級)和李昊(西北工業大學博士二年級)均為上海人工智能實驗室實習生。通訊作者為上海人工智能實驗室研究員胡舒悅和東北大學副教授馮時。團隊其他成員還有實驗室實習生王晨旭、陳林堯,以及實驗室研究員張喬生、葉鵬、徐甲、白磊、歐陽萬里等。

論文鏈接:https://arxiv.org/abs/2505.19797

代碼鏈接:https://github.com/ZhangYiqun018/Avengers

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-06 00:22:00

2025-07-09 11:21:43

MIT語言模型GPT-4.1

2021-07-26 09:35:26

SQL數據庫優化

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-11-10 08:57:00

AI模型測試

2010-06-13 14:19:40

學習UML

2010-04-28 12:02:37

Forefront網絡優化

2010-09-06 11:58:39

ppp撥號Linux

2010-06-12 13:49:16

學習UML

2010-09-14 17:35:52

2021-11-23 23:43:16

MySQL數據庫Docker

2025-06-03 08:49:00

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2010-11-19 15:44:04

IT跳槽

2010-04-20 10:12:05

2017-04-17 12:31:45

SDN網絡虛擬化

2010-06-02 17:29:02

svnserve服務

2011-07-07 13:09:04

編程

2025-04-16 09:30:16

2011-06-29 10:45:24

360優化
點贊
收藏

51CTO技術棧公眾號

中日韩在线观看视频| 少妇熟女视频一区二区三区| 色中色在线视频| 亚洲综合三区| 中文字幕亚洲欧美| 国产福利精品一区二区三区| 日韩经典av| av在线免费不卡| 国产精品扒开腿做爽爽爽男男| 国产精品久久久影院| 99久久免费国产精精品| 亚洲成人在线| 色婷婷久久av| 韩国三级hd两男一女| 欧亚在线中文字幕免费| 国产精品视频在线看| 国产原创欧美精品| 久久免费视频99| 国产毛片一区二区三区 | 亚洲色图日韩精品| 欧美片第一页| 国产精品久久一卡二卡| 成人动漫在线观看视频| 波多野结衣绝顶大高潮| 欧美日韩一区二区高清| 亚洲人a成www在线影院| 黑人无套内谢中国美女| 电影天堂国产精品| 一区二区三区在线视频观看58 | 91麻豆精品秘密| 国产精品视频在线观看| 欧美人与禽zozzo禽性配| 国产一区二区三区91| 欧美大片顶级少妇| 999精彩视频| 黄在线观看免费网站ktv| 中国色在线观看另类| 精品国产一区二区三区免费 | 一区二区激情小说| 日本婷婷久久久久久久久一区二区| 久久高清免费视频| 天天综合国产| 亚洲欧洲激情在线| 又黄又爽的网站| 日韩欧美中文字幕一区二区三区| 国产亚洲美州欧州综合国| 91久久中文字幕| 真实新婚偷拍xxxxx| 国产精品三上| 欧美精品videos性欧美| 波多野结衣不卡视频| 日韩电影免费在线观看| 亚洲精品xxx| 日韩视频在线观看一区二区三区| 欧美高清视频| 久久久精品欧美丰满| 精品久久sese| 特黄aaaaaaaaa真人毛片| 美女视频网站久久| 国产精品电影观看| 韩国av中文字幕| 日韩视频免费| 久久精品免费播放| 久久久久久视频| 国产精品国产一区| 精品国内产的精品视频在线观看| 日本女人黄色片| 在线观看欧美| 欧美区一区二区三区| 成人精品视频一区二区| 亚洲天堂一区二区| 91成人网在线| 黄色片视频在线| 成人看片网站| 欧美在线色视频| 最近中文字幕一区二区| 六九午夜精品视频| 欧美丰满一区二区免费视频| 麻豆一区二区三区视频| 日本免费成人| 欧美日韩免费高清一区色橹橹| 美女黄色免费看| 成全电影大全在线观看| 亚洲一区二区在线视频| 奇米影视亚洲色图| 欧美xxxhd| 色视频欧美一区二区三区| 可以在线看的黄色网址| 蜜桃成人精品| 欧美区一区二区三区| 欧美丝袜在线观看| 亚洲无线观看| 亚洲欧美日韩精品| 三上悠亚在线观看视频| 国自产拍偷拍福利精品免费一 | 国产精品熟女久久久久久| 久久精品国产免费| 99www免费人成精品| 天天操天天干天天爽| 国产欧美一区二区三区网站| 一区二区视频在线观看| 在线网址91| 亚洲黄一区二区三区| 成人午夜视频在线观看免费| 欧美极度另类| 欧洲av在线精品| 亚洲国产综合av| 亚洲三级精品| 久热精品视频在线观看一区| 亚欧洲精品在线视频| 日本中文字幕一区二区有限公司| 97热在线精品视频在线观看| 欧美一级片免费在线观看| 麻豆成人综合网| 91亚洲国产成人精品性色| 欧美 日韩 国产 成人 在线| 日本一区二区三区在线观看| 男人草女人视频| 欧美三级精品| 欧美成人精品高清在线播放 | 日韩在线一区二区| 91综合免费在线| 黄色av免费在线观看| 中文字幕欧美国产| 久久精品视频16| 亚洲精品66| 亚洲欧美制服丝袜| 久久久久久久99| 国产伦精品一区二区三区免费 | 亚洲国产小视频| 亚洲不卡的av| 久久中文精品| 99精彩视频| av资源网在线观看| 黄色一区二区在线观看| 亚洲欧美日韩一二三区| 福利欧美精品在线| 久久视频免费在线播放| 日韩电影在线观看一区二区| 成人精品国产一区二区4080| 五月天综合婷婷| 国产私拍福利精品视频二区| 亚洲精品第一页| 久久综合成人网| 精品一区二区三区久久久| 日本不卡一区二区三区在线观看| 91官网在线| 欧美视频专区一二在线观看| 伦理片一区二区| 国内精品美女在线观看| 亚洲www视频| 免费看美女视频在线网站| 91黄色免费网站| 日韩在线免费观看av| 国产一区二区三区成人欧美日韩在线观看| 久热爱精品视频线路一| 国产无套丰满白嫩对白| youjizz国产精品| 超碰成人免费在线| 日韩一区二区三区高清在线观看| 欧美不卡一二三| 色在线观看视频| 激情国产一区二区| 亚洲激情一区二区| 精品久久毛片| 日韩在线视频免费观看| 国产精品sm调教免费专区| 欧美国产欧美综合| 黑鬼大战白妞高潮喷白浆| 亚洲欧洲免费| 日本精品在线视频| 欧美孕妇孕交| 色天使色偷偷av一区二区| b站大片免费直播| 日韩精品一二三| 亚洲aⅴ天堂av在线电影软件| 羞羞网站在线免费观看| 欧美大黄免费观看| 免费人成在线观看| 99精品久久只有精品| 99精品人妻少妇一区二区| 欧美福利在线播放网址导航| 97在线视频一区| 欧美色视频免费| 欧美日韩一区二区三区高清| 亚洲av无一区二区三区| 国产尤物一区二区在线| 欧美久久在线观看| 欧美人与拘性视交免费看| 国产日韩精品一区二区| 亚洲欧美成人影院| 日韩电影中文字幕在线| 最新国产中文字幕| 一区二区三区欧美在线观看| 手机在线成人av| 日本美女视频一区二区| 欧美性受xxxx黑人猛交88| 北条麻妃在线一区二区免费播放 | 国外成人福利视频| 久久九九亚洲综合| 飘雪影院手机免费高清版在线观看| 午夜精品久久久久久久蜜桃app| 中文字幕欧美视频| 日韩在线一区二区三区| 日韩黄色片在线| 日韩电影免费网址| 免费在线国产精品| 国产精品超碰| 国产精品中文久久久久久久| 性爽视频在线| 欧美激情伊人电影| 黄网站视频在线观看| 国产丝袜高跟一区| 人妻精品一区二区三区| 欧美日韩国产高清一区| 日韩欧美在线观看免费| 亚洲国产精品综合小说图片区| 女王人厕视频2ⅴk| 爽好久久久欧美精品| 日韩一级性生活片| 欧美精品aa| 中国一区二区三区| 日韩一区三区| 色就是色欧美| 秋霞蜜臀av久久电影网免费| 91免费版网站在线观看| 日韩一级特黄| 国产精品偷伦一区二区| 在线国产成人影院| 欧美亚洲日本黄色| 毛片在线网站| 韩国19禁主播vip福利视频| 五月婷婷视频在线观看| 操91在线视频| 在线中文字幕-区二区三区四区 | 欧美精品电影| 中文字幕在线日韩| jizz在线免费观看| 亚洲欧洲在线看| 黄色av免费在线观看| 亚洲日韩中文字幕在线播放| 青青草在线播放| 亚洲人成欧美中文字幕| 日韩av成人| 亚洲欧洲av一区二区| 成人免费在线视频网| 在线免费观看羞羞视频一区二区| 精品国产乱码久久久久久蜜臀网站| 亚洲国产精品一区二区www在线 | 欧美国产丝袜视频| 激情文学亚洲色图| 久国产精品韩国三级视频| 中文字幕资源在线观看| 国产在线观看一区二区| 一起草最新网址| 国产成人午夜视频| 日本道中文字幕| 久久久美女毛片| 亚洲色图100p| 亚洲综合清纯丝袜自拍| 日本污视频在线观看| 欧美视频在线观看 亚洲欧| 日本中文字幕在线观看视频| 欧美日韩在线播| 国产极品久久久| 亚洲精品狠狠操| 国产一二三区在线视频| 久久久国产一区| 不卡av免费观看| 国产成人精品视频| 中文成人激情娱乐网| 超碰97国产在线| 日韩影视在线观看| 亚洲精品在线免费| 欧美国产先锋| 激情六月丁香婷婷| 国产综合色在线| 亚洲一区二区三区四区av| 国产亚洲欧美中文| 精品人妻伦九区久久aaa片| 亚洲成人资源在线| 国产美女www| 精品欧美久久久| 成人在线免费观看| 欧美老女人在线视频| 玛雅亚洲电影| www.成人av.com| 成人影院在线| 你真棒插曲来救救我在线观看| 亚洲免费在线播放视频| 成人国产精品视频| 男女全黄做爰文章| 欧美日韩国产一区中文午夜| 在线中文字幕网站| 亚洲精品wwwww| 久久99精品久久| 亚洲18私人小影院| 成人豆花视频| 日韩免费av一区二区三区| 亚洲激情午夜| 91网址在线观看精品| 国产色综合久久| 国产精品一区二区6| 欧美一区在线视频| 成人精品一区二区| 97av视频在线| 日韩三级久久| 吴梦梦av在线| 久久婷婷激情| 网站免费在线观看| 一区二区三区加勒比av| 在线观看亚洲国产| 国产午夜精品全部视频在线播放 | 亚洲一区二区色| 日韩精品在线观看一区二区| 欧美人与禽性xxxxx杂性| 国产精品视频一| 亚洲永久精品唐人导航网址| 成人一区二区av| 国产酒店精品激情| 男女全黄做爰文章| 欧美亚洲国产一卡| 日韩三级电影网| 欧美性做爰毛片| 日韩在线黄色| 好吊妞无缓冲视频观看| 国产成人自拍在线| 天天干中文字幕| 欧美一区二区黄| 久操视频在线观看| 国产在线精品自拍| 久久激情电影| 亚洲成人福利在线| 中文字幕乱码亚洲精品一区| 欧产日产国产69| 亚洲人成亚洲人成在线观看| 免费成人动漫| 视频一区二区三| 日本欧美一区二区三区| 极品人妻videosss人妻| 欧美中文字幕一区二区三区| 欧美少妇另类| 国产精品99久久久久久www| 亚洲精品进入| 老熟妇仑乱视频一区二区| 国产三级一区二区| 亚洲精品国产无码| 国产午夜精品免费一区二区三区| 精品176二区| 成人综合国产精品| 欧美一区二区三区另类| 久久精品国产99久久99久久久| 91天堂素人约啪| 五月婷婷激情视频| 精品小视频在线| 久久久人成影片一区二区三区在哪下载| 99国精产品一二二线| 国产精品a级| 午夜影院福利社| 精品久久久久久中文字幕一区奶水 | 欧美日韩黄色大片| 可以在线观看的av| 国产精品偷伦一区二区| 中文字幕日韩一区二区不卡| 亚洲一二三av| 午夜影院久久久| 成人高清网站| 91观看网站| 翔田千里一区二区| 成人精品一二三区| 日韩欧美一区二区免费| 天堂网在线最新版www中文网| 国产v综合v亚洲欧美久久| 日本不卡免费一区| 日本女人黄色片| 粉嫩老牛aⅴ一区二区三区| av在线1区2区| 成人av网站观看| 日韩中文字幕一区二区三区| 一区二区成人免费视频| 亚洲精品一区二区三区婷婷月| 手机在线免费看av| 久久精品日产第一区二区三区乱码 | 中文字幕日本最新乱码视频| 国产人伦精品一区二区| 国产福利资源在线| 日韩免费中文字幕| 欧美99在线视频观看| 成人片黄网站色大片免费毛片| 午夜精品福利久久久| 在线中文资源天堂| 精品久久久久久乱码天堂| 国模无码大尺度一区二区三区| 婷婷综合在线视频| 亚洲国产精品嫩草影院久久| 欧美伊人亚洲伊人色综合动图| 亚洲午夜精品国产| 97久久精品人人做人人爽| 国产日韩在线观看一区| 欧美专区中文字幕|