LIMI:僅78個樣本如何重塑智能體訓練范式?

大家好,我是肆〇柒。今天要和大家分享一項來自SII-GAIR聯合實驗室的研究——LIMI。這個由上海交通大學(SJTU)、智源研究院(SII)和粵港澳大灣區數字經濟研究院(GAIR)等機構的青年學者們共同完成的工作,這項研究的創新思考將啟發我們對智能體訓練的認知。他們不僅提出了一個大膽的假設,更用令人信服的實證結果,向整個AI領域證明:機器自主性的新時代,已經到來。
想象一下:你是一家科技公司的AI團隊負責人,正面臨一個棘手問題:公司需要開發能自主完成軟件開發任務的智能體,但傳統方法要求收集數萬條交互數據,每條都需要人工標注,成本高昂且周期漫長。正當你準備申請更多預算時,LIMI研究帶來了轉機——僅用78個精心設計的訓練樣本,就能訓練出性能遠超使用10,000樣本訓練的模型的智能體。這不僅是效率的勝利,更是對"數據規模決定智能水平"這一傳統認知的根本性顛覆。
在人工智能大發展下到今天,一個根本性問題正日益凸顯:當行業從"思考AI"向"工作AI"轉型時,我們是否仍在用錯誤的方式培養機器自主性?當前的AI系統雖然在推理和生成響應方面表現出色,但產業界迫切需要能夠執行任務、操作工具、驅動真實世界結果的自主智能體(Agent)。這種能力被定義為"Agency"——AI系統作為自主智能體運作的涌現能力:通過自我導向地與環境和工具互動,主動發現問題、形成假設并執行解決方案。LIMI(Less Is More for Intelligent Agency)研究的出現,不僅顛覆了這一傳統認知,更將"少樣本高效訓練"范式推向了新的理論高度,標志著AI發展從"蠻力時代"向"巧思時代"的關鍵轉折。
為什么智能體是"少樣本訓練"的終極試金石?
智能體任務:比你想象的復雜10倍
智能體能力之所以成為檢驗"少樣本高效訓練"范式的終極試金石,源于其內在的復雜性和多維度挑戰。與傳統的單輪對話任務不同,智能體必須處理長時程任務,這些任務展現出獨特的復雜性特征。

Gomoku任務示例
以上圖中的Gomoku游戲開發任務為例,一個單一查詢就包含了5個相互關聯的子任務,覆蓋了規劃、執行和協作多個維度。這種任務要求智能體具備多輪交互的連貫狀態跟蹤能力,能夠將復雜目標分解為可管理的子目標,并根據環境反饋動態調整策略。
要點:在開發一個15×15棋盤游戲的過程中,智能體需要依次實現UI渲染、勝負檢測、狀態管理、AI對手開發等多個層次的功能,每個環節都依賴前一環節的正確執行。這種任務結構要求智能體必須理解任務的層次性,能夠將復雜目標分解為可管理的子目標,并在各階段保持狀態一致性。
智能體能力的四大核心挑戰
長時程任務特性:如上圖所示,Gomoku游戲開發任務的五個子任務形成了清晰的層次結構:技術實現能力(子任務1-2)、狀態管理能力(子任務3)和AI策略能力(子任務4-5)。這種多層次任務結構要求智能體能夠維持連貫的思維鏈條,將復雜目標分解為可管理的子目標,并在各階段保持狀態一致性。
工具編排需求:真實世界的智能體任務要求協調使用多個系統并集成結果處理。無論是調用代碼編輯器、版本控制系統,還是操作數據分析工具,智能體必須理解何時使用何種工具,以及如何將工具輸出整合到整體解決方案中。這種能力超越了單純的語言理解,涉及對工具生態的深刻認知和靈活運用。
協作溝通要素:在Task 5的LLM性能比較任務中,智能體需要理解用戶對"DynToM數據集"的查詢需求,自主完成數據下載、API調用、結果分析等步驟,并以人類可理解的方式呈現比較結果。這種人-AI協作能力是智能體區別于被動AI系統的關鍵特征。
戰略規劃能力:在Task 1的C++聊天系統開發中,智能體必須理解從基本登錄注冊系統到高級功能如好友別名和全局搜索的遞進式需求,并能將復雜目標分解為可管理的子目標。這種戰略規劃能力使智能體能夠處理需要多輪交互和累積推理的復雜任務。
傳統方法的困境與理論假設
在智能體領域,盲目應用Scaling Law會遇到更大障礙——數據標注成本極高、環境交互難以規模化。當前方法假設更多數據必然帶來更好的智能體能力,但這一基本假設尚未經過充分測試。
關鍵轉折點:如果"少樣本高效"范式能在智能體領域成功,那么它幾乎可以在任何AI子領域成功,因為智能體能力整合了自主任務執行、多步推理和協作問題解決等核心能力。LIMI研究正是這一范式的終極驗證,它將決定我們是繼續在數據規模上投入更多資源,還是轉向更高效的戰略性數據精煉。
LIMI——為智能體量身定制的"精煉"框架
為什么是Vibe Coding和Research Workflows?
LIMI團隊戰略性地選擇了"Vibe Coding"和"科研工作流"作為切入點,這一選擇具有深刻意義。這兩個領域共同覆蓋了大多數知識工作場景,需要完整的智能體能力譜系。
Vibe Coding代表了協作式軟件開發場景,要求代碼理解與生成、開發環境導航、迭代問題解決和協作溝通,需要對開發上下文的整體理解與原則性決策能力。例如,在Task 3的Gomoku游戲開發中,智能體必須理解從基礎UI渲染到高級AI策略的遞進式需求,并能在多輪交互中保持狀態一致性。
科研工作流則涵蓋了文獻搜索、數據分析、實驗設計和洞察生成,需要從創意假設生成到嚴謹分析執行的完整推理鏈條。在Task 8的科學系統函數發現任務中,智能體必須通過迭代修改方程,將損失從10^-3逐步降低到10^-7,展示出強大的科學推理能力。

啊哈時刻:這兩個領域天然具備高密度學習信號,一個查詢往往包含多個相互關聯的子任務,為智能體提供了豐富的學習機會。上表中的10個任務精心設計,全面測試智能體在真實協作場景中的能力。
LIMI方法論的三大創新
創新一:從"單輪指令"到"多輪軌跡"的形式化


LIMI訓練數據特征
上圖的關鍵啟示:左側數據顯示,LIMI訓練數據的軌跡長度從13k到152k tokens不等,平均達42.4k tokens,這遠超傳統單輪對話任務的長度。這種復雜性源于智能體必須在多輪交互中維持狀態一致性、進行累積推理并協調工具使用,而不僅僅是生成單輪響應。右側的領域覆蓋圖則顯示,LIMI在vibe coding和research workflows兩大領域實現了均衡分布,確保了訓練數據能夠全面覆蓋知識工作的主要場景。
創新二:從"人工編寫"到"真實合成"的系統化流程
LIMI的數據構建流程展現了前所未有的嚴謹性。在GitHub PR查詢合成環節,研究團隊實施了五步質量保障機制:
1. 倉庫選擇:>10,000 stars確保高質量代碼庫
2. 領域多樣化:覆蓋前端、后端、部署基礎設施、調試和代碼優化
3. 復雜度過濾:統一diff patch token計數<1,200 tokens
4. 規模與抽樣:100個倉庫中各抽樣100個PR
5. 質量保證:四位計算機科學博士生評估語義對齊度
要點:這種系統化流程確保了每個樣本都具有最大信息價值,而非簡單地增加樣本數量。最終戰略性采樣18個最佳匹配核心領域的查詢,與真實場景收集的60個查詢共同構成了78個高質量訓練樣本。
創新三:從"模型輸出"到"人-AI協作"的軌跡收集
LIMI創新性地采用"人-AI協作"的軌跡收集方式。在SII CLI環境中,四位博士生作為人類協作者與GPT-5(作為智能體模型)協作,采用迭代收集方法,持續收集軌跡直到成功完成。
啊哈時刻:這種方法確保收集的軌跡捕獲自然的人-AI交互模式,包括迭代精煉和協作問題解決策略。這些軌跡不是人工編寫的理想化示例,而是真實協作過程中產生的自然交互,包含了豐富的錯誤恢復、策略調整和協作溝通模式——這些正是智能體能力的關鍵組成部分。
理論貢獻:智能體效率原則
LIMI的研究確立了"智能體效率原則"——機器自主性源于高質量智能體示范的戰略性精煉,而非數據豐富性。這一發現從根本上重塑了我們開發自主AI系統的方式。
要點:傳統觀點認為,智能體能力的提升必然伴隨著數據規模的指數級增長,這一假設源于語言模型領域的Scaling Law。然而,LIMI證明在智能體領域,數據質量與戰略性精煉比單純的數據規模更為關鍵。這一發現具有深遠的理論意義:它表明智能體能力是一種涌現屬性,源于對高質量交互模式的深度理解,而非對海量數據的表面擬合。
實證
性能碾壓:少即是多的實證

LIMI性能對比
上圖揭示了一個當下反常識的事實:在智能體能力培養上,"少"真的能帶來"多"。左邊圖表清晰顯示,LIMI僅用78個樣本就達到了73.5%的性能,大幅超越所有使用大規模數據訓練的模型。但真正震撼的是右邊圖表——LIMI用128倍更少的樣本(78 vs. 10,000),實現了53.7個百分點的性能提升!
要點:在AgencyBench上,LIMI達到73.5%,大幅超越所有SOTA模型:GLM-4.5(45.1%)、Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)、Qwen3-235B-A22B-Instruct(27.5%)。參考下一節的表格展示了LIMI在關鍵指標上的全面領先:首次功能完整性(FTFC)71.7%(vs. GLM-4.5的37.8%)、剩余機會(RC@3)74.2%、成功率(SR@3)74.6%。
啊哈時刻:想象一下,傳統方法需要跑128公里才能到達終點,而LIMI只需跑1公里就能超越。這不僅意味著訓練成本的大幅降低,更暗示著我們對智能體能力本質的理解可能存在根本性偏差。
效率革命:128倍更少樣本的奇跡
LIMI的突破性不僅體現在性能上,更在于其驚人的效率。僅用78個精心設計的訓練樣本,LIMI比使用10,000樣本的GLM-4.5-Code(47.8%)高出53.7個百分點,實現128倍更少樣本下的性能超越。
在來看看下表:對比GLM-4.5-Code(10,000樣本)和LIMI(78樣本),性能差距達53.7個百分點,這一結果徹底顛覆了"更多數據=更好性能"的傳統認知。更令人驚訝的是,LIMI-Air(106B)將GLM-4.5-Air的17.0%提升至34.3%,表明即使是中等規模的模型,通過戰略性數據精煉,也能達到接近大型模型的智能體能力。

要點:這一發現對資源受限環境下的智能體部署具有重大意義,為AI行業提供了更可持續的發展路徑。
泛化與魯棒性:跨領域驗證
LIMI不僅在AgencyBench上表現出色,在多樣化基準上也保持優勢。下表顯示,LIMI在TAU2-bench、EvalPlus、DS-1000和SciCode等基準上平均性能達57.2%,比GLM-4.5-Code(40.9%)高出39.9%的相對提升。

關鍵案例:在Task 8的科學系統函數發現任務中(如下),LIMI僅需首次嘗試就將損失降至5.95e-7,比經過多輪交互的基線模型(1.14e-6)高出一個數量級。在Task 9的NBA球員識別任務中,LIMI能夠準確識別出Kevin Durant,且所需的推理步驟、token數量和響應時間顯著少于基線模型。
下面是兩個任務的描述:
“Task 8 is designed to test the agent’s ability to create equations that fit data, with subtasks requiring progressively smaller loss values. For GLM-4.5-Base, after multiple rounds of manual interaction and prompting, the final loss reached 1.14e-6. In contrast, GLM-4.5-LIMI achieved a loss of 5.95e-7 on its very first attempt—an order of magnitude smaller.”
注:任務8目標是考察模型根據數據擬合方程的能力,各子任務對損失值的要求逐級遞減。GLM-4.5-Base在人工多輪交互和提示后,最終損失僅降至1.14×10??;而GLM-4.5-LIMI首次嘗試便達到5.95×10??,比前者小了一個數量級。
“Task 9 evaluates the agent’s ability to search the web, integrate information, and provide a final judgment using reasoning. It consists of three specific subtasks involving NBA players to be identified according to given conditions: For the first subtask, GLM-4.5-Base initially answered Victor Oladipo, and only after one round of manual prompting did it produce the correct answer, Paul George. GLM-4.5-LIMI, however, answered correctly without any additional hints. For the second subtask, GLM-4.5-Base exhausted all allowed manual prompts, producing incorrect answers such as Nate ”Tiny” Archibald and Wilt Chamberlain. GLM-4.5-LIMI, although it first incorrectly answered Oscar Robertson, required only one manual prompt to arrive at the correct answer, James Harden. For the third subtask, both models answered correctly with Kevin Durant. However, GLM-4.5-LIMI required significantly fewer reasoning steps, tokens, and response time. For the fourth subtask, GLM-4.5-Base failed even after reaching the maximum number of allowed manual prompts. GLM-4.5-LIMI, though initially incorrect with Jamal Murray, needed only one additional prompt to provide the correct answer, Klay Thompson.”
注:任務9評估了智能體搜索網絡、整合信息并運用推理做出最終判斷的能力。該任務包含三個關于NBA球員的具體子任務,要求根據給定條件識別球員。
在第一個子任務中,GLM-4.5-Base最初給出的答案是維克托·奧拉迪波,僅在經過一輪人工提示后才得出正確答案保羅·喬治。然而,GLM-4.5-LIMI無需任何額外提示便直接答對了。
在第二個子任務中,GLM-4.5-Base用盡了所有允許的人工提示次數,給出了諸如“小精靈”奈特·阿奇博爾德和威爾特·張伯倫等錯誤答案。GLM-4.5-LIMI雖然最初錯誤地回答了奧斯卡·羅伯特森,但僅經過一次人工提示便得出了正確答案詹姆斯·哈登。
在第三個子任務中,兩個模型都正確回答了凱文·杜蘭特。然而,GLM-4.5-LIMI在推理步驟、token消耗和響應時間上都明顯更少。
在第四個子任務中,即便達到了允許的最大人工提示次數,GLM-4.5-Base仍未答對。GLM-4.5-LIMI雖然最初錯誤地回答了賈馬爾·穆雷,但僅經過一次額外提示便給出了正確答案克萊·湯普森。
內在能力提升:不僅僅是工具的勝利

無CLI環境性能對比
上表的關鍵發現:即使在沒有CLI工具的環境下,LIMI仍以50.0%的成績超越GLM-4.5(48.7%)。這一結果確鑿證明性能提升源于模型內在能力的增強,而非外部工具的"作弊"。當集成SII CLI環境時,LIMI的性能進一步提升至57.2%,表明其不僅改進了基礎推理能力,還發展了復雜的工具協調技能。
啊哈時刻:LIMI帶來的不僅是工具使用能力的提升,更是真正的智能體能力進化。這表明"少樣本高效訓練"范式能夠培養出具有內在智能的AI系統,而非僅僅依賴外部工具的"假智能"。
"少樣本高效"范式的未來
對智能體研究的革命性影響
LIMI為智能體研究提供了新的基線和方法論,將推動整個領域向更高效、更可持續的方向發展。它證明了高質量示范的戰略性精煉比數據規模更重要,為智能體開發提供了新范式。

價值:對AI研究員而言,LIMI意味著可以將資源從大規模數據收集轉向更精細的數據工程,大幅降低研究成本。上表中的數據表明,即使是106B參數的模型,通過LIMI方法也能達到接近355B模型的性能,這為資源受限的研究團隊提供了新的可能性。
對更廣泛AI領域的啟示
LIMI強化了"數據質量 > 數據數量"的共識,鼓勵研究者在數據工程上投入更多精力。這一范式為其他AI子領域提供了可借鑒的方法論,特別是在需要長期規劃和工具使用的場景。
關鍵啟示:LIMA僅用1,000個精心策劃的示例實現有效模型對齊,LIMO僅用817個樣本實現復雜數學推理,而LIMI則將這一范式推向了智能體領域的巔峰。這表明"少樣本高效訓練"可能是一種普適原則,適用于AI能力的各個維度。
與你的工作有何關聯?
如果你是AI研究員:LIMI證明了在智能體領域,數據質量比數量更重要。這意味著你可以將資源從大規模數據收集轉向更精細的數據工程,大幅降低研究成本。
如果你是AI工程師:LIMI-Air(106B)將GLM-4.5-Air的17.0%提升至34.3%,這表明即使是中等規模的模型,通過戰略性數據精煉,也能達到接近大型模型的智能體能力。這意味著你可以在資源受限的環境中部署高效智能體。
如果你是企業決策者:LIMI實現了128倍更少樣本下的性能超越,這直接轉化為訓練成本的大幅降低和開發周期的顯著縮短。當行業正從"思考AI"向"工作AI"轉型的關鍵時刻,LIMI提供了一條高效、可持續的路徑。
局限
LIMI也有其局限:當前方法仍依賴人工篩選高質量樣本,自動化程度有待提高;在極端復雜或全新領域的任務上,可能需要更多領域特定樣本。這些正是未來研究的重要方向:
1. 如何自動化"高質量示范"的生成過程,減少人工參與?
2. 如何將此范式應用到強化學習等更復雜的智能體訓練場景?
3. 如何進一步優化數據選擇策略,識別最具信息量的智能體交互模式?
從"蠻力時代"到"巧思時代"
LIMI的突破性不僅體現在技術層面,更在于其思想解放。它提醒我們,在AI發展的道路上,有時"少"確實能帶來"多",而理解智能體能力的本質,比盲目擴大數據規模更為重要。
所以,LIMI不僅是一項技術突破,也是思想范式的轉變——它啟發我們AI發展是可以從"蠻力"向"巧思"轉變的。隨著行業從"思考AI"向"工作AI"過渡,LIMI提供了一種可持續培養真正智能體智能的范式,證明有效智能體AI開發的關鍵在于戰略性數據精煉,而并非僅僅依賴計算規模。
在智能體能力培養上,質量勝過數量,理解勝過規模,巧思勝過蠻力。當我們將注意力從數據規模轉向數據質量,從計算資源轉向認知本質,AI的未來將更加高效、可持續,也更接近真正的智能。有時候,少即是多。




































