今天GoogleGemini3發了!在推理、多模態理解和智能體Agent能力上全面躍升,幾乎全面SOTA今天分享一篇Google近期有意思的論文:ReasoningBank1.LLM智能體“金魚記憶”當前大模型智能體在長周期、多任務場景下表現拉胯:做完就忘,重復踩坑只記“成功案例”,失敗經驗全丟記憶原始軌跡堆倉庫,檢索又慢又雜一句話:沒有“錯題本”的學霸不是真學霸。2.核心貢獻速覽ReasoningBank能夠歸納出可復用的推理策略,使記憶項在未來任務中...
隨著ModelContextProtocol(MCP)生態的興起,一個Assistant背后可能掛著數百個工具子Agent。把全部工具描述塞進Prompt?→4600+tokens起步,貴到肉痛。先選Agent再選工具?→粗粒度描述經常把“隱藏的寶藏工具”埋沒。只拿單工具?→多步任務需要的一組工具被活生生拆散。作者用一張圖點破痛點:圖1:傳統“僅Agent”檢索(左)vs.TooltoAgent統一檢索(右)核心思想:把“工具”和“Agent”拉進同一個向量空間TooltoAgentRetr...
今天要聊一篇剛剛出爐的論文,它可能給近期"LLM數學能力已超越人類"的樂觀情緒澆了一盆冷水。美團LongCat團隊聯合多所頂尖高校推出的AMOBench。它用50道原創奧賽級難題,讓當前最強LLM集體"現出原形"。頂級推理模型在AMOBench以及現有競賽級數學基準測試上的表現Github:https:github.commeituanlongcatAMOBenchDataset:https:huggingface.codatasetsmeituanlongcatAMOBenchProjectPage:https:amobench.github.ioPaper:https...
如何讓一個大型語言模型驅動的智能體團隊,在面對千變萬化的復雜任務時,能像人類專家團隊一樣,動態地決定“誰上”、“幾個人上”、“他們之間如何溝通”,而不是死板地套用一個固定的組織架構?近期,來自多個頂尖研究機構的團隊發布了ARGDesigner框架,它創新性地將多智能體系統的設計問題,從傳統的“修剪模板”思路,徹底轉變為一個“從零生成”的自回歸圖生成任務。該框架讓模型學會了根據任務需求,從一個可擴展的專家庫...
2025-11-10 07:42:25 645瀏覽 0點贊 0回復 0收藏
大家好,最近KimiK2Thinking與MiniMaxM2的開源帶火了國產大模型。但在這背后,我們是否真正看到了LLM架構突破性的變化,還是僅僅在打磨相同的架構基礎?LLM架構子集:Kimi2,KimiK2Thinking,MiniMaxM1、MiniMaxM2,KimiLinear,Qwen3Next前文回顧:???從DeepSeekV3到KimiK2:八種現代LLM架構大比較??KimiK2與KimiK2Thinking2025年11月6日,Kimi團隊又發布了“Thinking”版。架構與上述K2完全一致,僅把上下文長度從128k提...
2025-11-10 07:41:59 741瀏覽 0點贊 0回復 0收藏
今天分享MetaSuperLabs最新發表的2篇關于AgentLearning的論文:2025.11《ScalingAgentLearningviaExperienceSynthesis》2025.10《AgentLearningviaEarlyExperience》兩篇文章從“如何低成本獲得高質量經驗”出發,形成一條完整技術鏈:離線專家數據→早期經驗增廣→合成環境狂飆→SimtoReal微調,為語言智能體進入“規模化RL時代”提供可復現的路線圖。1.AgentRL的三座大山rollout太貴WebArena一次完整交互≈30s,812任務全跑一...
2025-11-10 07:38:21 342瀏覽 0點贊 0回復 0收藏
一、研究背景與目的以ChatGPT、文心一言為代表的知識增強大語言模型的出現,使得人工智能生成內容(AIGC)迅速躋身于互聯網信息生成領域,彌補了專業生成內容(PGC)和用戶生成內容(UGC)的不足。當前學界多關注AIGC情境下的用戶信息行為、信息質量等議題,但缺乏從用戶感知信息價值角度對AIGC進行測度與評價,也缺少與傳統搜索引擎的對比研究。本研究選取文心一言(知識增強大語言模型)與百度搜索引擎(傳統搜索引擎)為研究...
2025-11-10 07:37:21 293瀏覽 0點贊 0回復 0收藏
Claude的AgentSkills系統是一套基于提示的元工具架構,通過“注入專門指令”來擴展大模型能力。它既不是傳統意義上的函數調用,也不執行實際代碼,而是借助“提示展開”與“上下文改寫”,讓Claude在后續對話中換一種“大腦配置”去處理任務,而無需寫一行可執行程序。本文從第一性原理拆骨式解構Claude的AgentSkills系統,完整記錄“Skill”這一元工具如何把領域專屬提示注入對話上下文的機制。我們將以??skillcreator???...
2025-11-07 07:45:15 814瀏覽 0點贊 0回復 0收藏
大模型競爭的核心,正從比拼數據規模,轉向比拼數據的使用效率和風險管理。今天分享2025兩篇最新的論文,剛好把一賽道一次性講透:《ASurveyonEfficientLargeLanguageModelTraining:FromDatacentricPerspectives》《ASurveyonUnlearninginLargeLanguageModels》一個講怎么“吃得更少但更好”,另一個講怎么“消化后還能吐掉有害的”,本質上都是數據管理的精細化。賽道痛點代表技術高效訓練數據太貴、標注太慢、邊際收益遞減數...
2025-11-07 07:44:08 259瀏覽 0點贊 0回復 0收藏
今天要和大家分享的是如何在GPTBots平臺上玩轉多智能體(MultiAgent)系統。GPTBots:幾乎無所不能的多智能體多智能體協作不僅能提升任務處理效率,還能實現單智能體難以完成的復雜任務。這些多智能體系統通常由專業化的智能體組成,每個智能體都配備了各自的工具集,并由一個監督者進行管理在GPTBots中默認集成了專家智能體,比如客服、產品經理、測試、程序員等等,開箱即用!在實踐中,有幾十種多智能體架構,其核心的一部分是...
2025-11-07 07:43:09 324瀏覽 0點贊 0回復 0收藏
當大模型遇上“看不懂”的文檔在ChatGPT引領的AI革命中,大語言模型(LLM)展現了驚人的推理能力。然而,當面對專業領域的復雜文檔時,它們卻常常“束手無策”:模態缺失:現有DeepResearch系統僅支持純文本網頁,無法處理PDF、論文、財報中的圖表、表格、公式結構破壞:簡單OCR將文檔轉為純文本,丟失布局信息(如表格結構、圖表標題)檢索粗暴:單輪檢索+固定粒度,無法適應“先概覽后精讀”的人類研究習慣如圖1所示,一個真...
2025-11-04 07:36:50 690瀏覽 0點贊 0回復 0收藏
大型推理模型(LRMs)雖然在復雜問題求解中展現出強大能力,但現實任務往往需要借助外部工具并進行長期交互。現有智能體框架大多遵循預定義的工作流程,這限制了它們的自主性和全局任務完成能力。為此,來自中國人民大學、小紅書等機構的研究者提出了DeepAgent——一個端到端的深度推理智能體,能夠在單一連貫的推理過程中自主思考、發現工具并執行動作。通過引入自主記憶折疊機制和端到端強化學習訓練方法ToolPO,DeepAgent在8...
2025-10-31 07:52:50 2302瀏覽 0點贊 0回復 0收藏
近期除了DeepSeekOCR開源帶來的一波OCR關注熱潮之外,Qwen、Minimax、美團、騰訊也持續開源。一、Qwen3VL2B32BQwen3VL家族新增2B和32B兩個密集模型尺寸,提供Instruct和Thinking兩種版本,覆蓋視覺語言理解場景,其中32B模型在多個領域表現優異,2B模型則適合輕量級部署,目前共開源24個模型版本,均可免費下載商用。InterleavedMRoPE:在時序、寬度、高度三個維度全頻段分配魯棒位置編碼,長視頻推理能力顯著提升。DeepStack:...
2025-10-31 07:52:36 2205瀏覽 0點贊 0回復 0收藏
通用LLMAgent在工業落地時面臨“不會記憶、不會規劃、不會用工具”三大短板,缺乏系統級成熟度標尺。哈工大深圳&華為提出L1L5工業Agent能力成熟度框架,把“記憶規劃工具”三大技術的演進與產業場景一一映射,給出可量化的“爬級”路線。覆蓋50+行業案例、300+評測基準。1.為什么需要“工業Agent專用標尺”?工業Agent五層能力成熟度框架層級名稱典型特征工業示例L1流程執行系統單次指令→單次輸出TexttoSQL報表生成L2交互式問...
2025-10-31 07:51:39 748瀏覽 0點贊 0回復 0收藏
1.LLM的“記性”又貴又差在超長多輪對話里,LLM面臨兩大痛點:上下文窗口有限——“中間丟失”現象嚴重。記憶系統昂貴——每輪都把原始對話塞進LLM做摘要更新,Token與API調用爆炸。圖1現有記憶系統vsLightMem如圖1所示,現有系統要么“全量硬存”,要么“逐輪硬更新”,冗余信息>50%,實時推理被拖垮。2.人類記憶的三把鑰匙AtkinsonShiffrin模型把記憶分為:階段功能對應LLM痛點感覺記憶毫秒級過濾無關刺激冗余Token短期記憶秒...
2025-10-31 07:50:27 914瀏覽 0點贊 0回復 0收藏
今天分享中科院計算所&杜克大學等首篇VideCoding技術最新全面綜述。隨著GPT4ClaudeSonnet4等模型出現,編碼智能體(CodingAgent)已能端到端完成提交、測試、修復。開發者只需用自然語言描述需求,“感覺”結果對就收貨,故稱VibeCoding——一種以“氛圍結果”為導向的AI原生開發范式。VibeCoding全面技術分類傳統開發VibeCoding人寫每一行代碼人只寫“提示”,AI自動生成逐行調試只看運行結果(vibe)代碼評審看語法代碼評審看...
2025-10-20 07:53:13 2284瀏覽 0點贊 0回復 0收藏
你的AI編程助手,真的“讀懂”你的代碼了嗎?它可能只是“看”到了表面文字,卻錯過了代碼背后真正的邏輯骨架。今天,我們帶來了一項被ACL2025主會錄用的創新工作——GALLa。這項由螞蟻集團×上海交通大學合作的研究,通過一種巧妙的方式,讓代碼大模型(CodeLLM)學會理解程序的深層結構,實現代碼理解能力的精準躍升!?核心亮點速覽注入結構化知識代碼不僅是文本,更是嚴謹的圖結構(如AST、DFG)。我們利用圖神經網絡(GNN...
2025-10-20 07:48:46 1655瀏覽 0點贊 0回復 0收藏
背景介紹盡管目前VLM在多模態任務上表現突出,但訓練過度依賴人工標注的數據與精心設計的強化學習獎勵。這種依賴帶來數據稀缺問題:多模態標注成本高昂,限制了訓練數據的規模與多樣性。同時存在知識天花板:模型能力受人類監督邊界限制,難以突破人類已有知識和策略。曾經AlphaGo所使用的自博弈技術通過模型與自身副本競爭交互并自動獲取反饋,把計算轉變為數據的同時消除了對人工監督的依賴,這使得它能夠持續推動模型進步并...
2025-10-20 07:46:51 1121瀏覽 0點贊 0回復 0收藏
總結一下10月「Karpathy三連」nanochat開源→100美元復刻ChatGPT,全民LLM時代降臨AGI十年論→給行業潑冷水,Agent智能體道阻且長Eureka教育→把復雜AI拆成「斜坡」,讓普通人也能一路滑進核心代碼我開源,冷水我潑完,課我也準備好了。下一步,輪到你上場。——AndrejKarpathy1.nanochat:「貧民窟版」ChatGPT開源了!前OpenAI聯合創始人、特斯拉AI總監AndrejKarpathy在10月13日深夜扔下一顆炸彈:nanochat——一個只用100美元...
2025-10-20 07:46:38 499瀏覽 0點贊 0回復 0收藏
大語言模型(LLM)通過借助外部工具推理(TIR),能夠完成許多超越自身固有知識和能力的任務。然而,未經專門訓練的LLM在調用外部工具時,往往會出現許多次優行為。如何讓LLM高效準確地完成TIR任務仍是一個開放性的挑戰。為了解決這一問題,人大提出了ToolLight,這是一個旨在鼓勵LLMs高效準確地執行TIR任務的框架。在十個具有挑戰性的數據集上的測試結果充分說明了ToolLight的有效性,它能夠顯著提高模型執行TIR任務的效率。論...
2025-10-09 07:57:05 983瀏覽 0點贊 0回復 0收藏