解鎖多Agent大模型推理的力量
設(shè)計和優(yōu)化多agent系統(tǒng)非常重要。論文分析了一種多agent系統(tǒng),其中一個元思考agent負責(zé)規(guī)劃,另一個推理agent負責(zé)執(zhí)行,并識別出一種懶惰agent失效模式。論文發(fā)現(xiàn)一個agent完成了大部分工作,而另一個agent貢獻很少,本質(zhì)上退化為單agent系統(tǒng)。這種情況非常常見,可能不是你設(shè)計中想要的結(jié)果。
圖片
為了解決這個問題,論文提出了Dr. MAMR(多agent元推理正確做法),該方法引入了一種Shapley風(fēng)格的因果影響度量來衡量每個agent/步驟的貢獻。它添加了一個明確的重啟/深思行動,配合特殊獎勵來鼓勵推理agent丟棄有噪聲的內(nèi)部步驟,并在需要時重啟。
實驗表明,這個框架緩解了懶惰agent問題并提高了性能;
圖片
如果你正在設(shè)計多agent大語言模型工作流(例如,將內(nèi)容創(chuàng)作/銷售agent架構(gòu)分解為規(guī)劃和執(zhí)行agent),這提供了一個實用藍圖,用于記錄agent間的貢獻并避免模式崩潰;因果影響度量提供了一種可量化的方式來監(jiān)測agent:你可以追蹤每輪的影響力,而不僅僅是最終輸出獎勵;添加"重啟/深思"行動意味著你可以設(shè)計能夠從錯誤子軌跡中恢復(fù)的agent,而不是盲目遵循有缺陷的計劃;信用分配是輪次級別的,這與你對agent循環(huán)細粒度監(jiān)測的偏好相一致。
圖片
圖片
論文標(biāo)題:Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation
論文鏈接:???https://arxiv.org/abs/2511.02303??
本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

















