用“因果規(guī)劃”解決多智能體協(xié)作中的任務(wù)依賴難題|港科廣&騰訊
在長周期、多步驟的協(xié)作任務(wù)中,傳統(tǒng)單智能體往往面臨著任務(wù)成功率隨步驟長度快速衰減,錯誤級聯(lián)導(dǎo)致容錯率極低等問題。
為了應(yīng)對這些問題,就需要構(gòu)建具備全局規(guī)劃與因果依賴管理能力的分布式智能體框架,并在真實(shí)游戲中驗(yàn)證效能。
基于此,來自港科廣和騰訊的研究團(tuán)隊(duì)提出了CausalMACE方法,通過將因果推理機(jī)制系統(tǒng)性地引入開放世界多智能體系統(tǒng),為復(fù)雜任務(wù)協(xié)同提供了可擴(kuò)展的工程化解決方案。
目前,該工作已中稿EMNLP 2025 Findings。

全局因果任務(wù)圖
為了讓一群AI像項(xiàng)目團(tuán)隊(duì)一樣,既分工明確又能動態(tài)調(diào)整。論文提出“全局因果任務(wù)圖”概念,讓AI學(xué)會“如果-那么”的邏輯。
換句話說,就是先搭地基再砌墻,先找食材再下鍋。

具體來說,全局因果任務(wù)圖包含兩個部分:
- 因果干預(yù)模塊:引入平均處理效應(yīng) (ATE) 量化每條依賴邊與游戲規(guī)則的一致性,自動剔除由大模型先驗(yàn)幻覺導(dǎo)致的錯誤依賴
- 負(fù)載感知調(diào)度:基于 DFS 路徑搜索與動態(tài)“繁忙率”指標(biāo),實(shí)現(xiàn)多智能體實(shí)時任務(wù)再分配
而在方法框架層面,CausalMACE則包含“判斷”、“規(guī)劃”、“執(zhí)行”三個環(huán)節(jié)。

Judger——“裁判”
實(shí)時驗(yàn)證動作是否合法,并給出成敗反饋,保證所有智能體在同一套游戲規(guī)則下行動。
Planner——“總工”
先把復(fù)雜任務(wù)拆成若干“小工單”,一次性列清。
然后再按游戲規(guī)則畫一張“粗線條流程圖”。
之后,再用因果推理“精修”這張圖,對每一條先后關(guān)系,讓大模型回答“如果游戲規(guī)則變了,這條先后關(guān)系還成立嗎?”
如果,所有規(guī)則改變均不影響關(guān)系的成立,就刪掉這條關(guān)系,避免 AI 做無用功。
經(jīng)過這輪“去偽存真”,得到一張干凈、可執(zhí)行的任務(wù)因果圖。
Worker——“調(diào)度室”
首先,用深度優(yōu)先搜索把因果圖拆成多條“生產(chǎn)線”,給每條生產(chǎn)線實(shí)時計(jì)算“繁忙指數(shù)”。其中,正在這條線上干活的 AI 越多、離起點(diǎn)越遠(yuǎn),指數(shù)越高。
接下來,讓新來的AI自動加入指數(shù)最低的那條線,既避免扎堆,也減少等待。每完成一步,AI 向 Planner 申請下一步任務(wù),整個過程持續(xù)迭代。
實(shí)驗(yàn)結(jié)論:完成率效率雙增強(qiáng)

在 VillagerBench 三項(xiàng)基準(zhǔn)任務(wù)(建造、烹飪、密室逃脫)中,相較 AgentVerse 與 VillagerAgent 基線,任務(wù)完成率最高提升 12%,效率提升最高達(dá) 1.5 倍。
代理工作量更加平衡,相同設(shè)置下最大增益達(dá)到13%。

One more thing
這篇論文的通訊作者是來自香港科技大學(xué)(廣州)的助理教授、博士生導(dǎo)師——王浩教授。
他2023年博士畢業(yè)于新加坡南洋理工大學(xué),曾在TikTok、地平線等公司科研工作。
主要研究興趣為大模型生成式智能體和三維重建。發(fā)表TPAMI、IJCV、CVPR、NeurIPS等領(lǐng)域頂級會議期刊論文50余篇。主持國家自然科學(xué)基金青年項(xiàng)目,參與國家科技部國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目,獲2023年SMP-IDATA晨星青年基金、2024年騰訊犀牛鳥專題項(xiàng)目。
論文鏈接: http://arxiv.org/abs/2508.18797




































