協同加速,多機器人協作不再「慢半拍」!軟硬一體化框架ReCA破解具身智能落地效率瓶頸
從倉庫里的物流機器人到科幻電影中的「賈維斯」,我們對智能機器人的想象從未停止。學術界在模擬器里實現了越來越復雜的協作任務,工業界也讓機器人學會了韋伯斯特空翻。
然而,一個殘酷的現實是:當下的機器「人」更像是提線木偶,而非真正自主的智能體。
想象一下,機器人每做一個動作都要延遲十幾秒,完成同樣的任務比人類慢上十倍,這樣的效率如何走入我們的生活?這個從虛擬到現實的「最后一公里」,其瓶頸常常被忽視:高昂的時間延遲和低下的協作效率。它像一道無形的墻,將真正的具身智能困在了實驗室里。

- 論文標題: ReCA: Integrated Acceleration for Real-Time and Efficient Cooperative Embodied Autonomous Agents
- 論文地址:https://dl.acm.org/doi/10.1145/3676641.3716016
為了打破這一僵局,來自佐治亞理工學院、明尼蘇達大學和哈佛大學的研究團隊將目光從單純的「成功」轉向了「成功且高效」。他們推出了名為 ReCA 的集成加速框架,針對多機協作具身系統,通過軟硬件協同設計跨層次優化,旨在保證不影響任務成功率的前提下,提升實時性能和系統效率,為具身智能落地奠定基礎。
簡單來說:ReCA 不再滿足于讓智能體「完成」任務,而是要讓它們「實時、高效地完成」任務。
這份工作發表于計算機體系結構領域的頂級會議 ASPLOS'25,是體系結構領域接收的首批具身智能計算論文,同時入選 Industry-Academia Partnership (IAP) Highlight。
三大瓶頸:當前模塊化具身智能的「效率之殤」
研究團隊首先對當前的協同具身智能系統(如 COELA, COMBO, MindAgent)進行了系統性分析,定位了三大性能瓶頸:
高昂的規劃與通信延遲: 系統嚴重依賴基于 LLM 的模塊進行高階規劃和智能體間通信。每一步行動都可能涉及多次 LLM 的順序調用,其中網絡延遲和 API 調用成本更是雪上加霜,使得實時交互成為奢望。

有限的可擴展性: 隨著智能體數量的增加,去中心化系統會面臨通信輪次爆炸性增長和效率下降的問題;而中心化系統則由于單一規劃者難以處理復雜的多智能體協同,導致任務成功率急劇下滑。

底層執行的敏感性: LLM 生成的高階計劃需要被精確翻譯成底層的控制指令,底層執行的效率和魯棒性直接關系到任務的成敗。
ReCA 的「三板斧」:從算法到系統再到硬件的跨層協同優化
針對上述挑戰,ReCA 提出了一個貫穿算法、系統和硬件三個層面的跨層次協同設計框架,旨在提升協同具身智能系統的效率和可擴展性。

算法層面:更聰明的規劃與執行
- 本地化模型處理: 通過部署更小的、本地化的經過微調的開源 LLM,ReCA 擺脫了對外部 API 的依賴,消除了網絡延遲瓶頸,同時保障了數據隱私。
- 規劃指導下的多步執行: 顛覆了傳統「規劃一步、執行一步」的模式。ReCA 讓 LLM 一次性生成可指導連續多步底層動作的高階計劃,大幅減少了 LLM 的調用頻率,顯著降低了端到端延遲。

系統層面:更高效的記憶與協作
- 雙重記憶結構: 借鑒了人類認知的「雙系統理論」,ReCA 設計了長短時記憶分離的結構。
a.長期記憶以圖結構存儲環境布局等靜態信息。
b.短期記憶則動態刷新智能體狀態、任務進度等實時信息。
有效解決了 LLM 在長任務中 prompt 過長導致「遺忘」關鍵信息的痛點,提升了規劃的連貫性和準確性。

- 分層協作規劃: 為了解決擴展性難題,ReCA 引入了一種新穎的分層協作模式。在小范圍的「簇」內,采用「父-子」智能體的中心化模式高效規劃;在「簇」之間,則采用去中心化模式進行通信,更新彼此進度。這種混合模式兼顧了規劃效率和系統規模。

硬件層面:更專業的加速單元
- 異構硬件系統: ReCA 為高階和低階規劃匹配了最合適的計算單元。它采用 GPU 子系統處理 LLM 的高階規劃,同時為精準路徑規劃等低階任務設計了專門的硬件加速器。
- 專用路徑規劃處理器: 研究表明,在系統優化后,原本占比不高的 A-star 路徑規劃延遲會成為新的瓶頸。ReCA 的專用 A-Star Processing Unit(APU)通過定制化的計算單元和訪存設計,大幅提升了低階規劃的效率和能效。

效率提升:
5-10 倍速度提升,成功率不降反升
通過跨越六個基準測試和三大主流協同系統的評估,ReCA 展現了其強大的實力:
- 效率: 在任務步驟僅增加 3.2% 的情況下,實現了平均 5-10 倍的端到端任務加速。原本需要近一小時的復雜任務,ReCA 能在 20 分鐘內完成。

- 成功率: 在大幅提升速度的同時,任務成功率平均還提升了 4.3%。這得益于其優化的記憶和協作機制,證明了效率與性能可以兼得。
- 可擴展性: 即使在 12 個智能體的大規模協作場景下,ReCA 依然能保持 80-90% 的高成功率,而基線系統的成功率已跌至 70% 以下。

- 能效: 其定制的 A-star 硬件加速器(APU)相較于 GPU 實現,取得了 4.6 倍的速度提升和 281 倍能效改進。
影響與未來
ReCA 的意義,遠不止于一組性能提升的數據。它更像一塊基石,為具身智能的未來發展鋪設了三條關鍵路徑:
- 從「能用」到「好用」的跨越: 此前,研究的焦點大多是如何讓機器人「成功」完成任務。ReCA 則明確地提出,「成功且高效」是更關鍵的目標。這項工作有助于推動領域的研究范式轉變,讓延遲、效率和可擴展性也成為衡量具身智能系統的核心指標,加速其在家庭服務、智能制造等場景的落地。
- 「軟硬協同」釋放效能提升: ReCA 通過算法、系統、硬件的跨層次協同優化,突破了過往「單點優化」的局限。未來的具身智能系統,有望像 ReCA 一樣,在不同層面協同設計的產物。它為 GPU 處理高階規劃、硬件加速器處理底層精確任務的異構計算模式提供了范本,為下一代機器人「大腦」+「小腦」的設計提供了一種可行方案。
- 突破瓶頸,解鎖想象力: 當延遲不再是瓶頸,我們可以大膽想象:一個機器人管家團隊能在你下班前,實時協作,烹飪好一頓豐盛的晚餐,并打掃干凈房間;又或者在災難救援現場,多個機器人能實時共享信息,高效協同,在黃金救援時間內完成搜索與拯救任務。在自動化科學實驗室里,機器人集群能夠 7x24 小時不間斷地進行復雜的協同實驗,以前所未有的速度推動科學發現。
總而言之,ReCA 的工作不僅解決了一個關鍵的技術瓶頸,更是為具身智能從實驗室走向真實世界,架起了一座堅實的橋梁。我們距離那個能實時響應、高效協作的「賈維斯」式智能助手,確實又近了一大步。
作者介紹
萬梓燊 是佐治亞理工學院博士生,研究方向為計算機體系架構和集成電路,聚焦通過系統-架構-芯片的跨層軟硬件協同設計,為具身智能機器人和神經符號 AI 構建高效、可靠的計算平臺。個人主頁https://zishenwan.github.io/
杜宇航 是 Yang Zhao 教授和 Vijay Janapa Reddi 教授指導的本科研究員,研究方向為計算機體系架構和集成電路,致力于通過系統級的性能分析與協同設計,為智能體在真實世界的計算打造基礎設施。
Mohamed Ibrahim 是佐治亞理工學院博士后研究員,研究方向為軟硬件協同設計,融合類腦計算與 VLSI 系統,構建具備高適應性與高可靠性的創新硬件架構。
錢家熠 是佐治亞理工學院博士生,研究方向為高效機器學習算法與系統、計算機體系結構與硬件設計,聚焦面向具身智能與神經-符號系統的協同優化與加速。
Jason Jabbour 是哈佛大學計算機科學系博士生,研究方向為機器學習、機器人和自動駕駛。
Yang (Katie) Zhao 是明尼蘇達大學電子與計算機工程系助理教授,研究方向聚焦于計算機體系架構、硬件設計與機器學習的交叉領域,致力于通過從算法、芯片到系統的全棧式協同設計,為大語言模型等新興應用提供高效、可靠的硬件加速方案。
Tushar Krishna 是佐治亞理工學院電子與計算機工程學院副教授,入選 ISCA、HPCA 和 MICRO 名人堂。長期致力于計算機體系架構、NOC 與 AI/ML 加速器等領域的研究,相關成果被引用超過 20000 次。曾有多篇論文入選 IEEE Micro 最佳論文推薦(Top Picks)或榮獲最佳論文獎,現任 ML Commons Chakra 工作組聯合主席。
Arijit Raychowdhury 是佐治亞理工學院電子與計算機工程學院院長,IEEE Fellow。長期致力于低功耗數字與混合信號電路、專用加速器設計等領域的研究,在國際頂級期刊與會議發表論文 250 余篇,擁有超過 27 項美國及國際專利。擔任 ISSCC、VLSI、DAC 等多個頂級會議的技術委員會委員。
Vijay Janapa Reddi 是哈佛大學工程與應用科學學院教授,入選 MICRO 與 HPCA 名人堂。長期致力于計算機體系架構、機器學習系統與自主智能體的交叉領域研究,是 TinyML 領域的開拓者之一,并聯合領導創建了 MLPerf。曾獲 MICRO、HPCA 最佳論文獎及多次入選 IEEE Micro 最佳論文,現任 MLCommons 董事會成員和聯合主席。

























