人工智能開始理解和預測人的意圖
人工智能要真正走進人類社會,光會下棋、寫詩、畫畫、制作視頻還遠遠不夠。真正的挑戰在于它能否理解我們在想什么、為什么這么做,并在關鍵時刻做出合理的預測。換句話說,AI 不僅要“聰明”,還要“懂人”。這就是所謂的社會智能 AI。
現有的方法在這條路上并不順利。最常見的“行為克隆”(Behavior Cloning, BC)就像小學生抄作業,見過的題能做,換個場景就傻眼。逆向強化學習(Inverse Reinforcement Learning, IRL)則是另一種極端:它試圖從行為中推斷出背后的獎勵函數,但計算量大得驚人,常常在復雜環境里寸步難行。至于直接用大語言模型預測下一個動作,效果雖有時驚艷,卻缺乏穩定性和可解釋性,像個天馬行空的預言家。
認知科學給了研究者一個啟發:人類在日常生活中,其實并不會時時刻刻推理別人的“終極目標”。更多時候,我們依賴的是“腳本化”的行為模式。比如看到紅燈就停下,看到餐桌就會找椅子坐下。這些腳本簡單、可復用,卻足以支撐復雜的社會互動。
于是問題來了:如果人類的思維模式可以被看作一段段“腳本”,那么 AI 是否也能通過“代碼”來表達和預測他人的行為?這正是最新研究ROTE(Representing Others’ Trajectories as Executables)要解決的核心問題。

圖1:動作預測方法的比較:行為克隆需要大量數據集,泛化能力有限,而逆向規劃在測試時的計算成本很高。研究團隊的方法ROTE使用LLM來生成觀察到的行為的高效和可解釋的代碼表示,在效率和準確性之間實現了卓越的平衡。
這項研究由華盛頓大學和約翰霍普金斯大學的團隊聯合完成。第一作者 Kunal Jha 來自華盛頓大學,專注于多智能體系統與社會智能;合作者 Aydan Yuenan Huang 則來自約翰霍普金斯大學,研究機器如何理解他人的意圖。
團隊中還有 Eric Ye,負責實驗環境與基準設計;而兩位資深作者 Natasha Jaques 和 Max Kleiman-Weiner 則是社會強化學習與計算認知科學領域的知名學者。他們的跨學科背景,讓這項研究既有技術的鋒利,也有認知科學的深度。
ROTE為人工智能系統高效有效地預測現實世界中的人類行為開辟了一條道路。環境、算法、評估腳本等的代碼可以在以下網址找到。???https://github.com/KJha02/mindsAsCode.??
1.ROTE 框架
研究的最大亮點就是提出了一個新穎的框架:ROTE(Representing Others’ Trajectories as Executables)。顧名思義,它的目標是把他人的行為軌跡表示為一段可執行的程序。
與傳統方法不同,ROTE 并不試圖去推斷一個復雜的獎勵函數,也不滿足于簡單的模仿。它的核心思想是把行為軌跡轉化為可執行的代碼腳本。這樣一來,AI 就能像人類一樣,依賴“腳本”來理解和預測他人的行為。

圖2:ROTE概述。ROTE通過生成和加權解釋其觀察到的行為的Python程序來預測代理的下一個動作。從t=0到t=7,ROTE觀察藍色機器人的軌跡。最初,在t=1時,與搬到餐廳相關的程序被加重。然而,在t=3時,機器人拿起一個玩具,ROTE仍然不確定目標是清理臥室里的玩具還是把它們放在客廳的椅子上。當機器人在t=5時將玩具放在椅子上后,ROTE自信地更新其程序權重,以反映“將玩具帶到椅子上”的腳本。到t=7時,ROTE可以使用此推斷腳本快速準確地預測未來的行動。
具體來說,ROTE 的技術路線分為兩步: 第一步,利用大語言模型生成候選程序。這些程序通常是Python 腳本,描述了某種可能的行為邏輯,比如“如果看到玩具,就把它搬到椅子上”。 第二步,使用 Sequential Monte Carlo 與貝葉斯推斷,對這些候選程序進行篩選和加權,最終找到最能解釋觀測到行為的那一個。
這種方法的優勢非常明顯。首先是可解釋性:生成的程序是人類可讀的,研究者甚至可以直接運行它,驗證邏輯是否合理。其次是泛化性:腳本化的建模方式可以遷移到新環境中,不會像行為克隆那樣一換場景就失效。最后是高效性:相比逆向強化學習那種對目標空間的窮舉推理,ROTE 避免了巨大的計算開銷。
換句話說,ROTE 就像給 AI 裝上了一本“行為劇本集”,既能快速翻閱,又能靈活改編,還能在新舞臺上繼續演出。
2.實驗設計與驗證
要驗證“把他人思維建模為代碼”這件事是否靠譜,研究團隊當然不能只停留在理論層面。他們搭建了兩個風格迥異的實驗舞臺:一個是簡潔抽象的二維格子世界,另一個則是復雜逼真的家庭/辦公室模擬環境。就像先在棋盤上練兵,再把 AI 丟進真實的“家務戰場”,看看它能否應對自如。
在Construction(Gridworld) 環境中,智能體需要完成一些基礎任務,比如搬運物品、巡邏路徑。這是一個高度可控的實驗場景,研究者可以清晰地觀察 AI 是否學會了“腳本化”的行為邏輯。比如,當它看到一個方塊時,是否會像人類一樣遵循“撿起—搬運—放下”的固定套路。
而在Partnr(Embodied Household Simulator) 環境中,情況就復雜得多了。這里模擬的是家庭或辦公室場景,任務包括收拾玩具、整理桌面、搬動家具等。換句話說,這里不僅有空間的復雜性,還有任務的多樣性和不確定性。能在這種環境下預測人類或其他智能體的行為,才算是真正邁向“社會智能”。
當然,光有舞臺還不夠,還得有對手。研究團隊設置了幾種對比基線方法,來檢驗 ROTE 的實力。第一位出場的是老牌選手 行為克隆(BC),它的策略就是“看你怎么做,我就怎么學”,但一旦換個場景就容易失靈。第二位是 樸素法學碩士(Naive LLM, NLLM),直接用大語言模型來預測下一個動作,結果往往顯得即興而缺乏穩定性。最后是 AutoToM,一種神經符號結合的方法,試圖在邏輯和神經網絡之間找到平衡。
評估標準也很講究。研究者不僅看 AI 在單步預測上的準確率,還考察它在多步預測中的表現——畢竟,預測別人下一秒要干什么和預測接下來一分鐘的行為,難度完全不同。
此外他們還測試了 泛化能力,也就是所謂的“零樣本遷移”:在一個全新環境里,AI 是否還能保持水準。最后,研究團隊甚至把 ROTE 的預測結果和人類的直覺進行了對比,看看它是否真的接近“人類水平”的社會推理。
這一整套實驗設計,就像是一場層層遞進的考驗:從棋盤到客廳,從單步到長時序,從模仿到遷移,再到與人類直覺的正面對比。結果如何?ROTE 在這些舞臺上的表現,確實讓人眼前一亮。
3.實驗結果與發現
真正的考驗總是在舞臺燈光亮起之后。研究團隊把 ROTE 推上了實驗場,結果顯示,它不僅能唱準調子,還能在復雜的合奏中游刃有余。

圖3:ROTE在腳本(a)和人類代理(b)的單步和多步動作預測方面都優于所有基線。ROTE的基于代碼的表示將人類行為視為高效的腳本,使其能夠從有限的觀察中有效地進行泛化。
對于單步預測,ROTE在腳本(NLLM p<0.05,BC和AutoToM p<0.001)和人類藥物(BC p<0.05,NLLM p<0.01,AutoToM p<0.001)方面明顯比所有基線更準確。在兩種試劑類型的多步預測中都保持了這種優越的性能(腳本:BC、AutoToM和NLLM的p<0.001;人類:BC的p<0.01,NLLM和AutoToM的p<0.001)。ROTE實現了人類行為的人類水平預測準確性。
首先是最直觀的指標——預測準確率。在單步預測和多步預測的任務中,ROTE 的表現都遠遠甩開了對手。與行為克隆、樸素 LLM 預測、AutoToM 等基線方法相比,它的準確率提升幅度最高可達50%。這意味著,當其他方法還在“差不多猜對”的水平徘徊時,ROTE 已經能穩定地給出更接近真實的行為預測。
更令人驚喜的是它的泛化性。在全新的環境中,ROTE 展現了強大的零樣本遷移能力。換句話說,它并不需要在新場景里重新學習,而是能直接把之前歸納出的“腳本”遷移過來繼續使用。
這就像一個經驗豐富的演員,換了舞臺和劇本,依然能迅速進入角色。相比之下,行為克隆往往在新環境里完全失效,樸素 LLM 則容易出現“即興發揮過度”的問題。

圖4:ROTE展示了對Construction中新環境的卓越零射擊泛化能力。在不對代理行為進行任何額外條件的情況下,ROTE程序從一個環境轉移到新設置的推斷比所有其他基線更有效(雙側t檢驗中p<0.001)。
研究團隊還進行了人類實驗,把 ROTE 的預測與人類直覺進行對比。結果顯示,ROTE 的預測準確率已經接近人類水平。這是一個相當重要的信號:它不只是比機器更聰明,而是開始在某種程度上“像人類一樣”去理解和推測他人的行為。
最后是計算效率。在長時序預測中,很多方法的計算開銷會隨著預測步數的增加而呈指數級膨脹,仿佛陷入了“未來越遠,越難看清”的困境。而ROTE 的開銷增長卻相對平緩,遠低于其他方法。這意味著它不僅聰明,還很耐力十足,能夠在長時間的交互中保持高效。
ROTE 的表現幾乎在所有維度上都勝出:準確率更高,泛化性更強,預測更接近人類直覺,同時還能保持計算上的高效。它就像是一位既能背臺詞、又能即興表演,還不容易疲憊的演員,為人工智能理解和預測人類意圖開辟了一條全新的道路。
4.理論與方法論意義
研究最具顛覆性的地方,在于它把“預測他人行為”重新定義為一個程序歸納問題。在傳統的機器學習視角里,預測往往意味著擬合函數、優化參數,而在 ROTE 的框架下,預測更像是尋找一段最簡潔、最合理的程序來解釋觀測到的行為。

圖5:(a)大規模、部分可觀測Partnr環境中的預測精度。ROTE在預測目標導向、基于LLM的代理行為方面表現出了卓越的能力,雙側t檢驗顯示ROTE的表現明顯優于所有其他模型(p<0.001)。(b)偽代碼示例說明了ROTE的推斷程序如何使用條件和狀態跟蹤來捕獲復雜的任務邏輯。
這與Solomonoff 歸納理論不謀而合:最短的程序往往是最優的解釋。換句話說,AI 不再是“黑箱”里調參的苦工,而是一個在代碼空間里尋找“劇本”的編劇。
這種方法的另一個重大意義在于可解釋性。ROTE 生成的不是晦澀難懂的神經網絡權重,而是一段段清晰的 Python 程序。研究者甚至可以直接讀懂這些代碼,看到其中的邏輯分支與條件判斷。比如,“如果看到玩具,就把它搬到椅子上”這樣的規則,不僅直觀,而且可以復用。這讓 AI 的推理過程第一次變得像一本打開的劇本,而不是一團無法解讀的神經網絡。

圖6:施工中的多步預測總時間。盡管在單步預測情況下比BC和Naive LLM提示慢,但ROTE的程序化表示使其多步計算成本能夠比其他方法更有效地擴展數量級,使其比其他預測個體行為的方法更適合長期設置。
更重要的是,這種腳本化建模為社會智能 AI 提供了一條全新的路徑。人類的日常交互,本質上就是在執行各種“腳本”:見面打招呼、紅燈停綠燈行、餐桌上先擺盤再上菜。ROTE 的方法正好貼近這種邏輯,讓 AI 不再只是模仿動作,而是學會了理解背后的“套路”。這意味著未來的 AI 在與人類互動時,可能會更自然、更符合直覺。
5.應用前景與挑戰
如果說理論意義讓人眼前一亮,那么應用前景則讓人浮想聯翩。
在人機協作領域,ROTE 的潛力巨大。想象一下,一個機器人助手能提前預測你要伸手去拿杯子,于是主動把水倒好;或者在自動駕駛場景中,AI 能夠推測出行人下一步可能要橫穿馬路,從而提前減速。這種預測能力,正是安全與高效的關鍵。
在多智能體系統中,ROTE 也能大顯身手。無論是金融市場的博弈模擬,還是多機器人協作任務,理解和預測“他人”的行為都是核心問題。ROTE 提供了一種可解釋、可遷移的建模方式,讓智能體之間的互動更像是有章可循的劇本,而不是混亂的即興表演。
在教育與訓練方面,ROTE 甚至可以用來模擬人類的決策模式。比如在軍事訓練、醫療教學或企業管理中,AI 可以扮演“虛擬對手”或“虛擬同事”,通過腳本化的行為模式來幫助學員理解復雜的社會互動。
當然,前景再美好,也不能忽視挑戰。首先是程序合成的復雜性與計算成本。雖然 ROTE 已經比 IRL 高效,但在更復雜的環境中,生成和篩選程序仍然可能消耗大量資源。其次是行為腳本的多樣性與不可預測性。人類的行為并非總是遵循固定套路,偶爾的“即興發揮”可能讓 AI 措手不及。最后是與真實人類心理模型的差距。ROTE 的腳本化建模雖然貼近人類邏輯,但它畢竟不是人類的心智,仍然缺乏情感、動機等更深層次的心理維度。
6.未來研究方向
ROTE 的提出只是一個開端,真正的挑戰還在前方。研究團隊也清楚,要讓“代碼化思維建模”走向成熟,還需要在多個維度上繼續探索。
首先是更復雜環境的驗證。目前的實驗雖然已經覆蓋了格子世界和家庭模擬,但這些環境仍然是相對封閉和可控的。未來的研究需要把 ROTE 放進更開放的世界里,比如動態的城市交通、多智能體的協作博弈,甚至是虛擬經濟系統。在這些場景中,智能體之間的互動更復雜,腳本之間的沖突與重疊也更頻繁,能否保持預測的準確性和效率,將是對 ROTE 的真正考驗。
其次是與認知科學的結合。ROTE 的靈感來自人類的“腳本化思維”,但這種思維模式在大腦中是如何實現的?它與神經機制、記憶系統、甚至情緒調節之間有怎樣的關系?如果 AI 的腳本化建模能與認知科學的實證研究相互印證,就有可能推動我們對人類心智本身的理解。換句話說,ROTE 不僅是 AI 的工具,也可能成為認知科學的實驗平臺。
第三個方向是與政策和倫理的結合。可解釋 AI 一直是社會治理和合規領域的熱點。相比黑箱式的深度學習,ROTE 生成的“腳本”天然具備可讀性和可審查性。這意味著它可能在金融監管、自動駕駛安全審查、甚至司法輔助決策中發揮作用。但與此同時,如何確保這些腳本不會被誤解或濫用,如何在透明與隱私之間找到平衡,也是未來必須面對的倫理難題。
最后是跨學科的融合。ROTE 本身就是符號 AI 與大語言模型的結合體,未來它還可以與博弈論、進化計算、甚至經濟學模型結合,形成更強大的社會智能框架。想象一下,一個既懂邏輯推理,又能進行概率博弈,還能在復雜環境中即興發揮的 AI,將會是怎樣的存在?這正是跨學科融合所能帶來的前景。
7.結 論
研究團隊為人工智能研究提供了一種全新的視角:把人的行為建模為代碼。通過 ROTE 框架,AI 不再只是模仿人類的動作,而是學會了歸納和執行“腳本”,從而在預測他人行為時展現出更高的準確性、泛化性和可解釋性。
這項研究的意義在于,它推動 AI 從“模仿行為”走向“理解邏輯”。過去的 AI 更像是一個模仿者,看你怎么做就怎么學;而 ROTE 讓 AI 更像是一個編劇,能從有限的片段中推斷出背后的劇本,并在新的舞臺上繼續演繹。這種轉變不僅提升了技術性能,也讓 AI 更貼近人類的社會交互邏輯。
ROTE 有望成為社會智能 AI 的重要基石。它的可解釋性讓它在政策與合規中具備獨特價值,它的腳本化邏輯讓它在教育、協作和多智能體系統中大有可為。更重要的是,它為跨學科研究開辟了新路徑,讓 AI 不再只是工程問題,而是與認知科學、倫理學、經濟學等領域深度對話的橋梁。
可以說,ROTE 不僅是一種算法,更是一種范式的轉變。它讓我們看到了一個未來:人工智能不只是會算賬的機器,而是能夠理解、預測,甚至在某種程度上“共情”人類意圖的伙伴。
參考資料:???https://arxiv.org/pdf/2510.01272??
本文轉載自??波動智能??,作者:FlerkenS

















