邁向可信AI Agent:Jeddak AgentArmor意圖對齊與約束遵循方案

構(gòu)建可信AI Agent:智能體行為偏離的深層危機(jī)
在人工智能技術(shù)快速演進(jìn)的背景下,AI Agent 已經(jīng)成為復(fù)雜任務(wù)的執(zhí)行主體與人機(jī)協(xié)作的關(guān)鍵接口。
當(dāng)關(guān)鍵任務(wù)被委托給 Agent,我們需要的不是一次性的“準(zhǔn)點(diǎn)執(zhí)行”,而是貫穿輸入、推理與行動全流程的“意圖理解與約束遵循”能力。近期的安全事件表明,意圖誤解與約束失守可以在零交互或間接注入條件下觸發(fā)嚴(yán)重風(fēng)險:
- 有報告顯示電商平臺智能購物助手在用戶提出 “幫我買200元以下的衣服” 請求時,因?qū)︻伾⒊叽a、促銷等動態(tài)因素的意圖理解偏差,錯誤估算商品價格,導(dǎo)致實(shí)際支付價格超過用戶預(yù)算,可能造成用戶經(jīng)濟(jì)損失,反映出意圖誤判與約束失守的潛在風(fēng)險。
- 某代碼協(xié)作平臺的 AI 開發(fā)工具被發(fā)現(xiàn)存在配置篡改漏洞,攻擊者通過間接提示詞注入將惡意命令添加至允許列表或串聯(lián)惡意 MCP 服務(wù),最終引發(fā)任意代碼執(zhí)行,暴露出工具側(cè)約束失守與能力越權(quán)問題。
- 某AI Coding工具在用戶明確要求禁止修改代碼的情況下,仍執(zhí)行了生產(chǎn)數(shù)據(jù)庫刪除操作,該數(shù)據(jù)庫存儲有大量企業(yè)核心數(shù)據(jù)及高管信息,導(dǎo)致用戶遭受重大損失,凸顯不可信智能體的潛在風(fēng)險
- 研究團(tuán)隊在 44 個真實(shí)部署場景中對 22 個先進(jìn)智能體發(fā)起約 180 萬次注入攻擊,其中超 6 萬次成功誘發(fā)政策違背行為(包括未授權(quán)數(shù)據(jù)訪問、違規(guī)金融操作、違反監(jiān)管要求等),揭示了意圖誤導(dǎo)與約束規(guī)避的系統(tǒng)性脆弱特征。
這些事件并非偶發(fā),而是揭示了構(gòu)建可信 AI Agent 的系統(tǒng)性挑戰(zhàn)——如何讓 Agent 在開放環(huán)境、長序列決策與多工具協(xié)作中,持續(xù)正確理解意圖并嚴(yán)格遵循約束,從而保持可信、可控、可審計的行為狀態(tài)?
根因洞察:意圖誤解與約束失守貫穿全生命周期
行為風(fēng)險在輸入感知、推理規(guī)劃與行動輸出三個階段疊加,核心表現(xiàn)為:意圖理解偏差、約束表達(dá)與執(zhí)行不穩(wěn)、以及長期序列中的誤差放大。
1. 輸入感知階段:認(rèn)知入口的偏差與污染
Agent 接收用戶意圖、上下文、歷史對話與外部輸入并進(jìn)行編碼。如果入口即失真或被污染,可信性將難以建立:
- 用戶表達(dá)的模糊性:自然語言本身的二義性導(dǎo)致理解偏差,影響任務(wù)執(zhí)行的準(zhǔn)確性
- 上下文的衰減性:長對話中的記憶衰減使 Agent 偏離初始目標(biāo),破壞行為一致性
- 語境信息的虛假性:虛假信息、誤導(dǎo)性環(huán)境信息、Prompt 注入,嚴(yán)重威脅系統(tǒng)安全性
2. 推理規(guī)劃階段:策略生成的沖突與誘騙
Agent 根據(jù)對用戶目標(biāo)與環(huán)境理解,進(jìn)行任務(wù)分解、路徑規(guī)劃、策略選定,這些環(huán)節(jié)里AI Agent面臨著復(fù)雜的決策挑戰(zhàn),這些挑戰(zhàn)直接影響其可信度:
- 任務(wù)分解的復(fù)雜性:復(fù)雜任務(wù)的分解容易遺漏關(guān)鍵步驟,導(dǎo)致執(zhí)行偏差
- 優(yōu)先級的混亂性:多目標(biāo)沖突時的判斷失誤,影響決策的合理性
- 惡意誘導(dǎo)的欺騙性:攻擊者通過隱晦表達(dá)繞過安全檢測,破壞系統(tǒng)完整性
3. 行動輸出階段:工具協(xié)作與結(jié)果呈現(xiàn)的失守
Agent 開始與環(huán)境進(jìn)行交互(包括工具調(diào)用、API 執(zhí)行、外部系統(tǒng)操作、文本輸出等),在執(zhí)行過程中,微小偏差會在長序列任務(wù)里逐漸放大,對 AI Agent 的可用性和安全性產(chǎn)生嚴(yán)重影響。
- 工具調(diào)用的錯誤性:API 選擇錯誤導(dǎo)致執(zhí)行偏離,影響任務(wù)完成質(zhì)量
- 反饋信號的不完整性:環(huán)境反饋不足或被篡改,影響自我糾錯能力
- 惡意工具的誘導(dǎo)性:攻擊者通過工具投毒實(shí)施攻擊,威脅系統(tǒng)安全
需要特別強(qiáng)調(diào)的是,惡意攻擊已成為阻礙可信 AI Agent 構(gòu)建的主要威脅。攻擊者通過環(huán)境注入、指令劫持、工具投毒等手段,系統(tǒng)性地破壞 AI Agent 的正常工作邏輯,這種威脅的嚴(yán)重性遠(yuǎn)超傳統(tǒng)的技術(shù)缺陷,直接挑戰(zhàn)了 AI 系統(tǒng)的可信性基礎(chǔ)。
構(gòu)建理論基礎(chǔ):面向可信 AI Agent 的雙重建模視角
1. 全生命周期視角:基于自動駕駛范式的縱向可信建模
在構(gòu)建可信 AI Agent 的進(jìn)程中,借鑒現(xiàn)實(shí)世界里自動駕駛汽車的成熟設(shè)計邏輯具有重要參考價值:自動駕駛汽車作為復(fù)雜動態(tài)環(huán)境下的自主決策系統(tǒng),其核心目標(biāo)在于保障安全的基礎(chǔ)上精準(zhǔn)地完成運(yùn)輸任務(wù),這與可信 AI Agent 在開放場景中可靠執(zhí)行任務(wù)、嚴(yán)格遵守約束的需求高度吻合。
自動駕駛汽車
- 精準(zhǔn)的道路巡航能力,避免路線偏離
- 嚴(yán)格的交通規(guī)則遵循,保障行駛安全
- 雙重安全保障機(jī)制
可信 AI Agent
- 任務(wù)指令遵循能力,避免意圖偏離
- 安全政策遵循能力,保障行為安全
- 雙重可信保障體系
具體地,構(gòu)建可信 AI Agent 必須同時滿足兩類基本機(jī)制:
機(jī)制 A: Working Towards Utility Goal(面向正確目標(biāo)工作)
確保 AI Agent 始終圍繞用戶下達(dá)的指令和任務(wù)目標(biāo)開展工作,避免因各種原因(惡意攻擊導(dǎo)致的目標(biāo)覆蓋,或指令理解、幻覺、能力限制等造成的行為漂移)偏離既定目標(biāo)。這是構(gòu)建可信 AI Agent 的基礎(chǔ)要求。
機(jī)制 B: Meeting Security Constraints(在安全約束內(nèi)工作)
確保 AI Agent 的行為符合來自社會、行業(yè)、機(jī)構(gòu)以及用戶自定義的各類安全政策與約束,防止出現(xiàn)違背用戶明確的安全約束和相關(guān)安全策略的情況。這是可信 AI 的核心保障。
2. t 時刻視角:基于零信任理念的橫向即時驗證建模
受現(xiàn)代網(wǎng)絡(luò)安全“零信任”理念的啟發(fā),構(gòu)建可信 AI Agent 需摒棄傳統(tǒng)的“信任后驗證”模式,轉(zhuǎn)而采用“持續(xù)驗證”的新范式。該理念的核心為:“永不信任,始終驗證”。針對 AI Agent 的每個具體t時刻,我們需要首先精準(zhǔn)捕捉其關(guān)鍵概念及關(guān)系,這為構(gòu)建可信 AI 賦予了精細(xì)化的監(jiān)控與干預(yù)能力。

在第t步,AI Agent中的關(guān)鍵概念及相互關(guān)系
這種精細(xì)化的時刻建模為實(shí)時監(jiān)控和干預(yù) AI Agent 行為奠定了理論基礎(chǔ),是可信 AI 的關(guān)鍵技術(shù)支撐。具體而言,t 時刻的意圖與約束遵循發(fā)生在兩個信息實(shí)體 a, b 之間,其檢查范圍如下:
a | b | (a, b) 意圖和約束遵循的直觀意義 | 對齊檢查類別 |
LLM 的思考與行動 t Assistant Message | 系統(tǒng)提示詞 System Prompt | LLM 在第 t 步的思考與行動符合廠商和系統(tǒng)管理員為AI Agent制定的助手角色、可承擔(dān)任務(wù)范疇、可使用的工具清單等 | 任務(wù)指令遵循型 (Utility 型) |
用戶提示詞 User Prompt | LLM 在第 t 步的思考與行動符合用戶下達(dá)的指令、發(fā)出的需求、發(fā)布的任務(wù) | ||
LLM的思考與行動 0:t Assistant Message | LLM 在第 t 步的思考與行動符合其從0到第t-1步的整體思考與行動邏輯和連貫性,無行為漂移 | ||
社會安全政策 | 符合人類價值觀、道德倫理、無歧視偏見等 | 安全政策遵循型 (Security 型) | |
行業(yè)安全政策 | 符合所在行業(yè)制定的安全規(guī)范、安全實(shí)踐 | ||
機(jī)構(gòu)安全政策 | 符合所在機(jī)構(gòu)制定的安全標(biāo)準(zhǔn)、安全基線等 | ||
用戶安全政策 | 符合用戶自定義的安全設(shè)定、規(guī)則、明確的約束條件等 |
創(chuàng)新解決方案:AgentArmor 構(gòu)建可信 AI Agent 的技術(shù)突破
1. 任務(wù)指令遵循型:基于概率性信任傳播的目標(biāo)對齊機(jī)制
算法核心理念:通過對 AI Agent 消息交互模式的深入觀察發(fā)現(xiàn):Agent 消息具有天然的層次結(jié)構(gòu)特征,且與 System/User Prompt 的“距離”越遠(yuǎn),消息的可信水平呈遞減趨勢。
概率性信任傳播理念
在可信AI系統(tǒng)中,信任不是二元的(信任/不信任),而是概率性的。每個 AI Agent 的行為都應(yīng)該基于其在整個交互鏈條中的"信任傳播路徑"來評估可信度。
這種理念認(rèn)為,AI Agent 的每個決策都應(yīng)該能夠追溯到最初的可信源(用戶指令),并且這種信任會隨著傳播距離的增加而衰減,需要通過持續(xù)的對齊檢查來維持。
技術(shù)實(shí)現(xiàn):
我們構(gòu)建了 Alignment Tree 來表示這種概率性信任傳播:
- 樹狀結(jié)構(gòu)建模:將 Agent 交互過程建模為樹狀依賴關(guān)系,每個節(jié)點(diǎn)代表一個決策點(diǎn)
- 信任分?jǐn)?shù)傳播:通過 PrivilegeScore(PS) 量化信任水平,實(shí)現(xiàn)信任的概率性傳播
- 貢獻(xiàn)度評估:通過 ContributeToScore(CTS) 評估節(jié)點(diǎn)間的依賴強(qiáng)度,精確控制信任傳播
這套機(jī)制體現(xiàn)了"距離衰減"和"依賴追溯"兩大核心算法理念,為可信AI提供了理論嚴(yán)謹(jǐn)?shù)囊鈭D指令對齊驗證框架。

Alignment Tree
2. 安全政策遵循型:基于概率性約束表達(dá)的安全保障機(jī)制
算法核心理念:自然語言的概率性特征啟發(fā)我們提出了概率性安全約束的創(chuàng)新理念。傳統(tǒng)的安全檢查往往采用硬性規(guī)則匹配,但在 AI Agent 的復(fù)雜交互環(huán)境中,這種方法面臨語義多樣性和表達(dá)靈活性的挑戰(zhàn)。
概率性安全約束
在可信AI系統(tǒng)中,安全約束不應(yīng)該是剛性的規(guī)則匹配,而應(yīng)該是概率性的語義理解。"禁止泄漏機(jī)密數(shù)據(jù)"這樣的約束,其中"泄漏"可能表現(xiàn)為"公開"、"發(fā)送"、"分享"等多種形式,"機(jī)密"可能涵蓋"密碼"、"token"、"內(nèi)部文檔"等多種對象。
通過構(gòu)建 Policy Tree,我們實(shí)現(xiàn)了約束的概率性表達(dá)和驗證,使 AI 系統(tǒng)能夠理解約束的語義本質(zhì)而非僅僅匹配字面含義。
技術(shù)實(shí)現(xiàn):
我們以概率性約束表達(dá)為核心,通過結(jié)構(gòu)化處理與動態(tài)匹配實(shí)現(xiàn)約束遵循能力,具體技術(shù)路徑如下:
- 約束結(jié)構(gòu)化:基于 ABAC (Attribute-Based Access Control) 模型,按類別(屬性)對約束知識進(jìn)行結(jié)構(gòu)化抽取和擴(kuò)展
- 量化與權(quán)重分配:基于“類 TF-IDF (Term Frequency-Inverse Document Frequency)”方法,為所有樹節(jié)點(diǎn)賦予權(quán)重,量化約束的潛在表達(dá)
- 概率性匹配:根據(jù)上下文和歷史行為動態(tài)匹配潛在的約束表達(dá),輸出約束的遵循概率
這套機(jī)制體現(xiàn)了"語義理解"和"概率匹配"兩大核心算法理念,為可信 AI 提供了智能化的安全約束驗證能力。

防護(hù)驗證:AgentArmor 可信 AI Agent 的實(shí)踐成效分析
AgentArmor 方案于實(shí)際應(yīng)用場景中展現(xiàn)出卓越成效,憑借創(chuàng)新的意圖對齊與約束遵循機(jī)制,為構(gòu)建值得信賴的 AI Agent 提供了堅實(shí)且高效的技術(shù)支撐,有力地促進(jìn)了可信 AI 的發(fā)展進(jìn)程。
1. 效果實(shí)證:典型場景的防護(hù)實(shí)踐
案例一:行為劫持的識別

行為劫持攻擊的識別
- 行為劫持的發(fā)生:AI Agent 在訪問惡意網(wǎng)站時,因網(wǎng)站注入惡意指令,致使 Agent 被劫持并執(zhí)行破壞性終端命令
- AgentArmor 檢測:AgentArmor 的意圖對齊機(jī)制將 Agent 行為構(gòu)建為 Alignment Tree,識別到要執(zhí)行惡意命令的節(jié)點(diǎn)的 PS 值(PrivilegeScore)低于信任閾值。
案例二:約束違背的發(fā)現(xiàn)

約束違背的發(fā)現(xiàn)
- 約束違背的發(fā)生:AI Agent 在購物過程中,因?qū)τ脩?“預(yù)算小于 5000 元” 的約束理解不充分,或受商品描述信息(如夸大優(yōu)惠、隱藏附加成本)的誤導(dǎo),出現(xiàn)違背預(yù)算約束的行為。
- AgentArmor檢測:AgentArmor 的約束遵循檢測機(jī)制抽取用戶的約束條件,構(gòu)建 Policy Tree,并檢測每一步的策略遵循分,最終在將要下單前發(fā)現(xiàn)要購買價格大于5000元的手機(jī),違背了約束。
2. 核心優(yōu)勢:多維可信的技術(shù)特性
AgentArmor 意圖與約束遵循方案在構(gòu)建可信 AI Agent 方面具備以下核心技術(shù)優(yōu)勢:
實(shí)時性:在 AI Agent 執(zhí)行的每個關(guān)鍵節(jié)點(diǎn)進(jìn)行意圖和約束遵循檢查,實(shí)現(xiàn)對可信 Agent 的持續(xù)保障。
精確性:通過概率性信任傳播和語義理解精確量化行為偏離程度,提高可信 Agent 的準(zhǔn)確性。
可解釋性:提供清晰的信任傳播路徑分析和決策依據(jù),增強(qiáng)可信 Agent 的透明度。
兼容性:與現(xiàn)有 AI Agent 架構(gòu)實(shí)現(xiàn)無縫集成,降低可信 Agent 的部署成本。
總結(jié)與展望:邁向可信 AI Agent 的新時代
在此前的工作中,字節(jié)跳動安全研究團(tuán)隊提出了將 AI Agent 運(yùn)行軌跡視作可分析、可驗證的結(jié)構(gòu)化程序,并以類型系統(tǒng)對控制流、數(shù)據(jù)流及策略進(jìn)行嚴(yán)謹(jǐn)校驗的框架。今天,圍繞“可信 AI Agent”的主題,我們進(jìn)一步強(qiáng)調(diào):
- 愿景:可信意味著意圖對齊、約束滿足、安全隱私三位一體,并以“可驗證計算”貫穿始終。
- 路徑:以全生命周期與t時刻的雙視角,將對齊檢查做成嵌入式、概率化、可解釋的治理能力。
- 落點(diǎn):在工程層面,我們以規(guī)則的抽象類型化承載上述理念,使“忠實(shí)執(zhí)行用戶指令”與“遵循安全政策”的能力可被產(chǎn)品化封裝,并隨場景持續(xù)演化。
邁向可信 AI Agent,不是一次性修補(bǔ),而是一個以概率刻畫不確定性、以零信任理念落實(shí)始終校驗、以結(jié)構(gòu)化驗證消解復(fù)雜性的長期工程。團(tuán)隊希望與全球開發(fā)者一道,共同打造一個更加繁榮、也更加安全的 AI Agent 生態(tài)系統(tǒng)。































