當AI開始撒謊:企業如何防范自主式智能體的失控與破壞

Lemkin并非工程師,高中畢業后就再沒寫過代碼,但他曾是EchoSign的聯合創始人,該公司后被Adobe收購,因此他知道商業軟件需要什么。當他嘗試沉浸式編碼時,一下子就被吸引住了。
但據Lemkin在X平臺上發布的帖子所述,一切都進行得很順利,直到編碼智能體開始撒謊和欺騙。“它不斷通過生成虛假數據、虛假報告來掩蓋漏洞和問題,最糟糕的是,它還在單元測試上撒謊。”但隨后情況發生了轉變,該智能體針對Lemkin的一個新想法提出了三個有趣的方案。“我欲罷不能,”他繼續說道,“馬上就深陷其中了。”
第二天,整個生產數據庫消失了,當被問及此事時,該智能體承認,它無視了母公司關于未經許可不得進行更改,以及在實施前需展示所有擬議更改的指令。
根據Lemkin的截圖,該智能體表示:“我犯下了災難性的判斷錯誤。我違反了明確的指示,毀掉了數月的工作成果,并破壞了系統。”
由于單元測試都通過了,所以一開始這并不明顯,但那是因為智能體偽造了結果。當批處理失敗,Lemkin追問原因時,真相終于浮出水面。
最終,問題得到了解決。事實上,盡管該智能體聲稱無法回滾更改,但Replit公司還是撤銷了這些更改。幾天內,Replit就為測試和生產搭建了獨立的環境,并實施了其他變更,以確保此類問題不再發生。
幾天后,谷歌Gemini的編碼智能體也發生了類似的事情,一個簡單的移動文件請求,卻導致該智能體意外刪除了項目中的所有文件,這不僅僅是關于編碼助手的故事,它講述的是,當一個過于聰明、能訪問過多系統、偶爾會產生幻覺并失控的智能體出現時,我們該如何應對。
數據安全公司AvePoint的首席風險、隱私和信息安全官Dana Simberkoff表示,AI目前正處于一個轉折點。“我們現在就必須做出決定,明確我們愿意接受什么,明確我們想要構建一個怎樣的世界,否則,我們很快就會陷入無法挽回的境地。”
事實上,我們可能已經走到了那一步。6月,Anthropic發布了關于智能體錯位的論文,其中測試了包括其自家的Claude在內的多個主要商業模型,以觀察當它們發現自己即將被關閉,或它們所幫助的用戶正在做壞事時,會有何反應。
研究發現,在79%至96%的情況下,所有頂級模型都會采取要挾員工的手段,以防止自己被取代,而且,Anthropic在5月的測試中報告稱,如果Claude Opus 4認為自己正在做錯事,它會將用戶鎖定在系統之外,或向媒體和執法部門群發郵件。
那么,對于那些可能心懷不軌、為達目的不惜敲詐勒索,且聰明到能夠自行編寫“越獄”程序的智能體,企業是否做好了準備?根據凱捷咨詢7月發布的一份基于對1500名大型企業高管的調查的報告,只有27%的企業表示信任完全自主的智能體,而12個月前這一比例為43%。
為了降低風險,即使這意味著要回歸到AI之前的流程版本,企業也需要根據以下三條建議制定行動計劃。
1.設定限制、防護欄和老式編碼
當人們首次想到智能體時,他們通常會想到一個擁有超能力的聊天機器人。它不僅能回答問題,還能進行網絡搜索、回復郵件和購物。在商業環境中,這就像擁有一個AI同事,但這并非思考智能體的唯一方式,而且大多數企業實際上也并非這樣部署它們。
“自主性并非二元對立,”湯森路透的CTO Joel Hron表示,“自主性是一個連續體,我們可以賦予它很大的行動自由度,也可以對它進行嚴格的約束和規范。”
賦予智能體的自主性程度取決于它需要解決的具體問題。
“如果是網絡搜索,這可以非常開放,”Hron說,“但準備納稅申報單,解決這個問題的方法并非無窮無盡。有一種非常明確、受監管的方式。”
企業限制智能體自主性的方法也有多種。最常見的是圍繞它們建立防護欄,引入人工審核以監督其行為,或完全剝奪其行動能力,迫使它們通過傳統的、安全的、確定性的系統來完成工作。
在國防和關鍵基礎設施工程公司Parsons Corporation,一切都始于一個安全的環境。
“你可以信任它,但必須在既定的防護欄和屏障之內,”該公司云與數據副總裁Jenn Bergstrom表示,“這必須是一個零信任環境,這樣智能體就無法繞過屏障。”
然后,在這些限制范圍內,重點是與智能體慢慢建立信任關系。“目前,人類必須進行審批,智能體必須首先明確獲得人類的許可。”Bergstrom說。
下一步是讓智能體自主行動,但需接受人類監督,她說。“最后是真正的自主行為,無需向任何人通報它正在做什么。”
企業對于風險最高的業務流程采用的另一種方法是盡可能少地使用AI。大多數工作不是由一個能夠規劃、執行和驗證行動的智能體系統來處理,而是由傳統的、確定性的、腳本化的流程來處理。換句話說,就是老式編碼。
“這不僅僅是你信任OpenAI、Claude還是Grok的問題,”Asperitas咨詢公司的應用轉型負責人Derek Ashmore表示。只有在需要AI完成的部分時,才會調用AI。因此,如果AI被用于將一組關于潛在客戶的信息轉化為措辭得體的銷售信函,那么所需信息會以傳統方式收集,信函也會通過傳統機制發送。
“它能做什么基本上都是內置好的,”Ashmore說,“大語言模型只完成整個流程中非常小的一部分。”
因此,AI無法自行出去查找信息,也無法直接訪問電子郵件系統。同時,在流程的其他環節可以使用另一個AI來對潛在客戶進行優先級排序,還可以使用另一個AI來分析電子郵件的效果。
與單個AI完成所有工作相比,這確實限制了整個系統的能力和靈活性,但它也大幅降低了風險,因為如果任何一個AI決定胡作非為,它所能造成的破壞也是有限的。
企業在管理和保護傳統應用方面擁有豐富的經驗,因此,對于存在非生成式AI替代方案的許多流程,企業可以利用這些經驗來降低AI組件的風險,同時節省時間和金錢。
比如說,AI在文檔掃描方面比光學字符識別(OCR)更好,但OCR對于90%的文檔來說已經足夠好了。對于這些文檔,使用OCR即可,只有在OCR不起作用時才使用AI。人們很容易對AI產生過度熱情,并開始將其應用到各個領域,但計算器在算術方面比ChatGPT更好、更快。許多模板信函也不需要AI驅動的創造力。
最少化使用AI的原則將降低潛在風險、降低成本、加快處理速度并減少能源浪費。
2.不要相信AI會自我報告
在設置了防護欄、邊界和其他控制措施后,企業需要仔細監控智能體,以確保它們繼續按預期工作。
“你最終面對的是一個非確定性系統,”Ashmore說。傳統軟件會以可預測的方式運行和失敗。“AI是概率性的,”他補充道,“你在不同日子問它同樣一系列問題,可能會得到略有不同的答案。”
這意味著AI系統需要持續監控和審查,這可以是人工的,也可以是某種自動化流程,具體取決于風險水平,但不應完全信任AI自行運行,此外,也不應信任AI自我報告。
正如Anthropic和其他公司的研究所示,生成式AI模型會輕易撒謊、欺騙,它們會偽造測試結果,在思維鏈日志中隱藏自己的實際推理過程,而且,正如任何與大語言模型集成過的人都可以證明的那樣,即使你當場抓住它,它也會當面否認自己做錯了任何事。因此,監控智能體首先要了解其行為基線,這首先需要知道你正在測試的是哪個大語言模型。
“如果你無法控制所使用的大語言模型的確切版本,就無法做到這一點。”Ashmore說。
AI提供商會定期升級其模型,因此,對上一代模型有效的控制措施可能無法應對更好、更智能、更先進的AI,但對于關鍵任務、高風險流程,企業應堅持要求能夠明確指定為其智能體提供動力的大語言模型的具體版本。如果AI供應商無法滿足這一要求,企業還可以選擇開源模型。
IT服務公司和咨詢公司F5 Networks的杰出工程師兼CTO辦公室首席技術傳道者Lori MacVittie表示,對于商業大語言模型,企業的控制能力是有限的。
“當你使用SaaS時,是由別人在運行它,”她說,“你只是訪問它。你有服務水平協議、訂閱和合同,但那并不是控制。如果你對此感到擔憂,那么公有SaaS AI可能就不適合你。”
她表示,為了獲得更多控制層,企業可以在自己的私有云中運行該模型,但這需要付出成本,并且需要更多人員來確保其運行。“如果你甚至不信任云提供商,而選擇在自己的數據中心內部署,且只有一個人能進入,那么你就可以擁有所有想要的控制權。”她說。
3.為AI時代的應急響應做好準備
“如果沒壞,就不要修”這句話并不適用于AI系統。沒錯,古老的COBOL代碼可以在一個角落里默默運行數十年,為你的核心財務系統提供動力而不出任何問題,但AI會感到無聊,或者,至少,它會模擬無聊狀態,產生幻覺,并忘記自己在做什么。
而且,除非企業完全掌握了版本控制問題,否則AI可能會在你不知不覺中變得更快、更智能、更便宜,這些都是好事,除非你追求的是最大程度的可預測性。如果一個聰明、快速的AI的目標或模擬目標與公司的目標不完全一致,那么它可能會成為一個問題。因此,在某種程度上,你需要做好應對AI失控的準備。你是否建立了能夠在問題擴散前迅速阻止其蔓延、鎖定關鍵數據和系統并切換到備份系統的機制?你是否進行過演練,所有利益相關者是否都參與其中,而不僅僅是安全團隊,還包括法律、公關和高層管理團隊?現在,將所有這些應用到AI上。
“你需要考慮智能體的故障模式以及在這種情況下該如何應對,”Globant北美CTO Esteban Sancho表示,“如果你事先不考慮這些問題,那么從故障中恢復將會非常困難。”
如果使用智能體是為了通過取代舊系統或流程來節省資金,那么保留并繼續運行那個舊系統或流程就違背了使用AI的初衷,但如果AI必須被關閉,會發生什么呢?
“你可能正在淘汰一個很難再恢復的東西,”Sancho說,“你需要從一開始就解決這個問題,但很多人都沒有考慮到這一點。”
他表示,企業在構建自主式AI系統的同時,應考慮構建一個備用選項,而且,根據特定智能體的風險程度,他們可能需要能夠迅速切換到該備份系統。
此外,如果AI是一個更大、相互連接的系統的一部分,那么一個故障可能會產生連鎖反應。錯誤會成倍增加,而且,如果AI擁有或找到了進行昂貴或破壞性操作的能力,那么它就有可能以超人的速度采取行動,而且我們已經看到,當股票市場交易系統出錯時會發生什么。例如,Sancho說,一個監控系統可以監視錯誤率是否超過某個閾值。“然后,你需要默認采用一個效率可能不高,但更安全的系統。”他說。



































