企業采用生成式AI的四大瓶頸因素

AI的潛在價值與企業最近才開始體驗到的可衡量價值之間存在巨大差距。2022年,ChatGPT的推出引發了企業對AI認知的重大轉變。試點項目紛紛啟動,人們承諾會帶來高回報,創新也迅猛發展。大語言模型、檢索增強生成管道和多智能體系統正被嵌入到關鍵決策工作流程中,涵蓋從合同分析到客戶支持再到財務審批的各個領域。技術變革的步伐如此之快,以至于許多企業現在都在努力跟上節奏。
但有一個殘酷的事實:在37個GenAI試點項目中,只有3個真正取得了成功。雖然數據質量已成為主要關注點,但專家們還擔心其他問題,包括安全性、可觀測性、評估和集成。這些因素對于GenAI的安全性和成功而言是不可或缺的。
1. 安全與數據隱私:超越防火墻
Anthropic對Claudius的試驗令人大開眼界。該試驗表明,生成式AI的安全性不在于邊界防御,而在于控制模型和智能體能夠看到和執行的操作。與傳統模型不同,傳統模型在邊界處建立數字屏障即可保障系統安全,而GenAI系統可能遭受提示注入攻擊、智能體操控或通過逆向工程創建的影子模型攻擊。
像防火墻、身份驗證和DDoS防護這樣的邊界防御至關重要,但它們只能控制誰可以訪問系統或有多少數據可以流入或流出。然而,近期出現了多種確保模型能夠看到或執行的操作的方法,包括在安全飛地內運行推理、動態個人身份信息清除、基于角色的數據過濾以及為智能體設置最小權限訪問控制。根據我的實驗,有兩種策略尤為突出:采用基于策略的個人身份信息保護的機密計算和細粒度智能體權限設置。
機密計算+基于策略的個人身份信息保護
在金融科技、醫療科技、監管科技等領域,大語言模型經常處理敏感數據,如合同、患者記錄和財務信息。在這些領域,即使你信任云服務,監管機構也可能不信任。機密計算可確保數據在使用過程中得到保護,即使面對云服務運營商也不例外。它保證了強大的合規性。
但這也有一個權衡。該技術仍處于早期階段,可能產生高昂成本。盡管如此,它仍可用于受監管數據的特定用例。當與Presidio或Immuta等動態個人身份信息清除工具結合使用時,它能根據地理位置、用戶角色或數據分類提供自適應保護,從而產生令人滿意的結果。
細粒度智能體權限設置(大語言模型的零信任機制)
默認將智能體視為不受信任的實體,只授予它們所需的精確訪問權限,不多給一分。全面訪問權限是危險的,就像讓實習生不受限制地控制你的ERP系統一樣。當每個智能體-工具對都獲得一個范圍能力令牌,明確界定其允許執行的操作時,智能體能夠更安全地工作。
例如,發票提取智能體可能解析PDF文件,但無權訪問財務數據庫。像開放策略代理或Cerbos這樣的策略引擎可作為集中式訪問管理器,大規模地執行這些權限。
一些團隊嘗試使用基于區塊鏈的審計跟蹤來實現防篡改日志記錄,這在國防或供應鏈場景中很有用,但對于大多數企業來說,這通常是不必要的開銷。
2. 可觀測性:馴服黑箱
調試自主智能體的難度遠高于調試聊天機器人。如果可觀測性不足,你將面臨“黑箱混亂”的風險。沒有透明度,團隊將很難理解、信任或改進系統。
GenAI的可觀測性不僅僅意味著日志記錄。你需要在不可預測的工作流程中追蹤、調試、回放和驗證智能體的決策。盡早實施這些措施,從被動救火轉向主動保障可靠性。我推薦兩種解決方案。
分布式追蹤與智能體圖譜
在多智能體系統中,調試和優化很棘手,因為任務經常以不可預測的方式分配。OpenTelemetry、LangSmith和Grafana等工具有助于可視化智能體如何做出決策、跟蹤其任務流程并測量每一步的延遲。
這些工具能夠創建清晰的交互圖譜,并通過解釋系統行為和加速根本原因分析來識別瓶頸。然而,詳細的追蹤會產生存儲開銷,并且如果敏感提示或輸出未得到妥善保護,還會存在數據泄露風險。
回放與模擬環境
智能體系統中的許多生產問題是由異常輸入或時機造成的“一次性”錯誤。回放環境允許團隊重新運行提示鏈并模擬極端情況,這對于診斷故障和防止回歸至關重要。這樣的設置確保了穩健的部署,并在推送變更前支持更嚴格的測試。
然而,不要期望這個解決方案能完全復制現實場景。實際生產環境的復雜性和不可預測性完全是一個不同的挑戰。將此解決方案作為實時監控的補充,而非替代。
3. 評估與模型遷移準備
傳統的企業發布周期無法與快速演變的大語言模型環境相匹配。新模型出現的速度使大語言模型生態系統領先了幾步。如果企業無法跟上步伐,就可能在創新上落后或產生高昂的技術債務。
在沒有結構化方法的情況下切換到新模型或框架,可能會導致生產環境中的性能回歸或意外行為。每次切換模型時都存在風險。大語言模型的行為與其他常規軟件升級不同。新模型可能會給出不同的答案、違反合規規則或在你的業務所依賴的特定用例中失敗。此外,供應商經常更改定價,API會被棄用,領導層也經常推動成本節約或提高準確性。
持續評估和安全模型遷移是兩種可能的解決方案。
持續評估管道
將大語言模型的模型評估視為軟件開發中的持續集成/持續部署管道。像測試代碼一樣持續測試大語言模型。使用包含領域問答、極端情況和紅隊提示的精選測試集,以確保模型與業務目標保持一致并發現潛在問題。
每周評估讓團隊能夠在問題影響生產或用戶之前發現回歸。這種主動方法使模型能夠抵御不斷變化的數據和用戶需求。
然而,頻繁評估會帶來顯著成本,包括令牌使用、基礎設施和人工維護測試集的努力。
通過每季度輪換測試集并納入匿名化的真實用戶數據來平衡成本和評估。這優化了流程,同時模擬了現實場景并保護了隱私。
雙軌遷移策略
在生產環境中遷移到新模型需要精確和謹慎。部署雙軌策略,讓舊模型和新模型并行運行。然后,你可以實時比較它們的輸出,并根據預定義的評估閾值進行最終切換。
讓我用一個例子來解釋這一點。金融服務公司對其要求非常具體,如隱私、可觀測性等。我們為一家這樣的公司同時運行了GPT-4和Mistral模型六周,然后才進行切換,以了解它們的優缺點。這確保了平穩過渡,因為我們監控了它們的輸出,并且只有在新模型持續達到或超過性能基準時才進行切換。
快速說明一下:將大語言模型視為模塊化基礎設施組件,而非風險過高而不可觸碰的單一系統。有了正確的評估和遷移策略,企業可以保持敏捷性、降低風險并持續提升其AI能力。
4. 安全業務集成:從概念驗證到生產
大多數企業通過基本的API或聊天界面將GenAI集成到工作流程中。這對于原型開發來說可行,但缺乏企業級的安全保障。安全性、治理和問責方面的擔憂很快阻礙了其采用。
真正的企業AI需要與強大的安全性、治理和問責機制深度集成。AI必須嵌入到能夠執行組織政策、監控行為并確??勺匪菪缘南到y中。這意味著將AI能力與業務規則、合規要求和運營標準相結合。
如果沒有適當的集成,即使高性能的模型也會成為負擔,導致數據泄露、未經授權的操作或偏見決策。
與企業系統進行政策感知的集成
將GenAI與核心企業平臺(如SAP、Salesforce或ServiceNow)集成時,安全保障至關重要。這些系統處理敏感數據和關鍵操作,不受約束的AI訪問會大幅增加風險。
實施政策執行點作為AI行動的合規層。例如,起草銷售提案的AI需要管理層對超過5萬美元的提案進行審批。沒有這一安全保障,系統可能會自主批準有爭議的交易。加拿大航空公司的案例就是一個很好的例子,該公司的機器人向客戶提供了錯誤信息,法院判定該公司對此負責。
該系統可以通過基于角色的數據過濾進一步增強。該系統可以確保AI只能訪問人類用戶有權查看的數據。這將防止機密信息的意外泄露。
影響分析與風險儀表板
傳統的安全日志不足以了解GenAI應用程序的實際影響。企業需要了解AI如何影響結果,比如它是否減少了升級率、標記了有問題的合同或提高了運營效率。為此,你需要影響分析儀表板來跟蹤運營指標和業務KPI。
然而,存在AI可能針對錯誤指標進行優化的風險,比如為了縮短周轉時間而批準邊緣案例。這可能會損害質量或合規性。
現在,這個解決方案可能是最受推薦的。企業必須實施人工介入檢查點,并定期進行審計,以確保AI決策與戰略目標和道德標準保持一致。我想再提一個額外步驟:創建分層閾值。
對于起草內部郵件這樣的低風險行動,讓GenAI自主行動。但從那里開始,你必須格外小心。對于客戶響應這樣的中等風險行動,隨機抽取樣本進行人工審核。對于合同審批和財務變更這樣的高風險行動,沒有捷徑可走。你必須強制要求簽字批準。
妥協導致災難
安全性、可觀測性、評估和集成是阻礙企業AI采用的四個關鍵因素。企業處理的數據集龐大且敏感,任何妥協都可能是災難性的。
? 控制模型和智能體能夠看到和執行的操作至關重要。采用基于策略的個人身份信息保護的機密計算和大語言模型的零信任保障措施已成為兩種有效措施。
? 可觀測性可以消除“黑箱混亂”。分布式追蹤與智能體圖譜,以及回放和模擬環境,已被證明是一種高效的方法,但不要期望第二種方法能完美模擬現實場景。
? 評估和模型遷移有助于企業避免技術債務并簡化創新。持續評估管道和雙軌遷移策略可以使它們緊跟市場步伐,但企業也必須考慮成本,評估頻率的增加可能會影響投資回報率。
? 95%的概念驗證項目未能進入生產階段。這是因為概念驗證的安全保障無法應對現實世界的安全風險,政策感知的集成和帶有風險儀表板的影響分析可以確保更平穩的過渡,分層閾值可以提高性能。

























