NVIDIA推出面向Agentic AI的系統性安全框架 原創
隨著大語言模型(LLMs)從單純的文本生成器演化為具備規劃、推理和自主行動能力的Agentic系統,其能力大幅提升,但也帶來了安全、合規和治理等方面的新挑戰。為了應對這些風險,NVIDIA發布了一套開源安全軟件套件與后訓練安全策略(Safety Recipe),為企業部署Agentic AI提供系統性防護手段。
核心問題與背景
Agentic AI具備更強的自主性和工具使用能力,但也引發以下問題:
- 內容輸出風險:生成有害、帶偏見或不合規內容;
- 安全隱患:易受prompt injection、越獄攻擊等威脅;
- 合規難題:難以匹配企業內部政策與外部監管;
- 傳統防護失效:靜態內容過濾與規則策略難以應對動態攻擊。
企業迫切需要覆蓋全生命周期的系統性對策,確保Agentic系統可控、可監、可審計。
NVIDIA安全策略架構概覽

NVIDIA的安全策略分為四個階段,覆蓋從訓練前到部署后的全流程,從多個方位保證AI安全:
- 預部署評估
- 工具/數據:Nemotron、WildGuardMix、garak掃描器;
- 功能:基于企業政策和安全基準測試模型。
- 后訓練對齊
- 技術:監督微調(SFT)、強化學習(RL)、On-policy數據融合;
- 目標:在不影響準確性的前提下提升模型的安全一致性。
- 在線推理防護
- 工具:NeMo Guardrails與NIM微服務;
- 功能:實時內容審查、主題控制、越獄檢測。
- 持續監測與反饋
- 技術:實時分析+garak掃描;
- 功能:應對動態攻擊與提示注入,持續加強防御能力。
開源資源與數據集
- Nemotron Content Safety v2:涵蓋廣泛有害行為的評估基準;
- WildGuardMix:適用于模糊/對抗性提示的內容審查;
- Aegis Dataset:35000+條標注樣本,支持更精細的分類器開發。
效果與成效指標
在效果和成效方便,NVIDIA安全策略也表現良好!
- 內容安全性提升6%(88% → 94%),模型準確率無損失;
- 越獄防御能力提升7%(56% → 63%);
- 系統可迭代更新,保障模型在面臨新型風險時持續可信。


企業集成與合作生態
- 與Cisco AI Defense、CrowdStrike、Trend Micro等合作;
- 可自定義業務策略、風險閾值和合規要求,實現個性化對齊;
- 支持開源部署或云端模塊化啟動,便于快速上手與持續演進。
總結
NVIDIA的Agentic AI安全策略是業界首個公開、全流程、可擴展的安全強化方案,為企業在采用Agentic LLM過程中提供了穩固的信任支撐。它在不犧牲性能的前提下,實現了從模型訓練到實時防御的完整閉環,助力企業平衡創新與風險,安全擁抱自治型AI,為未來鋪路。
參考
本文轉載自???Halo咯咯??? 作者:基咯咯
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















