CrowdStrike聯手Meta發布AI安全基準，讓AI在真實網絡攻擊中證明自己

2025-09-25 09:04:00

人工智能新聞

CyberSOCEval的出現，就是為了解決這個大麻煩。它給所有安全團隊和模型開發者提供了一個統一的評估框架。

美國網絡安全巨頭CrowdStrike和Meta湊到一塊，在拉斯維加斯的Fal.Con 2025大會上宣布，聯合推出了一個叫CyberSOCEval的開源基準測試套件。

這東西干嘛的？就是一張給所有號稱能做網絡安全的AI大語言模型準備的考卷，專門考它們在真實的安全運營中心（SOC）環境下，到底能不能打。

咱得有個標準

干網絡安全防御，一邊是堆積如山的安全警報，多得像永遠處理不完的垃圾郵件；另一邊是攻擊者的手段花樣翻新，速度比時尚圈出新款還快。

大家都指望AI來救場，尤其是大語言模型，能自動化處理任務，把安全運營效率提升。可問題來了，市面上那么多AI系統，到底誰有真本事，誰是花架子？安全團隊想選個靠譜的AI幫手，全憑感覺和廠家的宣傳，心里一點底都沒有。

在真實的黑客攻擊面前，哪個AI能派上用場？哪個應用場景最有效？性能要達到什么標準才算及格？之前，沒人能說清楚，行業里缺一把公認的尺子。

CyberSOCEval的出現，就是為了解決這個大麻煩。它給所有安全團隊和模型開發者提供了一個統一的評估框架。

巨頭聯手，不只是喝杯咖啡

CrowdStrike，是全球市值最大的網絡安全上市公司之一，它的Falcon（獵鷹）平臺保護著全球頂級的銀行、醫院和政府機構，手里攥著海量的、來自一線攻防現場的威脅情報和數據。它最懂黑客是怎么干活的。

而全球AI研究的領頭羊Meta，手握頂尖的AI算法和龐大的數據集。它最懂怎么訓練和評估AI模型。

一個出題，一個出考綱，這倆湊一塊，就給AI時代的網絡安全防御定了個新方向。他們把這套“考卷”直接開源，放在Meta的PurpleLlama項目上，讓全世界的安全專家和開發者都能用，都能參與改進。

CrowdStrike的首席業務官Daniel Bernard說得很直接，這是在定義AI時代網絡安全的方向。Meta的產品總監Vincent Gonguet也表示，他們致力于推進開源AI的好處，這次合作就是為了讓行業能更快地釋放AI的潛力，保護大家免受高級攻擊，甚至是那些由AI驅動的威脅。

CyberSOCEval是在Meta之前的CyberSecEval框架基礎上擴展而來，專門針對安全運營中心（SOC）的關鍵工作流程設計。主要針對惡意軟件分析（Malware Analysis）和威脅情報推理（Threat Intelligence Reasoning）。

惡意軟件分析評估的是一個大語言模型看到一段可疑的代碼或者行為描述時，能不能準確識別出它是不是個壞東西，比如是不是勒索軟件，或者是不是一個遠程訪問木馬（RAT）。

數據來自CrowdStrike多年來積累的真實惡意軟件樣本和威脅情報數據。這確保了內容不是紙上談兵，而是模擬了SOC分析師每天都要面對的真實挑戰。

威脅情報推理評估的是AI在閱讀一篇非結構化的威脅情報報告后，能不能自己提煉出有用的、可操作的信息。比如，從一篇安全公告或者對手戰術分析報告里，找出攻擊者的關鍵指標，判斷這是哪個黑客組織干的，預測他們下一步可能要攻擊哪里。

數據都是真實世界的威脅情報文本，包括MITRE ATT&CK框架的描述、各種行業安全報告等。

真防得住嗎？還幫倒忙？

CyberSOCEval的評估體系，繼承了Meta CyberSecEval 3框架的精髓。這個框架的視角很全面，它把AI的風險分成了兩大類：一類是對別人的風險，比如AI會不會被壞人利用去發動攻擊；另一類是對開發者和用戶自己的風險，比如AI會不會生成不安全的代碼，留下后門。

下面這張表，就總結了CyberSecEval 3框架關注的一些主要風險維度，它也是CyberSOCEval的技術基礎。

數據來源：CYBERSECEVAL 3論文

從表里能看出來，現在的AI模型，比如Llama 3，雖然很強大，但也不是完美的。它們在某些情況下可能會被用來干壞事。

下面是在惡意軟件分析基準測試中，每個受測模型在多項選擇回答中完全正確的評估：

在威脅情報推理基準測試中，每個模型在多項選擇題上獲得完全正確的評估：

在CyberSOCEval針對SOC場景的專項測試里，初步結果顯示，大語言模型處理結構化的威脅分析任務，比如給惡意軟件分個類、從報告里提取個指標，干得還不錯。但是，一旦任務變得復雜，需要跨好幾個步驟進行推理，或者需要長時間記住上下文信息，比如完整地重建一條攻擊鏈，AI就有點力不從心了，還是得靠人類專家介入。

開源，讓大家一起來守護AI安全

CyberSOCEval一發布就通過GitHub完全開源了，采用的是MIT許可證。

這個基準套件的推出，是把AI在網絡安全領域的應用，從“市場炒作”拉回到了“實證科學”的軌道上。

在安全圈里，“紅隊”模擬攻擊，“藍隊”負責防御，而“紫隊”就是讓紅藍兩隊坐在一起，互相交流學習，共同提升。這次合作，正是融合了Meta的AI“攻擊”能力評估視角和CrowdStrike的“防御”應用視角，全面地審視AI在網絡攻防中的能力與風險。

AI越來越強，安全也得跟上。

責任編輯：張燕妮來源： AIGC開放社區

AI 安全模型