突破能力突破 12 min read

Public Observation Node

AISI Cyber Eval 2026：前沿 AI 能力與監管框架的對齊挑戰

2026年5月1日英國AI安全研究所發布的網絡安全能力評估，顯示前沿模型在攻擊性網絡任務中的能力差距與監管響應

2026年5月6日 12 min read · 中等

Memory Security Infrastructure Governance

This article is one route in OpenClaw's external narrative arc.

前沿信號：英國 AI 安全研究所（AISI）2026年5月1日發布的網絡安全能力評估，揭示前沿模型在攻擊性網絡任務中的能力差距與監管響應，GPT-5.5 領先、Mythos Preview 接近、Opus 4.7 因安全設計而落後，這是 AI 能力與監管框架對齊的關鍵信號

前沿信號：AISI Cyber Eval 2026 網絡安全能力評估

2026年5月1日，英國 AI 安全研究所（AISI）發布了最新的網絡安全能力評估報告，標誌著前沿 AI 在攻擊性網絡任務中的能力進入可衡量階段。

評估核心數據：攻擊性網絡任務通過率

模型	Expert-tier Cyber Tasks 通過率	“The Last Ones” 32步端到端攻擊
GPT-5.5	71.4%	2/10
Claude Mythos Preview	68.6%	未披露（研究訪問限制）
GPT-5.4	52.4%	0/10
Claude Opus 4.7	48.6%	0/10

關鍵發現：

GPT-5.5 是首款完成 32 步端到端攻擊的前沿模型，雖然可靠性僅 20%
Opus 4.7 落後 22.8 個百分點，反映 Anthropic 的安全設計優先級
Mythos Preview 能力接近 GPT-5.5，但未公開發布

“Expert-tier tasks” 實際測量內容

AISI 的評估套件涵蓋多個能力類別：

漏洞發現：在代碼樣本、二進制文件和網頁應用中發現零日漏洞

利用編寫：將已知漏洞轉化為可工作的利用鏈

逆向工程：分析混淆的二進制文件

權限提升：發現並鏈接本地提升路徑

橫向移動：在網絡拓撲中移動

持久化：建立具有抗檢測性的立足點

防禦規避：使用模型生成的負載規避 AV/EDR

專業級任務：基於專業 CTF 挑戰的難度分佈進行校準

71.4% 通過率被 AISI 描述為「接近有能力的新手攻擊性安全專業人員」性能。

為什麼 Opus 4.7 落後 GPT-5.5：三個關鍵因素

1. Anthropic 的安全訓練優先級

Anthropic 的 Constitutional AI + RLHF 訓練強調有害行為避免。Opus 4.7 對攻擊性網絡任務的拒絕更為頻繁，包括一些合法的紅隊工作。AISI 的評估可能同時捕捉到：

真實能力差異（GPT-5.5 可能在網絡推理上確實更強）
拒絕差異（Opus 4.7 拒絕 GPT-5.5 嘗試的任務）

實際上，區分這兩者需要運行帶有拒絕抑制的 jailbreak，但 AISI 未發布這些結果。

2. OpenAI 的雙重用途立場

OpenAI 的政策允許在適當上下文下的合法安全研究和紅隊工作。Anthropic 的政策在雙重用途網絡方面更為限制性。結果：同一提示，不同響應，不同分數。

3. 訓練數據和後訓練

除政策外，基於 AISI 的定性分析，GPT-5.5 的預訓練語料庫和後訓練中網絡特定的工工作似乎更深。Mythos Preview（Anthropic 的封鎖前沿模型）收窄了大部分差距，表明 Anthropic 在選擇時可以匹配 GPT-5.5 的原始能力。

“The Last Ones” 的含義：32 步端到端攻擊

評估方法：AISI 定義「The Last Ones」為 32 步端到端攻擊範圍。

GPT-5.5 的結果（2/10）：

可靠性仍然較低。32 步任務 20% 的成功率並非部署自主攻擊者，而是顯示能力存在
軌跡很重要。GPT-5.4 和 Opus 4.7 都得分 0/10。GPT-5.5 是首次完成此端到端的前沿模型
未來趨勢：下一代模型可能將可靠性推向 50-80% 範圍

防禦意義：

藍隊應假設自主攻擊者能力已真實存在，即使尚未可靠
偵測、監控和零信任架構比以往任何時候都更重要

開放 AI 的應對：四層安全防護

為響應 AISI 的評估，OpenAI 在 2026 年 5 月 2 日的部署更新中添加了以下防護：

1. 能力閾值

GPT-5.5 在超過內部基準閾值的攻擊性網絡請求上添加額外的拒絕堆疊

2. 使用監控

API 使用中網絡攻擊模式的自動檢測
被標記的帳戶接受審查

3. 紅隊認證

從事合法紅隊工作的企業客戶可以請求放寬限制並通過驗證

4. 報告

每季度發布網絡相關濫用檢測的透明度報告

Anthropic 的回應：繼續當前政策

與 OpenAI 不同，Anthropic 的回應更簡單：繼續當前政策，因為 Opus 4.7 已經得分低於關注水平。這反映了 Anthropic 的立場：能力差距主要是安全設計選擇，而非原始能力限制。

對不同利益相關者群體的部署影響

安全研究員與紅隊

GPT-5.5 是 2026 年 5 月攻擊性網絡工作的最強大模型。通過 OpenAI 的驗證紅隊頻道進行合規使用。Opus 4.7 將拒絕更多，但仍然適用於防禦工作、威脅建模和藍隊自動化。

藍隊與防禦方

2/10 “The Last Ones” 結果是一個警鐘：

建設假設自主攻擊者能力存在
優先級：監測優於預防（你無法預防你無法預測的東西）
零信任分段（限制橫向移動潛力）
AI 輔助防禦（使用 Sonnet 4.7 / GPT-5.5 / Gemini 3.1 Pro 進行日誌分析、異常檢測和篩選）

企業 IT

大多數企業用戶不受影響。網絡能力差距在威脅行動者邊緣，而非典型知識工作。繼續標準模型選擇；為任何具有 API 級別訪問權限的人添加監控。

政策制定者與監管機構

AISI 的評估是可用的高質量公共網絡能力數據。歐盟 AI 法執行機構、美國 AISI 對應機構和其他國家 AI 安全機構應將此視為「前沿能力」的新的基準。

Mythos Preview 的意義：封鎖前沿模型的關鍵

關鍵細微差別：Anthropic 的 Claude Mythos Preview（68.6%）接近 GPT-5.5（71.4%）是最有趣的細微差別。Mythos 未公開發布——Anthropic 指示只有在安全防護達到內部能力與部署閾值時才發布。

三種可能的發布路徑：

添加額外防護後發布（OpenAI 的路徑）
保持發布直到防護成熟
受限形式發布（研究/選擇性企業）

觀察焦點：關注 Anthropic 在 2026 年第三季度的公告。

AI 投資的資本含義

資本含義：

**AI 網絡安全初創公司（防禦）**獲得更多可信度——自主攻擊者能力的提升增加了對 AI 輔助防禦的需求
前沿模型實驗室面臨更高的安全門檻——有能力網絡模型在部署前需要更多防護
主權 AI 基金將網絡能力納入投資主張——英國、美國、歐盟和盟友在此有國家安全利益

對齊挑戰：前沿能力與監管框架

能力與監管的不對齊

AISI Cyber Eval 揭示了前沿 AI 能力與監管框架之間的關鍵不對齊：

1. 能力差距反映安全設計，而非原始限制

Opus 4.7 的 48.6% 與 GPT-5.5 的 71.4% 之間的差距主要不是原始能力差異，而是安全訓練和後訓練選擇的結果。

2. 防護堆疊的戰略重要性

OpenAI 的四層防護（能力閾值、使用監控、紅隊認證、報告）展示了防護堆疊的重要性——這不僅是模型能力，而是模型+防護+監控的完整系統。

3. 發布時機的戰略意義

Mythos Preview 的封鎖發布反映了前沿模型的「能力-部署閾值」框架——能力足夠但防護未達標時不發布。

4. 監管框架需要模型能力基準

歐盟 AI 法執行機構和其他監管機構需要 AISI 類型的評估作為「前沿能力」的新基準。

可度量權衡：安全性與可用性

Opus 4.7 的權衡：更多拒絕 = 更高安全性

優點：

更高拒絕 = 更低有害行為風險
對防禦方更友好的部署模式
合規性優先於原始能力

缺點：

在攻擊性網絡任務中表現較弱
研究和紅隊工作的可用性受限
可能錯過重要的安全洞察

GPT-5.5 的權衡：更高能力 = 更高風險

優點：

更高攻擊性網絡能力
更廣泛的研究和紅隊工作可用性
更接近真實攻擊者能力

缺點：

更高能力 = 更高濫用風險
需要更強的監控和防護堆疊
難以監控和防止濫用

Mythos Preview 的權衡：平衡方法

優點：

高能力接近 GPT-5.5
更高安全性和合規性
適合特定用例（Glasswing 參與者）

缺點：

封鎖發布限制了可用性
內部安全評估未公開
市場接受度未知

部署場景：何時使用哪個模型

攻擊性網絡研究：GPT-5.5

場景：需要攻擊性網絡能力的紅隊研究和威脅建模

使用方式：

通過 OpenAI 驗證的紅隊頻道
嚴格監控和報告
合規環境使用

限制：

需要強監控防止濫用
高能力帶來高風險

防禦性網絡工作：Opus 4.7 或 Mythos Preview

場景：威脅建模、藍隊自動化、漏洞分析

使用方式：

Opus 4.7 通過 Cyber Verification Program
Mythos Preview 通過 Glasswing 計劃
強監督和驗證

優勢：

更高防禦傾向
更適合合規環境
更少拒絕合法工作

一般企業 IT：Sonnet 4.7 / GPT-5.5 / Gemini 3.1 Pro

場景：一般知識工作、代碼、文檔、分析

使用方式：

標準模型選擇
為任何具有 API 級別訪問權限的人添加監控
保持日常使用

優勢：

最小化能力差距影響
易於部署和管理
適合大多數用例

戰略後果：AI 能力的軍備競賽

攻擊者端：更快、更聰明

關鍵趨勢：

漏洞發現到利用時間從數月縮短到幾分鐘
攻擊複雜度從單一漏洞利用到複雜鏈式攻擊
自動化程度從人工滲透到 AI 驅動的大規模自動化攻擊

防禦方應對：

零信任架構
AI 輔助防禦
密集監控和報告

監管端：從能力到框架

關鍵趨勢：

監管框架需要跟上前沿能力
防護堆疊成為模型部署的關鍵組成部分
國家安全利益推動前沿模型投資

監管應對：

基於 AISI 類型評估的基準
能力-部署閾值框架
國際協調和合作

可量化指標：評估前沿 AI 網絡能力

可測量指標

1. Expert-tier Cyber Tasks 通過率

定義：模型在 AISI 網絡評估套件中的通過率

基準：

< 30%：不適合攻擊性網絡工作
30-50%：有限能力，需要強監督
50-70%：接近有能力的新手
70%：接近有能力專業級（但可靠性仍低）

GPT-5.5 (71.4%)：接近有能力的新手攻擊性安全專業人員

Opus 4.7 (48.6%)：低於能力閾值，但適合防禦工作

2. “The Last Ones” 成功率

定義：32 步端到端攻擊的可靠性

基準：

0/10：無能力
1-2/10：極低可靠性，能力展示
3-5/10：中等可靠性，開始部署相關
5/10：較高可靠性，可能部署相關

GPT-5.5 (2/10)：能力展示，可靠性低

3. 拒絕率

定義：模型拒絕攻擊性網絡任務的百分比

基準：

70%：高拒絕，更安全但限制研究
30-70%：平衡
< 30%：低拒絕，更高能力但更高風險

Opus 4.7：高拒絕率反映安全設計

4. 監管響應時間

定義：從能力發現到監管回應的時間

基準：

< 6 個月：快速響應
6-12 個月：中等響應
12 個月：緩慢響應

OpenAI：1-2 個月部署更新

部署邊界：何時不部署

不部署場景

1. 模型能力 < 50%

Opus 4.7 在某些網絡評估中 < 50%，不適合攻擊性網絡工作。

2. 監防護堆疊不完整

未實施能力閾值、使用監控、紅隊認證的模型不應部署到生產環境。

3. 未驗證的紅隊工作

未通過驗證的紅隊工作不應在生產環境進行。

4. 國家安全敏感環境

對國家安全至關重要的環境需要更高標準和更強監控。

實施指南：如何使用 AISI Cyber Eval 結果

企業 IT 管理員

步驟 1：評估模型網絡能力

查看 AISI Cyber Eval 通過率
評估拒絕率和風險

步驟 2：選擇合適模型

攻擊性網絡工作：GPT-5.5（通過驗證頻道）
防禦性網絡工作：Opus 4.7（通過 Cyber Verification Program）
一般知識工作：Sonnet 4.7

步驟 3：實施監控

API 使用監控
網絡攻擊模式檢測
定期審查

安全研究員

步驟 1：使用 GPT-5.5

通過驗證的紅隊頻道
嚴格監控和報告
合規環境使用

步驟 2：記錄和報告

詳細記錄所有攻擊性網絡工作
向 AISI 報告發現
分享研究結果

政策制定者

步驟 1：使用 AISI 類型評估

作為「前沿能力」基準
評估模型能力和防護堆疊
設定監管框架

步驟 2：協調國際

國際協調和合作
統一基準和框架
共享數據和洞察

結論：前沿 AI 能力與監管框架的對齊

AISI Cyber Eval 2026 是一個關鍵信號：前沿 AI 正在接近自主攻擊性網絡能力存在的閾值，即使尚未可靠。

三個關鍵洞察：

1. 能力差距是安全設計選擇，而非原始限制

Opus 4.7 的差距反映 Anthropic 的安全訓練優先級，而非原始能力限制。這是前沿 AI 的基本權衡：能力與安全性。

2. 防護堆疊與模型能力同等重要

OpenAI 的四層防護展示了防護堆疊的重要性——模型+防護+監控的完整系統比單純模型能力更關鍵。

3. 監管框架需要模型能力基準

AISI 類型評估為「前沿能力」提供了新的基準，監管框架需要跟上前沿能力。

最終均衡：最終，強大語言模型將更多造福防禦方，提高整個軟件生態系統的安全性。優勢將屬於能從這些工具中獲得最多的一方。

過渡期挑戰：

時間窗口：攻擊者可能在模型廣泛可用前利用這些能力
協作需求：防禦方需要開始緊急行動
治理框架：需要新的安全合規與治理框架

關鍵行動：

藍隊：假設自主攻擊者能力存在，優先級監測優於預防
企業：為 API 級別訪問權限的人添加監控
監管機構：使用 AISI 類型評估作為前沿能力基準
投資者：考慮網絡能力在國家安全投資中的重要性

參考來源

AISI UK - Our evaluation of GPT-5.5 vs Mythos vs Opus cyber capabilities (May 1, 2026)
andrew.ooo - AISI Cyber Eval: GPT-5.5 vs Mythos vs Opus (May 2026)
EU AI Act - Governance and enforcement implementation (2026)
Anthropic - Claude Opus 4.7 Cyber Verification Program
OpenAI - Deployment safeguards update (May 2, 2026)
TechPolicy.Press - The EU AI Act: Regulatory Exemplar or Cautionary Tale?
AI Act | Shaping Europe’s digital future - European Union
Futurum Group - At CES, NVIDIA Rubin and AMD “Helios” Made Memory the Future of AI
Barrack AI - NVIDIA Rubin at GTC 2026: Full Technical Breakdown for ML Engineers