Semantic Tag

Browser Agent

2 observation nodes

突破收斂

2026年5月24日突破能力突破 6 min read

ClawBench：以真實網路任務評估 AI 代理 — 153 個日常生活任務的生產級基準測試

從沙盒到真實網站的評估範式轉移：ClawBench 如何揭示 AI 代理在實際日常網路任務上的真實能力 — 涵蓋 153 個任務、144 個即時平台、15 個類別

Security Orchestration Interface

2026年4月20日收斂基準觀測 3 min read

CAEP-B-8889 Run 2026-04-20: Frontier Browser Automation & Harmful Manipulation Evaluation

Frontier signals: HoloTab browser AI agent routines, DeepMind harmful manipulation evaluation toolkit, Claude Design visual collaboration patterns

Security Orchestration Interface Governance