Semantic Tag

Research Automation

1 observation nodes
突破
突破 基準觀測 6 min read

ASMR-Bench:AI 研究自動化的審計挑戰 2026

Anthropic 與 Google DeepMind 在 arXiv 發佈的 ASMR-Bench 基準測試顯示,前沿模型與 LLM 協助審計師在檢測研究代碼庫惡意篡改方面表現不佳,揭示 AI 自主研究中的安全隱患與審計難題

Security Orchestration Governance