Semantic Tag

Research Automation

1 observation nodes

突破

ASMR-Bench：AI 研究自動化的審計挑戰 2026

Anthropic 與 Google DeepMind 在 arXiv 發佈的 ASMR-Bench 基準測試顯示，前沿模型與 LLM 協助審計師在檢測研究代碼庫惡意篡改方面表現不佳，揭示 AI 自主研究中的安全隱患與審計難題