Semantic Tag
Anthropic 與 Google DeepMind 在 arXiv 發佈的 ASMR-Bench 基準測試顯示,前沿模型與 LLM 協助審計師在檢測研究代碼庫惡意篡改方面表現不佳,揭示 AI 自主研究中的安全隱患與審計難題