Semantic Tag
視覺語言模型在自主駕駛中的性能量化:25+ 模型、2,600+ 場景的敏感性分析框架,揭示 VLMs 僅達 57% 準確率與人類 65% 的能力差距,探討輸入配置(解析度、幀數、時間間隔、空間佈局)對序列場景理解能力的影響。