Debug Java Program - 搜索 News

19 小时

SWE-AGI基准评测：中大型软件在全新语言上的批量生成成功率已达80%

在这一高难度的“系统构建”场景下，模型表现呈现出了明显的两极分化。GPT-5.3-codex 凭借 86.4% 的通过率（19/22）稳居榜首，Claude Opus 4.6 以 68.2%（15/22）紧随其后。相比之下，其他参评模型（包括开源模型及部分闭源模型）在简单任务上的表现尚可，但一旦进入中高难度领域，成功率便跌至个位数甚至为零。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

SWE-AGI基准评测：中大型软件在全新语言上的批量生成成功率已达80%

今日热点