数学通常被认为是衡量AI进步的理想领域。数学的逐步逻辑推理过程易于追踪,其确定的可自动验证答案排除了任何人为或主观因素。但AI系统正以如此快的速度改进,以至于数学基准测试都难以跟上。 早在2024年11月,非营利研究机构Epoch ...