标签: 人类终极测试

该标签下共有 1 篇文章

作者: aeks | 发布时间: 2026-01-29 08:01

大型语言模型能力快速提升，现有测试基准难度不足（如MMLU准确率超90%）。为此，研究人员推出“人类终极测试”（HLE），含2500道多学科专家级题目，覆盖数学、人文等，现有模型表现差，凸显能力差距，已公开供研究。