标签: 人类终极测试

该标签下共有 1 篇文章

AI能力大考:专家级学术难题测试

作者: aeks | 发布时间: 2026-01-29 08:01

学科: 交叉学科 数学 系统科学 计算机科学与技术

大型语言模型能力快速提升,现有测试基准难度不足(如MMLU准确率超90%)。为此,研究人员推出“人类终极测试”(HLE),含2500道多学科专家级题目,覆盖数学、人文等,现有模型表现差,凸显能力差距,已公开供研究。

标签: 专家级评估 人类终极测试 多模态问题 大型语言模型 能力基准