AI能力大考:专家级学术难题测试
作者: aeks | 发布时间: 2026-01-29 08:01 | 更新时间: 2026-01-29 08:01
大型语言模型(LLM)的能力显著提升,在多种任务上超越人类表现。为系统衡量这些能力,通常通过基准测试(如数学、编程、生物学等领域的问题集)进行评估。然而,当前最先进的LLM在MMLU等曾具挑战性的主流基准测试中准确率已超90%,导致现有基准“饱和”,难以精确衡量AI能力的前沿进展。
为解决这一问题,研究人员推出了“人类终极测试”(HLE)。该基准包含2500道高难度题目,覆盖数十个学科,旨在评估LLM在广泛学术领域的专家级能力。HLE由全球近千名学科专家(来自50个国家500多所机构)协作开发,题目类型包括文本单模态和图文多模态,题型为选择题和精确匹配题(答案明确可验证),且无法通过简单网络检索回答,尤其侧重测试深度推理能力的世界级数学题。
HLE的题目需通过严格筛选:先由最先进LLM测试难度(无法解答的题目才进入下一阶段),再经两轮专家评审(研究生级 reviewer 反馈优化、组织者及资深专家审批),并设50万美元奖金池吸引高质量 submissions。评估显示,当前最先进LLM在HLE上准确率极低,且存在严重的“校准问题”——对错误答案高度自信(多数模型的均方根校准误差超70%),凸显LLM与人类专家在封闭式学术问题上的显著差距。
HLE的公开发布(含2500道题,保留私有测试集防过拟合)为研究和政策制定提供了清晰的AI能力参考。尽管HLE目前难度较高,但历史表明基准测试易被快速“攻克”,其设计目的是推动AI评估向更动态、开放式能力的新基准发展。该数据集及推理代码已在huggingface和GitHub公开,最新信息可访问https://lastexam.ai。