该标签下共有 1 篇文章
作者: aeks | 发布时间: 2026-01-29 08:01
学科: 交叉学科 数学 系统科学 计算机科学与技术
大型语言模型能力快速提升,现有测试基准难度不足(如MMLU准确率超90%)。为此,研究人员推出“人类终极测试”(HLE),含2500道多学科专家级题目,覆盖数学、人文等,现有模型表现差,凸显能力差距,已公开供研究。
标签: 专家级评估 人类终极测试 多模态问题 大型语言模型 能力基准