我们需要新的测试来检验人工智能对现实世界的理解能力

作者: aeks | 发布时间: 2025-10-29 21:39 | 更新时间: 2025-10-29 21:39

学科分类: 人工智能 哲学 法学 计算机科学与技术

人工智能(AI)模型在法律考试的选择题、简答题和论述题上表现可媲美人类(A. Blair-Stanek等人,SSRN预印本,2025年),但在实际法律任务中却举步维艰。一些律师已吸取惨痛教训,因提交人工智能生成的法庭辩护状而被罚款,这些辩护状歪曲了法律原则,还引用了不存在的案例。其他领域也存在类似情况,例如,AI模型能通过金融领域的黄金标准测试——特许金融分析师考试,却在初级金融分析师所需的简单任务上表现糟糕(参见go.nature.com/42tbrgb)。

我们应如何测试AI是否具备人类水平的智能?OpenAI的o3推动探索
每当评估未能准确衡量预期技能时,就会出现“代理指标失效”。例如,考试得A+的律师本应能避免AI工具在实际场景中可能犯的同类错误。我们迫切需要更好的测试方法,以指导人工智能在复杂、高风险情境中的应用。
今年3月,在美国宾夕法尼亚州费城举行的美国人工智能促进会研讨会上,出现了一个颇具前景的想法:通过广泛互动,专家可以判断人工智能系统是真正理解,还是仅仅在模仿理解。
想象一个AI模型试图通过与著名法律学者(如马萨诸塞州剑桥市哈佛大学的凯斯·桑斯坦)的面试来“过关”。桑斯坦的专业追问会比标准化测试或自动评分基准更能衡量该模型的法律知识。通过“桑斯坦测试”要求AI工具展现真正的法律精通能力,能够应对模糊与矛盾,而非仅仅回答选择题或写论述文。
有人可能会问:为何不直接用特定任务基准测试AI模型的法律适用性,就像医学领域用于检查AI为医生做笔记能力的基准那样?然而,目标并非测试AI工具执行特定法律任务的能力,甚至不是一长串任务的能力,而是测试它是否具备通用法律知识,能够在执行任何任务时系统地运用这些知识。
为何评估AI的影响需从现在开始
我并非建议任命桑斯坦或任何单一权威人士作为AI专业知识的仲裁者。目标是构建让顶尖法律专家普遍认同的、能展现真实且可信法律知识的系统。“机器人律师”需要能应对各类专家小组的面试——从税务律师、宪法律师到书记员、交通警察和法律援助工作者。这种方法可减少个人或意识形态偏见问题,避免AI模型仅模仿某个人风格的陷阱。
机器能否达到人类的专业水平、精妙程度和伦理标准?只有专家能给出答案。但试想美国最高法院大法官在公开场合盘问人工智能机器人律师,这会吸引所有人的关注。这将成为一场堪比2011年跨国科技公司IBM在美国电视智力竞赛节目《危险边缘》中发起的挑战——该公司让超级计算机“沃森”与人类冠军对决,以展示机器推理和自然语言处理的进步。

DOI: 10.1038/d41586-025-03471-0

标签: AI智能测试 代理指标失效 桑斯坦测试 通用法律知识