人工智能已具备人类水平的智力了吗?答案很明确

作者: aeks | 发布时间: 2026-02-02 22:02 | 更新时间: 2026-02-02 22:02

学科分类: 哲学 心理学 智能科学与技术 计算机科学与技术

1950年,艾伦·图灵在题为《计算机器与智能》的论文中提出了“模仿游戏”,也就是现在所说的图灵测试。这个测试探讨了一个看似纯假设的问题:机器能否展现出人类思维特有的灵活、通用的认知能力,从而能在不知情的人类面前伪装成人类? 四分之一个世纪后,答案似乎是“能”。2025年3月,美国加州旧金山OpenAI公司开发的大型语言模型(LLM)GPT-4.5在图灵测试中,有73%的时间被人类判定为人类——比真正的人类被判定为人类的概率还高。此外,读者甚至更喜欢大型语言模型生成的文学作品,而非人类专家写的作品。 这还不是全部。大型语言模型在国际数学奥林匹克竞赛中获得了金牌级的表现,与顶尖数学家合作证明定理,生成了已通过实验验证的科学假设,解决了博士考试中的问题,协助专业程序员编写代码,创作诗歌等等——还包括全天候与全球数亿人聊天。换句话说,大型语言模型已经展现出了图灵所关注的那种广泛、灵活的认知能力——也就是我们现在所说的“通用智能”,尽管图灵当时并未使用这个术语。 智能的未来会怎样?答案或许藏在智能的进化故事中。然而,许多专家不愿承认当前的人工智能模型具备通用人工智能(AGI),有些人甚至怀疑它们永远不会具备。2025年3月,华盛顿特区的美国人工智能协会开展的一项调查发现,76%的顶尖研究人员认为,扩大当前人工智能的规模“不太可能”或“极不可能”产生通用人工智能。 这种分歧该如何解释?我们认为,部分原因在于概念层面——通用人工智能的定义模糊且不一致;部分在于情感层面——通用人工智能引发了人们对被取代和混乱的恐惧;还有部分在于实际层面——这个术语与可能扭曲评估的商业利益纠缠在一起。正是因为通用人工智能主导了公众话语,所以值得以更超然的方式来探讨这个概念:将其视为一个关于智能的问题,而非对社会动荡的紧迫担忧,或是商业合同中一个不断推迟的里程碑。 在撰写这篇评论时,我们从哲学、机器学习、语言学和认知科学等不同角度探讨了这个问题,并经过广泛讨论达成了共识。接下来,我们将阐述为什么我们认为,一旦澄清某些困惑,努力进行公平比较并避免人类中心主义偏见,结论就很明确:按照合理的标准,包括图灵自己的标准,我们已经拥有具备通用智能的人工系统。创造通用人工智能这一长期存在的问题已经得到解决。承认这一事实至关重要——对政策、风险以及对心智乃至世界本质的理解都很重要。 定义问题 我们假设,正如我们认为图灵会做的那样,人类具有通用智能。有些人认为,即使在人类身上,通用智能也根本不存在。尽管这种观点逻辑连贯且具有哲学趣味性,但我们在此将其搁置,因为它与大多数人工智能话语脱节。但做出这一假设后,我们该如何描述通用智能呢? 通用智能的一个常见非正式定义,也是我们讨论的起点,是一个能够完成人类几乎所有认知任务的系统。这个任务清单应该包含哪些任务引发了很多争论,但“一个人类”这个表述也隐藏着一个关键的模糊之处。它是指每个任务的顶尖人类专家吗?那样的话,没有哪个人能符合条件——玛丽·居里获得了化学和物理学诺贝尔奖,但她不是数论专家。它是指一个在各方面都有能力的综合人类吗?这似乎也是一个很高的标准——阿尔伯特·爱因斯坦彻底改变了物理学,但他不会说普通话。 人工智能离人类水平的智能有多近? 一个把基本上所有人类都排除在外的定义,不是通用智能的定义,而是关于其他东西的定义,或许是理想的专业知识或集体智能。相反,通用智能是指拥有足够广度和深度的认知能力,“足够”以典型案例为基准。广度意味着跨多个领域的能力——数学、语言、科学、实际推理、创造性任务——与“狭义”智能(如计算器或国际象棋程序)形成对比。深度意味着在这些领域内有出色的表现,而不仅仅是表面参与。 人类的通用智能有程度和差异之分。儿童、普通成年人和像爱因斯坦这样公认的天才,都拥有不同水平和特点的通用智能。每个人在不同领域有擅长也有不足。这种灵活性也应该适用于人工系统:我们应该问它们是否拥有与人类水平通用智能相当的核心认知能力。 我们没有规定一个定义,而是借鉴通用智能的实际和假设案例——从爱因斯坦到外星人再到神谕——来确定这个概念的轮廓,并更系统地完善它。我们的结论是:只要个体人类具有通用智能,当前的大型语言模型也具有。 通用智能不是什么 我们可以先确定通用智能不需要的四个特征。 完美性。我们不期望物理学家能达到爱因斯坦的洞察力,也不期望生物学家能复制查尔斯·达尔文的突破。很少有人(如果有的话)即使在自己擅长的专业领域内也有完美的深度。人类的通用智能不需要完美,通用人工智能也不应该需要。 普遍性。没有哪个人类个体能完成所有认知任务,其他物种也有超过我们的能力:章鱼能独立控制它的八条触手;许多昆虫能看到人类看不见的部分电磁波谱。通用智能不需要普遍掌握这些技能;通用人工智能不需要完美的广度。 类人性。智能是一种可以在不同基质中实现的功能属性——图灵在1950年就通过搁置人类生物学而认同了这一点。展示通用智能的系统不需要复制人类的认知架构或理解人类的文化参考。我们不会对外星智能提出这些要求;对机器也应如此。 超级智能。这通常用来指在几乎所有领域都大大超过人类认知表现的任何系统。超级智能和通用人工智能经常被混淆,尤其是在商业环境中,“超级智能”往往意味着经济颠覆。没有人类符合这个标准;它也不应该是通用人工智能的要求。 一连串的证据 那么,什么是通用智能呢?没有一个“明确的界限”测试来判断它是否存在——任何确切的阈值都不可避免地是任意的。这可能会让那些想要确切标准的人感到沮丧,但这种模糊性是一个特点,而不是缺陷。像“生命”和“健康”这样的概念难以精确定义,但仍然有用;我们不需要确切的边界就能识别典型案例。人类是通用智能的典型例子;袖珍计算器虽然在计算方面有超人能力,但缺乏通用智能。 当我们评估其他人类的通用智能或能力时,我们不会试图窥探他们的大脑来验证理解——我们从行为、对话和解决问题的能力中推断。没有单一的测试是决定性的,但证据会积累。这同样适用于人工系统。 就像我们通过从基本识字到博士考试等逐渐要求更高的测试来评估人类的通用智能一样,我们可以考虑一连串要求越来越高的证据,这些证据会让我们对通用人工智能存在的信心逐渐增强。 图灵测试水平。相当于基础教育的标志:通过标准学校考试、进行充分的对话、进行简单推理。十年前,达到这些可能被广泛接受为通用人工智能的充分有力证据。 当前的人工智能比科幻超级计算机HAL 9000的能力更广泛。 专家水平。这里的要求更高:在国际比赛中获得金牌级表现、解决多个领域的博士考试问题、编写和调试复杂代码、流利掌握几十种语言、提供有用的前沿研究协助以及胜任创造性和实际问题解决,从论文写作到旅行规划。这些成就超过了科幻小说中对通用人工智能的许多描述。导演斯坦利·库布里克1968年的电影《2001太空漫游》中的有感知能力的超级计算机HAL 9000,其广度不如当前的大型语言模型。而且当前的大型语言模型甚至超过了我们对人类的要求:我们基于弱得多的证据就认为个体人类具有通用智能。 超人水平。革命性的科学发现以及在一系列领域持续优于顶尖人类专家。这样的证据肯定会让关于机器是否存在通用智能的合理辩论不复存在——但它不是证明其存在的必要证据,因为没有人类能做到这一点。 图灵愿景的实现 当前的大型语言模型已经涵盖了前两个水平。随着大型语言模型解决越来越难的问题,对其能力的替代解释——例如,它们是检索预计算答案的巨大“查找表”,或是不理解意义或结构而只重复浅层规律的“随机鹦鹉”——变得越来越站不住脚。 然而,这些说法往往会以不同的预测重新出现。在每一次新的成功面前退缩、总是预测在当前成就之外会失败的假设,不是令人信服的科学理论,而是对永久怀疑主义的教条式坚持。 我们认为当前的证据很清楚。通过最佳解释推理——我们用来将通用智能归因于其他人的同样推理——我们正在观察到高度的通用人工智能。图灵所设想的那种机器已经到来。以前也有人提出过类似的论点,引发了争议和反对。我们的论点得益于实质性的进展和额外的时间。截至2026年初,支持通用人工智能的理由更加明确。 我们现在考察对当前大型语言模型具有通用智能这一观点的十个常见反对意见。其中有几个呼应了图灵本人在1950年考虑过的反对意见。我们认为,每一个反对意见要么将通用智能与智能的非本质方面混为一谈,要么应用了个体人类都无法满足的标准。 它们只是鹦鹉学舌。“随机鹦鹉”反对意见认为,大型语言模型只是对训练数据进行插值。它们只能重组遇到过的模式,因此在真正的新问题或“分布外泛化”问题上一定会失败。这呼应了“洛夫莱斯夫人的反对意见”,该意见受阿达·洛夫莱斯1843年言论的启发,图灵将其表述为机器“永远不能做任何真正新的事情”。早期的大型语言模型在需要超越训练数据表面模式进行推理和泛化的问题上确实会出错。但当前的大型语言模型可以解决新的、未发表的数学问题,对科学数据进行接近最优的上下文内统计推断,并表现出跨领域迁移能力,即对代码的训练可以改善非编码领域的一般推理。如果批评者要求像爱因斯坦的相对论那样的革命性发现,他们的标准太高了,因为很少有人类能做出这样的发现。此外,不能保证人类智能本身不是一种复杂的“随机鹦鹉”。所有智能,无论是人类的还是人工的,都必须从相关数据中提取结构;问题在于提取的深度。 它们缺乏世界模型。大型语言模型据称缺乏真正理解所必需的物理环境表征。但拥有世界模型只需要能够预测如果情况不同会发生什么——回答反事实问题。问一个尖端的大型语言模型,把玻璃杯和枕头掉在瓷砖地板上有什么区别,它会正确预测一种情况会破碎,另一种情况不会。大型语言模型能够解决奥林匹克数学和物理问题,并协助工程设计,这表明它们拥有物理原理的功能模型。按照这些标准,大型语言模型已经拥有世界模型。此外,为自动驾驶等专业领域开发的神经网络已经在学习物理场景的预测模型,支持反事实推理和复杂的物理感知。 它们只理解文字。这种反对意见的核心是,大型语言模型只在文本上训练,因此必然局限于基于文本的任务。前沿模型现在在图像和其他多模态数据上训练,使得这种反对意见有些过时。此外,语言是人类压缩和捕捉关于现实知识的最强大工具。大型语言模型可以提取这种压缩的知识,并将其应用于明显非语言的任务:帮助研究人员设计实验——例如,建议在生物学和材料科学中下一步测试什么——这超出了单纯的语言表现。我们还没有遇到这种反对意见所预测的大型语言模型性能的明显限制。 它们没有身体。批评者认为,没有具身性,就不可能有通用智能。这反映了一种只针对人工智能的人类中心主义偏见。人们会把智能归因于通过无线电交流的无实体外星人,或者归因于保存在缸中的大脑。一个能准确回答任何问题但从不移动或采取物理行动的实体,会被认为是极其智能的。物理学家斯蒂芬·霍金几乎完全通过文本和合成语音与世界互动,但他的身体限制丝毫没有降低他的智能。运动能力与通用智能是可分离的。 它们缺乏能动性。的确,当今的大型语言模型不会像人类那样形成独立的目标或在没有提示的情况下主动行动。即使是“能动性”人工智能系统——如前沿的编码代理——通常也只在用户触发任务时才行动,尽管它们随后可以自动起草功能和修复错误。但智能不需要自主性。就像德尔斐神谕——被理解为只有在被询问时才给出准确答案的系统——当前的大型语言模型不需要主动设定目标就能被视为智能。人类通常既有通用智能又有自主性,但我们不应因此得出两者相互需要的结论。自主性与道德责任有关,但它不是智能的构成要素。

DOI: 10.1038/d41586-026-00285-6

标签: 图灵测试 大型语言模型 认知能力 通用人工智能 通用智能