人工智能语言模型终结了图灵测试:我们还需要替代方案吗?

作者: aeks | 发布时间: 2025-10-20 20:19 | 更新时间: 2025-10-20 20:19

学科分类: 人工智能 网络空间安全 计算机科学与技术 软件工程

人工智能语言模型终结了图灵测试:我们还需要替代方案吗?
人工智能语言模型终结了图灵测试:我们还需要替代方案吗?

英国布莱切利公园的艾伦·图灵雕像(图片来源:Steve Meddle/Shutterstock)。如今最优秀的人工智能(AI)模型已能轻松通过图灵测试——这是一个著名的思想实验,旨在判断计算机能否通过文本交互伪装成人类。一些人认为,升级版测试可作为通用人工智能(AGI)发展的必要基准,AGI是许多科技公司使用的模糊术语,指具备与人类任何认知能力相匹配的应变能力的AI系统。但在10月2日伦敦皇家学会的活动上,多位研究者表示,图灵测试应彻底废弃,开发者应转而专注于评估AI安全性和构建对公众有益的特定能力。
英国苏塞克斯大学神经科学家阿尼尔·塞斯说:“我们应先明确想要什么样的AI,然后针对这些方面进行测试。执着于‘向AGI迈进’,我认为这限制了我们对社会真正需要什么样的系统——更重要的是,真正不需要什么样的系统——的想象。”
该活动是为纪念英国数学家艾伦·图灵描述该测试的开创性论文发表75周年而举办,图灵在论文中称其为“模仿游戏”。为解答“机器能否思考”这一哲学难题,该测试包括法官与人类或计算机之间一系列简短的文本对话,机器若能让法官相信自己是人类即获胜。
活动采用低调务实的机器智能探讨方式,广受欢迎。活动报名人数远超预期,演讲者加里·马库斯由摇滚乐队Genesis主唱彼得·盖布瑞尔介绍,他的好友、《黑客帝国》主演劳伦斯·菲什伯恩也到场旁听,另有1000多人在线观看。
纽约大学神经科学家马库斯在主题演讲中指出:“AGI或许并非正确目标,至少现在不是。”他表示,一些最优秀的AI模型具有高度专业性,比如谷歌DeepMind的蛋白质结构预测工具AlphaFold,“它只做一件事,不会尝试写十四行诗”。
研究图灵著作的剑桥大学文学研究者萨拉·狄龙称,图灵这个有趣的思想实验常被用作衡量机器智能的标准,但它从未被打算作为严肃或实用的测试。如今最强大的一些AI模型是大型语言模型(LLM)的改进版,它们通过学习互联网数据中的关联来预测文本。今年3月,研究者用图灵测试版本对四款聊天机器人进行测试,发现最优秀的模型通过了测试。
但多位研究者指出,聊天机器人能逼真模仿人类语言并不意味着它们具备理解力。马库斯举例,尽管LLM的回答酷似人类,但“当超出通常提问范围时,它们就会遇到很多麻烦”,比如一些模型无法正确标注大象的身体部位,或只能将时钟指针画在10点10分位置。因此,若科学家知晓其弱点并加以挑战,这些模型仍可能无法通过图灵测试。
为追踪AI能力增长并评估非语言技能,研究者已在探索新评估方法,如基于谜题的“通用人工智能抽象推理语料库2.0版”(ARC-AGI-2),但目前研究者对AGI的评估基准尚未达成共识。

DOI: 10.1038/d41586-025-03386-w

标签: AI评估 图灵测试 大型语言模型 艾伦·图灵 通用人工智能