科学家用10万人测试AI的创造力

作者: aeks | 发布时间: 2026-01-26 02:02 | 更新时间: 2026-01-26 02:02

学科分类: 心理学 新闻传播学 计算机科学与技术

这项发表在《科学报告》(自然出版集团旗下期刊)上的研究指出了一个重大转变。生成式AI系统目前已达到在某些创造力衡量标准上超越普通人类的水平。与此同时,即使是最强大的AI模型,也仍不及最具创造力的人类,后者始终保持着明显优势。

AI达到人类平均创造力水平 研究人员评估了多个领先的大型语言模型,包括ChatGPT、Claude、Gemini等,并将它们的表现与超过10万名人类参与者的结果进行了比较。研究结果凸显了一个明显的转折点:包括GPT-4在内的部分AI系统,在旨在衡量语言发散创造力的任务中,得分超过了人类平均水平。

卡里姆·杰尔比教授解释道:“我们的研究表明,一些基于大型语言模型的AI系统现在在定义明确的任务上,创造力可以超过普通人类。这个结果可能令人惊讶——甚至不安——但我们的研究也强调了一个同样重要的发现:即使是最优秀的AI系统,其创造力仍不及最具创造力的人类水平。”

该研究的共同第一作者、蒙特利尔大学博士后研究员安托万·贝勒马尔-佩潘和康考迪亚大学博士生弗朗索瓦·莱斯皮纳斯进行的进一步分析揭示了一个显著模式:尽管部分AI模型现在能超越普通人,但创造力的巅峰仍牢牢掌握在人类手中。事实上,当研究人员考察最具创造力的那一半参与者时,他们的平均得分超过了所有接受测试的AI模型。而在最具创造力的前10%人群中,这一差距更大。

卡里姆·杰尔比教授同时也是米拉(魁北克人工智能研究所)的副教授,他表示:“我们与多伦多大学的杰伊·奥尔森合作,基于超过10万名参与者的数据,开发了一个严谨的框架,使我们能够使用相同的工具来比较人类和AI的创造力。”

科学家如何衡量人类和AI的创造力 为了公平评估人类和机器的创造力,研究团队采用了多种方法。主要工具是发散联想任务(DAT),这是一种广泛使用的心理测试,用于衡量发散性创造力,即从单一提示中生成多样且原创想法的能力。发散联想任务由研究合著者杰伊·奥尔森创建,要求参与者(无论是人类还是AI)列出10个在意义上尽可能不相关的单词。一个极具创造力的回答示例包括“星系、叉子、自由、藻类、口琴、量子、怀旧、天鹅绒、飓风、光合作用”等单词。该任务的表现与写作、创意生成和创造性问题解决等其他成熟创造力测试的结果密切相关。尽管该任务基于语言,但它远不止于词汇层面,还涉及许多领域创造性思维中的更广泛认知过程。发散联想任务还有实际优势,完成仅需2到4分钟,且普通大众可在线参与。

从单词列表到真实创意写作 研究人员随后探讨了AI在这项简单单词联想任务上的成功是否能延伸到更复杂、更贴近现实的创意活动中。为了验证这一点,他们让AI系统和人类参与者在创意写作挑战中进行比较,例如创作俳句(一种三行短诗形式)、撰写电影情节梗概以及创作短篇故事。结果呈现出一种熟悉的模式:尽管AI系统有时能超越普通人类的表现,但最优秀的人类创作者始终能产出更出色、更具原创性的作品。

AI的创造力可以调节吗? 这些发现引发了另一个重要问题:AI的创造力是固定的,还是可以被塑造?研究表明,AI的创造力可以通过改变技术设置来调节,尤其是模型的“温度”参数。该参数控制生成内容的可预测性或冒险性。在较低温度设置下,AI会生成更安全、更常规的内容;而在较高温度设置下,生成的内容会更加多样、难以预测且更具探索性,使系统能够跳出熟悉的想法。研究人员还发现,指令的编写方式对创造力有很大影响。例如,鼓励模型利用词源学思考单词起源和结构的提示,会产生更多意想不到的联想和更高的创造力得分。这些结果强调,AI的创造力在很大程度上依赖于人类的引导,使得交互和提示成为创作过程的核心部分。

AI会取代人类创作者吗? 对于人工智能可能取代创意专业人士的担忧,该研究提供了一个平衡的视角。尽管AI系统现在在某些任务上可以达到或超过人类平均创造力水平,但它们仍有明显的局限性,且依赖于人类的指导。卡里姆·杰尔比教授表示:“尽管AI现在在某些测试中能达到人类水平的创造力,但我们需要摆脱这种误导性的竞争观念。生成式AI首先已成为服务于人类创造力的极其强大的工具:它不会取代创作者,而是会深刻改变他们想象、探索和创作的方式——对于那些选择使用它的人而言。”研究结果并未预示创意职业的终结,而是表明未来AI将作为创意助手。通过拓展思路和开辟新的探索路径,AI可能会帮助放大人类的想象力,而非取代它。卡里姆·杰尔比教授总结道:“通过直接对比人类和机器的能力,像我们这样的研究促使我们重新思考创造力的定义。”

关于本研究 题为《人类与大型语言模型的发散性创造力》的论文于2026年1月21日发表在《科学报告》上。该研究汇集了来自蒙特利尔大学、康考迪亚大学、多伦多大学密西沙加分校、米拉(魁北克人工智能研究所)和谷歌DeepMind的科学家。卡里姆·杰尔比教授领导了这项研究,蒙特利尔大学的安托万·贝勒马尔-佩潘和康考迪亚大学的弗朗索瓦·莱斯皮纳斯为共同第一作者。研究团队还包括米拉和LoiZéro的创始人、深度学习(ChatGPT等现代AI系统背后的技术)先驱约书亚·本吉奥。

DOI: 10.1038/s41598-025-25157-3

标签: 人类与AI比较 创造力 发散联想任务 大型语言模型 生成式AI