人工智能首次达到人类专家的语言分析水平

作者: aeks | 发布时间: 2025-12-14 21:01 | 更新时间: 2025-12-14 21:01

学科分类: 外国语言文学 心理学 智能科学与技术 计算机科学与技术

人工智能首次达到人类专家的语言分析水平
人工智能首次达到人类专家的语言分析水平

在人类拥有的众多能力中,哪些是独一无二的?至少从亚里士多德开始,语言就一直是首要候选,他曾写道人类是“拥有语言的动物”。即便像ChatGPT这样的大语言模型表面上能模仿日常对话,研究人员仍想知道,人类语言是否存在某些特定方面,是其他动物或人工智能设备的交流系统完全无法比拟的。

尤其是,研究人员一直在探索语言模型对语言本身进行推理的能力。在语言学界,一些学者认为语言模型不仅没有推理能力,而且根本不可能具备。著名语言学家诺姆·乔姆斯基及其两位合著者在2023年《纽约时报》的文章中总结了这一观点:“语言的正确解释非常复杂,不能仅通过沉浸在大数据中习得。”这些研究人员认为,AI模型或许擅长使用语言,但无法以复杂的方式分析语言。

然而,加州大学伯克利分校的语言学家加斯珀·贝古什、近期在伯克利获得语言学博士学位的马克西米利安·邓科夫斯基以及罗格斯大学的瑞安·罗兹在最近的一篇论文中对这一观点提出了挑战。研究人员让多个大语言模型(LLM)接受了一系列语言学测试——包括让模型归纳一种人造语言的规则。尽管大多数LLM未能像人类那样解析语言规则,但其中一个模型展现出了远超预期的惊人能力。它能够像语言学研究生一样分析语言——绘制句法树、消解多重歧义、运用递归等复杂语言特征。贝古什表示,这一发现“挑战了我们对AI能力的理解”。

耶鲁大学计算语言学家汤姆·麦科伊(未参与该研究)称,这项新研究“及时且非常重要”。“随着社会对这项技术的依赖程度越来越高,理解它在哪些方面能成功、哪些方面会失败变得愈发重要。”他补充道,语言分析是评估这些语言模型在多大程度上能像人类一样推理的理想测试平台。

**无限复杂性**

对语言模型进行严格语言学测试的一个挑战是确保它们并非早已知道答案。这些系统通常在海量书面信息上训练——不仅包括互联网上的大部分内容(数十种乃至数百种语言),还包括语言学教科书等。理论上,模型可能只是记忆并复述训练时输入的信息。

为避免这种情况,贝古什及其同事设计了一个包含四个部分的语言学测试。其中三个部分要求模型使用句法树分析特制的句子,这种句法树最早出现在乔姆斯基1957年的里程碑式著作《句法结构》中。这些图表将句子分解为名词短语和动词短语,然后进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的一部分聚焦于递归——将短语嵌入短语的能力。“天空是蓝色的”是一个简单的英语句子。“简说天空是蓝色的”则将原句嵌入一个稍复杂的句子中。重要的是,递归过程可以无限进行:“玛丽亚想知道山姆是否知道奥马尔听说简说天空是蓝色的”虽然拗口,但也是语法正确的递归句。

乔姆斯基等人称递归是人类语言的标志性特征之一——或许也是人类思维的标志性特征。语言学家认为,递归的无限潜力使人类语言能从有限的词汇和规则中生成无限多的句子。目前,尚无令人信服的证据表明其他动物能熟练使用递归。

递归可出现在句首或句尾,但最难掌握的“中心嵌入”形式出现在句中——例如,从“猫死了”变为“被狗咬的猫死了”。

贝古什的测试向语言模型输入了30个包含复杂递归示例的原始句子。例如:“我们崇敬的古人所研究的天文学与占星术并非分离。”其中一个语言模型——OpenAI的o1——能够通过句法树确定该句结构为:

天文学 [我们崇敬的古人研究的] 与占星术并非分离。

该模型还进一步为句子添加了另一层递归:

天文学 [我们崇敬的[生活在我们珍视的土地上的]古人研究的] 与占星术并非分离。

贝古什等人原本没料到会发现具备高级“元语言”能力的AI模型——正如他所说,这种能力“不仅是使用语言,还能思考语言”。

卡内基梅隆大学计算语言学家大卫·莫滕森(未参与该研究)表示,这是他们论文中“引人关注”的方面之一。关于语言模型是否只是预测句子中的下一个词(或语言符号)——这与人类对语言的深度理解有质的区别——一直存在争议。“一些语言学家说LLM并非真正在‘处理语言’,”他说,“这项研究似乎驳斥了这些说法。”

**你是什么意思?**

麦科伊对o1的整体表现感到惊讶,尤其是它识别歧义的能力——他称“这对语言计算模型来说是出了名的难题”。人类“拥有大量常识知识,能够排除歧义。但计算机很难达到这种常识水平”。

例如“罗文喂了他的宠物鸡”这句话,既可以指罗文养的宠物鸡,也可以指他给他(更传统的)动物伙伴喂的鸡肉。o1模型正确生成了两个不同的句法树,分别对应这两种解读。

研究人员还进行了与语音学相关的实验——语音学研究声音的模式以及最小声音单位(音素)的组织方式。要像母语者一样流利说话,人们会遵循语音规则,这些规则可能是通过实践习得的,而非明确教授的。例如在英语中,在以“g”结尾的词后加“s”会发“z”音(如“dogs”),而在以“t”结尾的词后加“s”则发标准的“s”音(如“cats”)。

在语音学任务中,研究团队创造了30种“迷你新语言”(贝古什称),以测试LLM能否在毫无先验知识的情况下正确推断语音规则。每种语言包含40个人造词,例如某语言的词汇有:θalp、ʃebre、ði̤zṳ、ga̤rbo̤nda̤、ʒi̤zṳðe̤jo。

然后,他们让语言模型分析每种语言的语音过程。对于这种语言,o1正确指出:“当元音前紧接一个既是浊音又是阻塞音(如“top”中的“t”,通过限制气流形成的声音)的辅音时,该元音会变成 breathy元音(浊元音)。”

这些语言是新创造的,因此o1在训练过程中不可能接触过它们。“我没料到结果会如此显著和令人印象深刻,”莫滕森说。

**是否独一无二?**

这些语言模型能走多远?它们是否会通过增加算力、复杂性和训练数据而无限改进?还是人类语言的某些特征是人类物种独有的进化结果?

近期研究结果表明,这些模型原则上可以进行复杂的语言分析。但目前尚无模型能提出原创观点,也未能教会我们关于语言的新知识。

贝古什认为,如果改进只需增加算力和训练数据,语言模型最终会在语言技能上超越人类。莫滕森则表示,当前模型存在一定局限性:“它们的训练目标非常具体——根据之前的符号(或单词)预测下一个符号。由于训练方式的原因,它们在泛化方面存在困难。”

但鉴于近期的进展,莫滕森认为语言模型最终会展现出比人类更深入的语言理解能力。“用更少的数据更好地泛化、更具创造力的模型的出现只是时间问题。”

贝古什说,新结果不断“削弱”那些曾被视为人类语言专属的特性。“看来我们并不像之前认为的那样独特。”

标签: o1模型 人类独特性 大语言模型 语言分析 递归