小模型大智慧:轻松击败大型AI逻辑测试
作者: aeks | 发布时间: 2025-11-24 16:02 | 更新时间: 2025-11-24 16:02
一个仅从有限数据中学习的小型人工智能模型因其提升推理能力的潜力而令研究人员兴奋。这种名为微型递归模型(TRM)的模型在人工智能通用智能抽象与推理语料库(ARC-AGI)测试中表现优于一些世界顶级大型语言模型(LLMs)。该测试包含视觉逻辑谜题,旨在难倒大多数机器。
上个月,arXiv服务器上的一篇预印本论文详细介绍了该模型。需要注意的是,它与大型语言模型并不具有直接可比性。TRM高度专业化,仅在其训练过的逻辑谜题类型(如数独和迷宫)上表现出色,并且它不会“理解”或生成语言。但它在资源极少的情况下(比前沿大型语言模型小1万倍)表现如此出色,研究人员表示,这为更广泛地提升人工智能的这种能力提供了一条可能的途径。
“这是对其他推理形式的迷人研究,有朝一日可能会用于大型语言模型,”曾任职于加拿大温哥华不列颠哥伦比亚大学的机器学习研究员陆聪(Cong Lu)说。不过,他警告称,如果在更大规模上应用这些技术,其效果可能不再那么显著。“通常,技术在小型模型上效果很好,但在更大规模时就会失效。”
人工智能测试
“在我看来,这些结果非常重要,”人工智能公司Ndea的联合创始人弗朗索瓦·肖莱(François Chollet)说,他创建了ARC-AGI测试。他补充道,由于这类模型需要针对每个新问题从头开始训练,因此“相对不实用”,但“我预计会有更多研究在此结果基础上展开”。
该论文的唯一作者——加拿大蒙特利尔三星先进技术研究所的人工智能研究员阿莱克西亚·若利科eur-马蒂诺(Alexia Jolicoeur-Martineau)表示,她的模型表明,“只有花费数百万美元训练的大规模模型才能完成艰巨任务”这一观点是个“陷阱”。她已将该模型的代码在Github上公开,供任何人下载和修改。“目前,人们过于关注利用大型语言模型,而不是设计和拓展新的研究方向,”她在博客中写道。
小型模型,大成果
大多数推理模型都建立在大型语言模型的基础之上,这些大型语言模型通过利用数十亿个被称为参数的已学习内部连接来预测序列中的下一个词。它们通过记忆数十亿份文档中的模式来表现出色,但在遇到不可预测的逻辑谜题时,这种记忆模式可能会让它们出错。
TRM采用了不同的方法。若利科eur-马蒂诺的灵感来自新加坡人工智能公司Sapient Intelligence开发的一种名为分层推理模型的技术。分层推理模型通过多次迭代改进答案,并于6月发表在一篇预印本中。
TRM采用了类似的方法,但仅使用700万参数,而分层模型有2700万参数,大型语言模型则有数十亿或数万亿参数。对于算法学习的每种谜题类型(如数独),若利科eur-马蒂诺使用一种受大脑启发的架构(称为神经网络),在约1000个示例(格式化为数字字符串)上进行训练。
在训练过程中,模型会猜测解决方案,然后将其与正确答案进行比较,接着改进猜测并重复这一过程。通过这种方式,它学习改进猜测的策略。然后,该模型采用类似的方法来解决相同类型的未见过的谜题,在生成响应之前,会连续改进答案多达16次。