开源AI程序解题能力超过人类
作者: aeks | 发布时间: 2026-02-11 14:02 | 更新时间: 2026-02-11 14:02
学科分类: 人工智能 图书馆情报与档案管理 科学技术史 计算机科学与技术
科学家们如今有了一种新工具来应对呈指数级增长的研究论文(2024年已突破400万篇):一款专门用于分析科学文献的人工智能(AI)程序。这款名为OpenScholar的AI由学术研究人员而非主流AI公司开发,一项新研究表明,它在回答不同研究主题的问题时,比几款广泛使用的通用聊天机器人更准确,在许多情况下甚至优于人类专家。
这项研究今日发表于《自然》杂志,其预印本于2024年11月首次出现。作者承认,如今其他支撑ChatGPT等AI的大型语言模型(LLM)的新版本已经缩小了与OpenScholar的差距,甚至可能已经超越了它。但其他研究人员对艾伦人工智能研究所(Ai2)和五所大学的OpenScholar开发者表示赞赏,因为与广泛使用的商业聊天机器人不同,他们公开了程序代码和基础数据,供免费获取。新加坡国立大学研究信息技术与学术交流的Min-Yen Kan表示:“这些(专有)系统确实有所改进,但它们未经同行评审。推出这类(开源)研究非常重要,因为它是可复现的。”
当被问及“如何冷却悬浮纳米颗粒的质心运动?”这类问题时,OpenScholar会通过一个包含4500万篇开放获取论文的数据库进行检索,该数据库针对生物医学、计算机科学、物理学等学科的科学问题搜索进行了优化。与早期通常一次仅引用一篇论文内容作答的LLM不同,OpenScholar会综合多篇相关论文的内容。此外,OpenScholar的回答比其他模型的回答长数百字,有助于捕捉对科学家有用的更多细微信息。
OpenScholar还会在最终确定回答前对每个回应进行评估和迭代改进。其开发者在研究中报告称,这一举措减少了“幻觉引用”——这是许多聊天机器人所依赖的LLM的一个臭名昭著的问题。
研究团队使用一个基于人类学科专家指导意见的基准程序评估OpenScholar的回答质量。结果发现,在计算机科学问题上,OpenScholar的正确率为51%,而2024年研究完成时可用的OpenAI高级LLM GPT-4o的正确率为45%。OpenScholar的得分也高于Meta广受欢迎的LLM Llama(研究人员可在特定限制下获取其代码)。在多个主题的评估中,12名博士生和博士后研究员组成的人类评估者在51%的情况下更倾向于OpenScholar的回答,当将该LLM与GPT-4o结合使用时,这一比例升至70%。
华盛顿大学数据科学家Jevin West未参与此项研究,他建议对这一发现的解读需谨慎。“我们很难定义‘更好’,因为同一学科内的不同个体对于支持某个论点的最佳引文看法差异很大,”他说,“这方面还需要持续研究。”他还指出,LLM的设计目的是生成有说服力的答案,即使内容空洞,“我们可能会被它们的总结能力有点‘催眠’。”
该研究的主要作者、Ai2的计算机科学家Akari Asai表示,自OpenScholar演示版推出以来,已有约3万名科学家使用过它,其中大多数人从事计算机科学以外的学科。“很多人说它有助于快速理解或快速识别重要论文,”她说,“有些人是某一领域的专家,但他们想看看是否有遗漏的论文。”不过,论文承认,OpenScholar搜索的数据库中缺乏付费墙内容,这可能会限制其回答的质量。
Kan表示,使用OpenScholar等工具的科学家面临风险。与其他使用AI获取信息的人一样,他们必须自己决定对答案的信任程度。“如果用这些工具替代原始文献,可能会很危险,因为可能会丢失一些细微差别,”Kan说。在人工智能等发展迅速的领域,这类工具可能有助于理解爆炸式增长的文献,这或许更容易被接受,但在精神病学等涉及患者健康的领域则不然。
麻省理工学院认知科学博士后研究员Katherine Collins表示,另一个风险是“技能退化”。“我确实担心,扩大这类系统的规模可能会鼓励年轻科学家不深入阅读文献,而深入阅读有助于催生新想法和建立新联系,”Collins说(她上周在《自然》杂志上与人合著了一篇关于AI基准的评论)。“在一个很容易获取论文摘要的世界里,人们可能会失去或无法学习这种技能。”
随着技术的进步,这些问题将变得更加紧迫。2025年11月,OpenScholar团队成员发布了一份预印本,描述了一种更先进的LLM,名为DR Tulu-8B,它能针对各种主题的深入问题,从互联网的多个来源生成综合报告。开发者称,它的性能与OpenScholar、人类专家以及其他几款领先LLM的最新版本相当或更好。虽然它并非专为科学家设计,但团队认为研究人员可能会很快采用它。