AI智能体的“算术”对不上

作者: aeks | 发布时间: 2026-01-24 03:02 | 更新时间: 2026-01-24 03:02

学科分类: 控制科学与工程 智能科学与技术 计算机科学与技术 软件工程

AI智能体的“算术”对不上
AI智能体的“算术”对不上

几个月前,在被过度炒作的“智能体AI之年”,一篇论文悄无声息地发表了,其核心观点大致如此。这篇题为《幻觉站点:论基于Transformer的语言模型的一些基本局限性》的论文,据称从数学角度证明“大型语言模型(LLMs)无法执行超出特定复杂度的计算和智能体任务”。尽管其中的科学原理我难以完全理解,但论文作者——曾师从人工智能领域奠基人之一约翰·麦卡锡学习AI的前SAP首席技术官,以及他那位十几岁的天才儿子——用数学的确定性打破了智能体乌托邦的幻想。他们表示,即便是超越LLMs纯粹单词预测过程的推理模型,也无法解决这个问题。

“它们不可能做到可靠,”父亲维沙尔·西卡告诉我。他的职业生涯除了在SAP任职外,还曾担任印孚瑟斯(Infosys)首席执行官和甲骨文(Oracle)董事会成员,目前领导着一家名为Vianai的AI服务初创公司。“那么我们应该放弃让AI智能体运营核电站的想法吗?”我问道。“完全正确,”他说。也许你可以让它处理一些文件之类的工作来节省时间,但你可能不得不接受一些错误。

人工智能行业对此持有不同看法。一方面,智能体AI在编程领域已取得重大成功,该领域于去年兴起。就在本周的达沃斯论坛上,谷歌人工智能部门负责人、诺贝尔奖得主德米斯·哈萨比斯报告了在减少幻觉方面的突破,大型科技公司和初创企业都在推动智能体的发展叙事。现在他们有了新的支持。一家名为Harmonic的初创公司报告称,其在AI编程方面取得了突破,这一突破同样依赖数学,并且在可靠性基准测试中名列前茅。

Harmonic由罗宾汉(Robinhood)首席执行官弗拉德·特内夫和斯坦福大学毕业的数学家图多尔·阿基姆联合创立,该公司称其名为“亚里士多德”(毫无傲慢之意!)的产品近期的改进表明,存在确保AI系统可信度的方法。“我们注定要生活在一个AI只会生成无用信息而人类无法真正核查的世界吗?那将是一个疯狂的世界,”阿基姆说。Harmonic的解决方案是使用数学推理的形式化方法来验证LLM的输出。具体而言,它将输出编码为Lean编程语言,该语言以其编码验证能力而闻名。诚然,Harmonic目前的关注点较为狭窄——其核心使命是追求“数学超级智能”,而编程是其某种自然延伸。像历史论文这类无法通过数学验证的内容,目前仍超出其能力范围。

尽管如此,阿基姆似乎并不认为可靠的智能体行为像一些批评者认为的那样是个大问题。“我认为目前大多数模型已具备规划旅行行程所需的纯粹智能水平,”他说。

双方都有道理——甚至可能站在同一立场。一方面,所有人都同意幻觉仍将是一个令人困扰的现实。在去年9月发表的一篇论文中,OpenAI的科学家写道:“尽管取得了重大进展,但幻觉仍然困扰着该领域,并且在最新模型中依然存在。”他们通过让包括ChatGPT在内的三个模型提供主要作者的论文标题,证明了这一令人不快的说法。三个模型都编造了虚假标题,并且都错误地报告了发表年份。在关于该论文的一篇博客中,OpenAI沮丧地表示,在AI模型中,“准确率永远不会达到100%”。

目前,这些不准确性严重到足以阻碍智能体在企业界的广泛采用。“价值尚未实现,”开源AI公司Sentient的联合创始人希曼舒·泰亚吉说。他指出,处理幻觉问题可能会扰乱整个工作流程,从而抵消智能体的大部分价值。

然而,大型AI巨头和许多初创企业认为这些不准确性是可以解决的。他们表示,与幻觉共存的关键是建立“护栏”,过滤掉LLMs喜欢生成的虚构无意义内容。就连西卡也认为这是可能的结果。“我们的论文指出,纯粹的LLM存在这种固有局限性——但同时,你确实可以在LLM周围构建组件来克服这些局限性,”他说。

专注于数学验证的阿基姆同意幻觉将永远存在——但他认为这是一个特性,而非缺陷。“我认为幻觉是LLMs固有的,也是超越人类智能所必需的,”他说。“系统学习的方式就是通过‘幻想’出某些东西。这些东西往往是错误的,但有时也可能是人类从未想过的。”

归根结底,就像生成式AI本身一样,智能体AI既不可能实现又不可避免。或许不会有某个特定年份被后人视为“智能体之年”。但无论是否存在幻觉,从现在起的每一年都将是“更多智能体之年”,因为“护栏”与幻觉之间的差距正在缩小。行业投入巨大,必然会推动这一进程。智能体执行的任务将始终需要某种程度的验证——当然,人们可能会疏忽大意,我们也会遭遇或大或小的灾难——但最终,智能体的可靠性将达到或超过人类,同时速度更快、成本更低。

到那时,一些更大的问题将会出现。为了讨论这篇关于幻觉的论文,我联系了计算机先驱艾伦·凯,他与西卡关系友好。他认为“他们的论点提出得足够好,能够引起真正的计算理论家的评论”(这让人想起他1984年对麦金塔电脑的评价:“第一台好到足以被批评的个人电脑”)。但他最终表示,数学问题并非关键。相反,他建议人们根据马歇尔·麦克卢汉的著名格言“媒介即信息”来考虑这个问题。“不要问某件事是好是坏、是对是错,”他解释道,“要弄清楚正在发生什么。”

目前的情况是:我们很可能正处于人类认知活动大规模自动化的临界点。这是否会提高我们的工作和生活质量,仍是一个悬而未决的问题。我怀疑,对此的最终评估将无法通过数学方法验证。

标签: 人工智能局限性 大语言模型幻觉 数学验证 智能体AI 认知自动化