能“透视”AI模型的算法,可精准引导其回答

作者: aeks | 发布时间: 2026-04-30 12:01 | 更新时间: 2026-04-30 12:01

学科分类: 信息与通信工程 控制科学与工程 智能科学与技术 计算机科学与技术

能“透视”AI模型的算法,可精准引导其回答
能“透视”AI模型的算法,可精准引导其回答

本文探讨了一个关键问题:能否在不依赖人工审核的情况下,自动判断人工智能(AI)模型的回答是否事实准确?答案是可能的——前提是能识别并利用AI神经网络内部与‘真实性’等概念对应的特定神经活动模式。虽然神经网络通常将抽象概念(如真实、错误、可靠)编码为复杂的数值模式,但过去很难定位并操控这些模式。本研究发表于《科学》杂志,Beaglehole等人提出了一种新型AI‘内部引导’技术:不是从外部输入指令或调整参数,而是直接读取、解析并干预模型内部的神经表征,从而实时控制其输出并监测其可靠性。该方法在代码生成任务中表现优于现有主流方法,为构建更可信、可解释、自省的下一代AI系统提供了新路径。简言之,这项工作让AI不仅会答题,还能‘想一想自己答得对不对’。

DOI: 10.1038/d41586-026-01267-4

标签: AI自我监控 人工智能可解释性 大语言模型可靠性 模型内部引导 神经真实性信号