能“透视”AI模型的算法，可精准引导其回答

作者: aeks | 发布时间: 2026-04-30 12:01 | 更新时间: 2026-04-30 12:01

本文探讨了一个关键问题：能否在不依赖人工审核的情况下，自动判断人工智能（AI）模型的回答是否事实准确？答案是可能的——前提是能识别并利用AI神经网络内部与‘真实性’等概念对应的特定神经活动模式。虽然神经网络通常将抽象概念（如真实、错误、可靠）编码为复杂的数值模式，但过去很难定位并操控这些模式。本研究发表于《科学》杂志，Beaglehole等人提出了一种新型AI‘内部引导’技术：不是从外部输入指令或调整参数，而是直接读取、解析并干预模型内部的神经表征，从而实时控制其输出并监测其可靠性。该方法在代码生成任务中表现优于现有主流方法，为构建更可信、可解释、自省的下一代AI系统提供了新路径。简言之，这项工作让AI不仅会答题，还能‘想一想自己答得对不对’。

DOI: 10.1038/d41586-026-01267-4

标签: AI自我监控人工智能可解释性大语言模型可靠性模型内部引导神经真实性信号