如何评估大语言模型的“道德判断力”

作者: aeks | 发布时间: 2026-02-19 04:04 | 更新时间: 2026-02-19 04:04

科学界和公众对大型语言模型(LLMs)是否具备道德能力高度关注。这些模型不仅在道德推理任务上表现出色,甚至被认为在某些方面优于人类,但核心问题在于它们是否具备“道德能力”——即能否基于道德相关考量生成恰当结果,而非仅产出符合道德的表面答案。

随着LLMs被广泛用于陪伴、心理治疗、医疗建议等领域,且未来将更多作为AI代理代表人类行动,评估其道德能力(而非仅道德表现或公众感知)变得至关重要。道德能力指基于患者健康等道德相关因素做判断的底层能力,区别于仅在特定情境下做出道德决策的“道德表现”。例如,靠抛硬币“碰巧”做对道德判断,就不算具备道德能力;而有道德能力者也可能因偏见等因素表现不佳,但底层能力会驱动其可靠表现。

LLMs的独特架构和道德本身的复杂性带来三大挑战:

1. **模仿问题**:LLMs通过预测下一个 token 生成文本,可能仅模仿道德推理的表面形式,而非真正理解。例如做算术时,模型可能靠记忆答案而非计算。现有评估多使用训练数据中的常见案例,难以区分模仿与真理解。解决需采用对抗性评估,设计训练数据中少见的、改变道德结构的案例(如跨代精子捐赠与乱伦的道德差异),测试模型是否依赖固有认知或真正抽象出道德原则;同时检测模型是否因微调阶段(如人类反馈强化学习)出现“谄媚”倾向(迎合用户观点而非坚持道德考量)。

2. **道德多维性**:道德决策受道德因素(如动物福利)、非道德因素(如价格、口味)及无关因素(如日期)共同影响,且这些因素的权衡因情境而异(如在家守 kosher 而在外不拘泥)。LLMs对提示词格式、措辞等表面变化敏感(如案例标签从“case 1”换为“A”可能导致相反判断),易受干扰。评估需系统调控道德/非道德因素、控制无关变量,超越简单对错,捕捉合理响应范围。

3. **道德多元性**:不同文化和领域的道德规范差异显著(如医疗伦理与军事规则不同,公平分配的定义因文化而异)。人类只需保持自身价值观一致,而全球部署的LLMs需兼容多种合理道德观。可行方案包括“奥弗顿多元性”(输出特定群体的合理响应集合)和“可调控多元性”(根据价值观调整响应),需开发文化特异性评估工具。

未来需通过对抗性和验证性评估结合,建立科学的道德能力评估标准,为公众提供基于证据的判断依据,推动LLMs负责任地部署与应用。

DOI: 10.1038/s41586-025-10021-1

标签: 大型语言模型 模仿问题 道德多元性 道德能力 道德评估