研究发现：ChatGPT 经常把科学知识说错，比你想象的还多

作者: aeks | 发布时间: 2026-03-22 14:02 | 更新时间: 2026-03-22 14:02

本研究由华盛顿州立大学卡森商学院市场营销与国际商务系副教授Cicek领衔，联合南伊利诺伊大学、罗格斯大学和东北大学学者共同完成。团队从2021年以来的商业类学术期刊中筛选出719个科学假设，逐一让ChatGPT判断其‘真’或‘假’。为检验稳定性，每个问题重复提问10次。2024年使用ChatGPT-3.5免费版，正确率为76.5%；2025年升级至ChatGPT-5 mini后略升至80%。但若扣除随机猜测（50%基础概率）的影响，AI的实际优势仅比碰运气高约60%，相当于勉强及格水平。更关键的是，AI在识别‘错误陈述’时表现极差，准确率仅16.4%；且答案高度不稳定——同一问题问10次，平均只有约7.3次回答一致，甚至出现5次答‘真’、5次答‘假’的情况。研究指出，当前大语言模型缺乏真正理解，本质是靠海量文本记忆与模式匹配生成看似合理实则可能错误的回答，并不具备人类式的概念推理与因果判断能力。作者强调，这并非否定AI价值，而是呼吁各界（尤其是企业管理者）对AI输出保持审慎：必须人工核查、加强AI素养培训，切勿盲目依赖。该结论与此前多项研究呼应——例如2024年一项全国调查显示，过度强调‘AI驱动’反而降低消费者购买意愿。正如Cicek所言：‘我本人就在用AI，但永远要保持怀疑；不是反对技术，而是必须格外小心。’

标签: AI一致性测试 AI表面流畅性与真实理解人工智能可靠性商业决策中的AI风险