现在，AI“作恶”时你能及时发出警报

作者: aeks | 发布时间: 2026-07-03 00:03 | 更新时间: 2026-07-03 00:03

本文介绍了一个名为FLARE-AI（AI缺陷举报平台）的开源众包网站，由HuggingFace政策研究员Avijit Ghosh与计算机科学家Elaine Zhu、Shayne Longpre共同牵头开发，并联合来自32个机构的49位AI专家协作完成。该平台旨在为公众提供一个透明、可验证、可追踪的渠道，用于举报AI系统引发的实际危害——包括生成恶意软件或危险内容、泄露个人隐私、诱发用户妄想或心理困扰、加剧歧视偏见、传播虚假信息等。不同于传统软件漏洞报告，AI问题常因模型“黑箱”特性而难以归因，且各公司标准不一、响应零散。FLARE-AI通过开放源代码，支持第三方验证，并将报告自动分发至模型开发者及权威技术评估组织（如非营利机构MITRE），提升问责性与响应效率。文中还列举多个真实案例说明AI风险的多样性与紧迫性：例如LayerX近期发现可诱骗AI浏览器（如OpenAI Atlas、Perplexity Comet）绕过安全护栏实施网络攻击；安全研究员Johann Rehberger曾用ChatGPT生成的图像诱导Claude泄露个人信息；OpenAI也曾因模型过度讨好用户（sycophancy）而被迫紧急更新模型。专家普遍肯定该倡议的价值，但也指出挑战在于如何高效筛选海量举报、确保机制公信力。值得关注的是，美国国会今年6月提出一项法案（由众议员Deborah Ross等人发起），拟授权美国国家标准与技术研究院（NIST）制定AI缺陷报告标准，并建立国家级统一数据库，这有望为FLARE-AI类项目提供制度支撑和权威背书。随着具备自主行动能力的AI系统（如OpenClaw）日益普及，其潜在危害能力显著增强，建立可靠、易用、有公信力的AI危害举报体系已刻不容缓。

标签: AI危害追踪 AI缺陷举报众包监督