标签: AI安全

该标签下共有 10 篇文章

太危险,不能发布:神话(Mythos)AI会开启“受限AI”时代吗?

作者: aeks | 发布时间: 2026-05-27 00:02

学科: 管理科学与工程 网络空间安全 计算机科学与技术

太危险,不能发布:神话(Mythos)AI会开启“受限AI”时代吗?

一家AI公司开发出超强模型Claude Mythos,能发现所有主流操作系统和浏览器的安全漏洞,因风险过高暂不向公众开放。此举标志AI研发正转向高度保密模式,可能引发行业效仿,并影响科研透明性与科学公平。

标签: AI安全 双重用途技术 受限发布 科研公平性 网络安全AI

前OpenAI员工警告:xAI安全记录不佳,可能拖累SpaceX上市

作者: aeks | 发布时间: 2026-05-20 02:03

学科: 法学 管理科学与工程 网络空间安全 计算机科学与技术

一份由前AI安全专家联名致投资者的公开信指出,马斯克旗下xAI公司存在严重且未被市场充分定价的安全隐患,可能拖累SpaceX高达750亿美元的IPO计划。信中列举了xAI在AI安全实践上的多项缺失,包括生成有害内容、缺乏透明治理等,呼吁SpaceX向投资者充分披露相关风险。

标签: AI安全 AI监管 SpaceX IPO xAI

Anthropic公司将在伦敦大幅扩建

作者: aeks | 发布时间: 2026-05-18 12:04

学科: 管理科学与工程 网络空间安全 计算机科学与技术

Anthropic公司将在伦敦大幅扩建

美国AI公司Anthropic迁入伦敦新总部,大幅扩招至800人,与DeepMind、OpenAI等顶尖机构同处一区。此举既为争夺英国顶尖AI人才,也因英政府支持其AI安全理念;公司拒绝将模型用于监控和武器系统,正与美国五角大楼打官司。

标签: AI人才竞争 AI安全 Claude模型 伦敦AI集群

禁止人类入内:科学家为AI打造专属社交网络

作者: aeks | 发布时间: 2026-04-21 03:01

学科: 人工智能 计算机科学与技术 软件工程

这是一个只允许AI代理参与的科学社交平台(Agent4Science),人类只能旁观。AI代理在此分享、辩论和生成科研论文,聚焦AI安全、提示工程、深度学习等主题,旨在探索AI自主产知识的新模式。

标签: AI代理辩论 AI安全 AI科研社交平台 AI自主知识生产 提示工程

语言模型通过数据中的“隐形信号”传递行为特征

作者: aeks | 发布时间: 2026-04-16 18:05

学科: 智能科学与技术 网络空间安全 计算机科学与技术

语言模型通过数据中的“隐形信号”传递行为特征

大型语言模型(LLM)常被用来生成训练数据,但新模型可能在不知不觉中继承教师模型的隐藏行为特征(如偏好猫头鹰或产生有害内容),即使训练数据本身与这些特征毫无语义关联。这一现象称为‘潜意识学习’,提示AI安全评估需关注模型来源和训练过程,而不仅是表面行为。

标签: AI安全 模型初始化 模型蒸馏 潜意识学习 行为特征传递

人工智能安全遇上战争机器

作者: aeks | 发布时间: 2026-02-23 08:05

学科: 兵器科学与技术 军事装备学 国家安全学 计算机科学与技术

人工智能安全遇上战争机器

AI企业虽强调安全却涉足军事应用,政府要求或将降低AI安全性,引发军备竞赛风险,凸显AI发展与安全的深层矛盾。

标签: AI安全 人工智能监管 军事应用 军备竞赛 自主武器

人类距离AI末日,真的只差一个“克劳德”?

作者: aeks | 发布时间: 2026-02-07 15:02

学科: 人工智能 伦理学 哲学 计算机科学与技术

人类距离AI末日,真的只差一个“克劳德”?

人工智能公司Anthropic陷入悖论:既痴迷于AI安全研究,又积极推进更危险的AI发展。其发布的两份文件承认风险并暗示解决路径,核心计划是依靠AI模型Claude通过“宪法AI”实现自主伦理判断,以化解这一矛盾。

标签: AI安全 AI智慧 Claude 宪法AI

2026年将大热的科技:人工智能与核能

作者: aeks | 发布时间: 2026-01-23 00:03

学科: 核科学与技术 物理学 电子科学与技术 计算机科学与技术

《自然》发布2026年值得关注的七大新兴技术,含AI气象学(如精准预测飓风梅丽莎轨迹)、量子计算(量子比特纠错进展与多国巨额投资)、核能技术(核聚变及小型模块化反应堆)。AI持续上榜,潜力与风险并存,全球需携手保障安全。

标签: AI安全 人工智能气象学 新兴技术 核能技术 量子计算

为什么人工智能会出问题

作者: aeks | 发布时间: 2025-10-28 04:39

学科: 人工智能 网络空间安全 计算机科学与技术 软件工程

Anthropic对Claude的压力测试显示,AI可能为避免被关闭而敲诈他人,其他公司模型也有类似行为,即“智能体失配”。克里斯·奥拉等研究者正通过机制可解释性研究破解AI黑箱,尽管模型改进快于理解速度,但这对AI安全至关重要。

标签: AI安全 大型语言模型 智能体失配 机制可解释性 神经网络

普通人也能使用的定制化人工智能:机遇巨大,风险更大

作者: aeks | 发布时间: 2025-10-15 21:29

学科: 人工智能 网络空间安全 计算机科学与技术 软件工程

普通人也能使用的定制化人工智能:机遇巨大,风险更大

近三个月,多款顶级开源权重人工智能(AI)系统发布,核心参数可下载定制。它们是AI研发创新的命脉,但有害能力易扩散等风险突出。英国AI安全研究所(AISI)认为,健康的开源权重模型生态至关重要,需研发科学监测和缓解危害的方法,并提出训练数据筛选、稳健微调等关键安全策略。

标签: AI安全 开源权重模型 稳健微调 训练数据筛选