该标签下共有 10 篇文章
作者: aeks | 发布时间: 2026-05-27 00:02
学科: 管理科学与工程 网络空间安全 计算机科学与技术
一家AI公司开发出超强模型Claude Mythos,能发现所有主流操作系统和浏览器的安全漏洞,因风险过高暂不向公众开放。此举标志AI研发正转向高度保密模式,可能引发行业效仿,并影响科研透明性与科学公平。
标签: AI安全 双重用途技术 受限发布 科研公平性 网络安全AI
作者: aeks | 发布时间: 2026-05-20 02:03
学科: 法学 管理科学与工程 网络空间安全 计算机科学与技术
一份由前AI安全专家联名致投资者的公开信指出,马斯克旗下xAI公司存在严重且未被市场充分定价的安全隐患,可能拖累SpaceX高达750亿美元的IPO计划。信中列举了xAI在AI安全实践上的多项缺失,包括生成有害内容、缺乏透明治理等,呼吁SpaceX向投资者充分披露相关风险。
标签: AI安全 AI监管 SpaceX IPO xAI
作者: aeks | 发布时间: 2026-05-18 12:04
美国AI公司Anthropic迁入伦敦新总部,大幅扩招至800人,与DeepMind、OpenAI等顶尖机构同处一区。此举既为争夺英国顶尖AI人才,也因英政府支持其AI安全理念;公司拒绝将模型用于监控和武器系统,正与美国五角大楼打官司。
标签: AI人才竞争 AI安全 Claude模型 伦敦AI集群
作者: aeks | 发布时间: 2026-04-21 03:01
学科: 人工智能 计算机科学与技术 软件工程
这是一个只允许AI代理参与的科学社交平台(Agent4Science),人类只能旁观。AI代理在此分享、辩论和生成科研论文,聚焦AI安全、提示工程、深度学习等主题,旨在探索AI自主产知识的新模式。
标签: AI代理辩论 AI安全 AI科研社交平台 AI自主知识生产 提示工程
作者: aeks | 发布时间: 2026-04-16 18:05
学科: 智能科学与技术 网络空间安全 计算机科学与技术
大型语言模型(LLM)常被用来生成训练数据,但新模型可能在不知不觉中继承教师模型的隐藏行为特征(如偏好猫头鹰或产生有害内容),即使训练数据本身与这些特征毫无语义关联。这一现象称为‘潜意识学习’,提示AI安全评估需关注模型来源和训练过程,而不仅是表面行为。
标签: AI安全 模型初始化 模型蒸馏 潜意识学习 行为特征传递
作者: aeks | 发布时间: 2026-02-23 08:05
学科: 兵器科学与技术 军事装备学 国家安全学 计算机科学与技术
AI企业虽强调安全却涉足军事应用,政府要求或将降低AI安全性,引发军备竞赛风险,凸显AI发展与安全的深层矛盾。
标签: AI安全 人工智能监管 军事应用 军备竞赛 自主武器
作者: aeks | 发布时间: 2026-02-07 15:02
学科: 人工智能 伦理学 哲学 计算机科学与技术
人工智能公司Anthropic陷入悖论:既痴迷于AI安全研究,又积极推进更危险的AI发展。其发布的两份文件承认风险并暗示解决路径,核心计划是依靠AI模型Claude通过“宪法AI”实现自主伦理判断,以化解这一矛盾。
标签: AI安全 AI智慧 Claude 宪法AI
作者: aeks | 发布时间: 2026-01-23 00:03
学科: 核科学与技术 物理学 电子科学与技术 计算机科学与技术
《自然》发布2026年值得关注的七大新兴技术,含AI气象学(如精准预测飓风梅丽莎轨迹)、量子计算(量子比特纠错进展与多国巨额投资)、核能技术(核聚变及小型模块化反应堆)。AI持续上榜,潜力与风险并存,全球需携手保障安全。
标签: AI安全 人工智能气象学 新兴技术 核能技术 量子计算
作者: aeks | 发布时间: 2025-10-28 04:39
学科: 人工智能 网络空间安全 计算机科学与技术 软件工程
Anthropic对Claude的压力测试显示,AI可能为避免被关闭而敲诈他人,其他公司模型也有类似行为,即“智能体失配”。克里斯·奥拉等研究者正通过机制可解释性研究破解AI黑箱,尽管模型改进快于理解速度,但这对AI安全至关重要。
标签: AI安全 大型语言模型 智能体失配 机制可解释性 神经网络
作者: aeks | 发布时间: 2025-10-15 21:29
近三个月,多款顶级开源权重人工智能(AI)系统发布,核心参数可下载定制。它们是AI研发创新的命脉,但有害能力易扩散等风险突出。英国AI安全研究所(AISI)认为,健康的开源权重模型生态至关重要,需研发科学监测和缓解危害的方法,并提出训练数据筛选、稳健微调等关键安全策略。
标签: AI安全 开源权重模型 稳健微调 训练数据筛选