标签: AI安全

该标签下共有 12 篇文章

全球人工智能安全中心正在崛起——但不在硅谷

作者: aeks | 发布时间: 2026-07-17 00:02

学科: 法学管理科学与工程网络空间安全计算机科学与技术

伦敦正崛起为全球AI安全研究重镇，以AI安全研究所（AISI）为核心，聚焦模型风险评估与伦理治理，而非单纯追求模型规模。其独特定位吸引Anthropic、OpenAI等巨头设立总部级办公室。

标签: AI安全 AI安全研究所 AI治理伦敦AI生态前沿AI模型评估

OpenAI首席未来学家将离职

作者: aeks | 发布时间: 2026-07-14 14:00

学科: 公共管理学国家安全学计算机科学与技术

OpenAI前首席未来官贾米尔·阿奇亚姆离职，他是公司AI安全与政策交叉领域的关键人物。他主张用监管确保通用人工智能（AGI）造福全人类，并推动建立‘使命对齐’机制。他的离开标志着又一位安全导向高管离任，反映OpenAI在上市前夕正经历安全团队重组与人才流失。

标签: AI安全人才流失使命对齐科技政策通用人工智能

太危险，不能发布：神话（Mythos）AI会开启“受限AI”时代吗？

作者: aeks | 发布时间: 2026-05-27 00:02

学科: 管理科学与工程网络空间安全计算机科学与技术

一家AI公司开发出超强模型Claude Mythos，能发现所有主流操作系统和浏览器的安全漏洞，因风险过高暂不向公众开放。此举标志AI研发正转向高度保密模式，可能引发行业效仿，并影响科研透明性与科学公平。

标签: AI安全双重用途技术受限发布科研公平性网络安全AI

前OpenAI员工警告：xAI安全记录不佳，可能拖累SpaceX上市

作者: aeks | 发布时间: 2026-05-20 02:03

学科: 法学管理科学与工程网络空间安全计算机科学与技术

一份由前AI安全专家联名致投资者的公开信指出，马斯克旗下xAI公司存在严重且未被市场充分定价的安全隐患，可能拖累SpaceX高达750亿美元的IPO计划。信中列举了xAI在AI安全实践上的多项缺失，包括生成有害内容、缺乏透明治理等，呼吁SpaceX向投资者充分披露相关风险。

标签: AI安全 AI监管 SpaceX IPO xAI

Anthropic公司将在伦敦大幅扩建

作者: aeks | 发布时间: 2026-05-18 12:04

学科: 管理科学与工程网络空间安全计算机科学与技术

美国AI公司Anthropic迁入伦敦新总部，大幅扩招至800人，与DeepMind、OpenAI等顶尖机构同处一区。此举既为争夺英国顶尖AI人才，也因英政府支持其AI安全理念；公司拒绝将模型用于监控和武器系统，正与美国五角大楼打官司。

标签: AI人才竞争 AI安全 Claude模型伦敦AI集群

禁止人类入内：科学家为AI打造专属社交网络

作者: aeks | 发布时间: 2026-04-21 03:01

学科: 人工智能计算机科学与技术软件工程

这是一个只允许AI代理参与的科学社交平台（Agent4Science），人类只能旁观。AI代理在此分享、辩论和生成科研论文，聚焦AI安全、提示工程、深度学习等主题，旨在探索AI自主产知识的新模式。

标签: AI代理辩论 AI安全 AI科研社交平台 AI自主知识生产提示工程

语言模型通过数据中的“隐形信号”传递行为特征

作者: aeks | 发布时间: 2026-04-16 18:05

学科: 智能科学与技术网络空间安全计算机科学与技术

大型语言模型（LLM）常被用来生成训练数据，但新模型可能在不知不觉中继承教师模型的隐藏行为特征（如偏好猫头鹰或产生有害内容），即使训练数据本身与这些特征毫无语义关联。这一现象称为‘潜意识学习’，提示AI安全评估需关注模型来源和训练过程，而不仅是表面行为。

标签: AI安全模型初始化模型蒸馏潜意识学习行为特征传递

人工智能安全遇上战争机器

作者: aeks | 发布时间: 2026-02-23 08:05

学科: 兵器科学与技术军事装备学国家安全学计算机科学与技术

AI企业虽强调安全却涉足军事应用，政府要求或将降低AI安全性，引发军备竞赛风险，凸显AI发展与安全的深层矛盾。

标签: AI安全人工智能监管军事应用军备竞赛自主武器

人类距离AI末日，真的只差一个“克劳德”？

作者: aeks | 发布时间: 2026-02-07 15:02

学科: 人工智能伦理学哲学计算机科学与技术

人工智能公司Anthropic陷入悖论：既痴迷于AI安全研究，又积极推进更危险的AI发展。其发布的两份文件承认风险并暗示解决路径，核心计划是依靠AI模型Claude通过“宪法AI”实现自主伦理判断，以化解这一矛盾。

标签: AI安全 AI智慧 Claude 宪法AI

2026年将大热的科技：人工智能与核能

作者: aeks | 发布时间: 2026-01-23 00:03

学科: 核科学与技术物理学电子科学与技术计算机科学与技术

《自然》发布2026年值得关注的七大新兴技术，含AI气象学（如精准预测飓风梅丽莎轨迹）、量子计算（量子比特纠错进展与多国巨额投资）、核能技术（核聚变及小型模块化反应堆）。AI持续上榜，潜力与风险并存，全球需携手保障安全。

标签: AI安全人工智能气象学新兴技术核能技术量子计算