互联网上最强大的“时光机”正面临危机

作者: aeks | 发布时间: 2026-04-13 22:01 | 更新时间: 2026-04-13 22:01

学科分类: 新闻传播学 法学 计算机科学与技术

本文探讨了多家主流新闻机构限制互联网档案馆(Internet Archive)旗下‘时光机’(Wayback Machine)对其网站进行存档的现象。包括《今日美国》公司、《纽约时报》、《卫报》和Reddit在内的23家大型新闻网站已屏蔽或限制该工具的网络爬虫(ia_archiverbot)。《今日美国》称此举是为防范各类数据抓取机器人,并非专门针对互联网档案馆;《卫报》虽未直接屏蔽爬虫,却通过API屏蔽和界面过滤,使普通用户难以访问其存档文章。双方争议核心在于:出版方担忧AI企业可能未经许可,利用为保存目的而采集的新闻内容训练大模型,涉嫌侵犯版权——《纽约时报》明确表示其内容正被AI公司违规用于与其直接竞争。尽管互联网档案馆已运营30年,存档超万亿网页,并成功应对多起法律诉讼(如近期与音乐出版商就‘伟大78转’项目达成和解),但持续扩大的‘封锁潮’正严重削弱其公共使命。目前尚无其他公开工具可替代‘时光机’;若主流新闻源持续流失,早期数字新闻记录或将难以检索甚至永久消失。现实中,该工具早已成为监督 journalism 的关键基础设施:2016年《纽约时报》修改伯尼·桑德斯报道一事,正是靠‘时光机’首次被公众发现并追踪;如今类似事件若再发生,调查记者将更难还原原始文本。此外,法院在全美大量诉讼中常将‘时光机’存档页面作为有效证据,其功能弱化也将损害司法公正。互联网档案馆负责人马克·格雷厄姆坦言,虽仍在与《纽约时报》等机构沟通协商,但公共网络日益‘封闭化’已切实削弱社会理解现实的能力。

标签: AI训练数据 互联网档案馆 数字新闻保存 新闻存档 时光机