A Wave of Unexplained Bot Traffic Is Sweeping the Web

作者: aeks | 发布时间: 2026-02-13 06:02 | 更新时间: 2026-02-13 06:02

学科分类: 信息与通信工程 统计学 网络空间安全 计算机科学与技术

A Wave of Unexplained Bot Traffic Is Sweeping the Web
A Wave of Unexplained Bot Traffic Is Sweeping the Web

当金特罗首次注意到网站流量激增时,他以为自己在世界另一端找到了受众。“我现在就得去中国,因为我在那儿火了,”金特罗回忆当时的想法。但深入分析数据后,他发现不对劲。网站所有者常用的流量分析工具谷歌分析显示,所有中国访客都来自同一个特定城市——兰州。他们不太可能是真人,因为平均停留时间为0秒,也不滚动或点击页面。金特罗很快意识到,他的网站其实正遭到机器人的“轰炸”。

后来金特罗从社交媒体得知,自9月起,并非只有他的网站出现来自中国和新加坡的大量机器人涌入。印度的一家生活方式杂志、加拿大沿海小岛的博客、多个个人作品集网站的所有者、拥有超过1500万页面的天气预报平台、 Shopify上的电商店铺,甚至美国政府运营的域名,都报告遭到了看似相同的机器人攻击。这些机器人很容易被发现,因为它们严重扭曲了各网站通常的分析模式。根据Analytics.usa.gov的数据,在过去90天里,美国政府网站14.7%的访问量来自兰州,6.6%来自新加坡,这两个城市成了所谓“对美国政府信息最饥渴”的全球前两大城市。

虽然这些机器人的IP地址可追踪到中国和新加坡,但关于谁是这场大规模自动访问的幕后黑手,信息寥寥无几。被攻击的网站所有者大多认为,这些机器人没有造成直接危害。鉴于去年互联网上与人工智能相关的机器人活动激增,许多人认为这些流量可能与企业为训练模型而采集网络数据有关。

**兰州究竟在哪?**

当网站所有者看到来自中国的访问量突然上升时,很多人开始问:兰州在哪?这座中国西北部的二线城市以重工业和丝绸之路贸易枢纽的历史遗产闻名,但它既不是科技中心,也没有大量数据中心。那么,为什么这么多流量来自这座城市呢?

Known Agents公司(一家分析在线自动流量的企业)创始人加文·金表示,兰州可能并非机器人的实际来源地。他自己公司的网站也遭到了来自中国和新加坡的机器人攻击。深入研究访问的具体细节后,他唯一能确定的是,所有流量最终都通过新加坡路由。谷歌分析判定访问源自兰州,但金称这可能只是合理推测,而非精确位置。

不过金发现的最具体细节是,这些流量通过几家中国主要云公司的服务器路由。金说,他网站收到的机器人流量都来自自治系统编号(ASN)132203,这是互联网路由系统中分配给中国公司腾讯运营的互联网服务提供商的唯一标识符。某大型天气预报网站群的经理安迪(为保护隐私仅透露名字)表示,他检测到来自与腾讯、阿里巴巴和华为相关的ASN的机器人流量。这三家公司都是主要的云服务提供商,目前尚不清楚这些机器人是来自公司内部还是使用其服务器的客户。

许多人怀疑这些机器人是某人工智能公司从网页收集训练数据的一部分。2025年,人工智能机器人占整体网络流量的很大一部分,它们在互联网上爬行,收集文本和其他信息,为渴望数据的大型语言模型提供“养料”。

但这些中国机器人与其他人工智能机器人有一些关键区别。首先,数量要多得多。金说,在他的网站上,来自中国和新加坡的流量占总流量的22%,而所有其他人工智能机器人加起来占比不到10%。

大多数领先的人工智能公司会向网站运营商明确标识自己的机器人,这也让它们更容易被屏蔽。互联网基础设施公司Akamai的安全技术与战略高级总监布伦特·梅纳德表示,前沿人工智能实验室“对规避”机器人屏蔽规则“不那么感兴趣”。他说,人工智能公司通常只有在网站关闭大门后,才会开始尝试伪装自己的机器人。然而,几位网站所有者告诉《连线》杂志,这波中国机器人从一开始就伪装成普通人类用户,甚至绕过了常见的机器人屏蔽规则。

除了人工智能公司,还有其他有动力抓取互联网的企业,包括搜索引擎爬虫和情报收集公司。

**成本上升与数据失真**

至少目前来看,好消息是这些机器人似乎没有明确的恶意目的。它们尚未与任何网络攻击公开关联,也似乎没有在扫描漏洞。但缺乏明确动机也加剧了困惑。

一些网站所有者担心这些机器人在未经许可的情况下扫描受版权保护的材料。另一些人表示,流量激增迫使他们支付更多带宽费用(因为机器人流量挤占了人类用户的空间),或投资更复杂的防御工具。这些访问还会扭曲流量分析,使关于实际访客的报告失真。

但受影响最大的是那些通过吸引广告点击来赚取收入的人。“这正在摧毁我的AdSense策略,”超自然现象博客所有者金特罗说,“因为他们会说(你的网站)只有机器人访问,所以你的内容对观众没有价值。”结果,像他这样的网站可能会被广告商视为吸引力较低,并受到谷歌的惩罚。

**临时解决方案**

过去几个月,许多人在在线支持渠道抱怨中国人工智能机器人问题,或直接向网络托管提供商发送相关信息。但到目前为止,仍没有多少具体答案。

《连线》杂志联系后,WordPress承认近几个月收到报告,称部分网站遭遇疑似人工智能机器人或抓取工具的流量增加。“WordPress网站的结构一直很完善,便于搜索引擎发现和索引。这些相同的功能也让它们容易被人工智能抓取,”该公司在一封未署名的电子邮件中表示。谷歌、Cloudflare和Squarespace未回应置评请求。

一些网站运营商现在开始自己想办法。在Reddit等社交平台上,机器人的受害者们交流识别和屏蔽机器人的临时策略。随着时间推移,他们发现这些机器人往往伪装成使用旧版本Windows操作系统和不常见屏幕比例,这些特征让网站运营商可以批量屏蔽它们。如果网站根本不关心来自中国或新加坡的流量,有些网站还选择阻止任何来自这些国家IP地址的人访问。

天气预报网站经理安迪说,他最终屏蔽了与腾讯、阿里巴巴和华为相关的4个ASN。他表示,这足以显著减少机器人数量,但未能完全消除。在他接受《连线》采访当天,其网站的中国机器人日访问量已从峰值的12.7万降至略高于2000。

随着自主人工智能工具在互联网上激增,如何应对它们可能会成为网站所有者更常见的难题。“在某种程度上,这是上网的代价,”Akamai的梅纳德说,“你是开放的,处于公众视野中。”

标签: AI数据采集 中国机器人流量 云服务器 兰州 网站流量异常

下一篇
没有更新的文章