AI机器人已成为网络流量的重要来源

作者: aeks | 发布时间: 2026-02-04 22:02 | 更新时间: 2026-02-04 22:02

一份衡量网络机器人活动的新报告，以及互联网基础设施公司Akamai与《连线》杂志分享的相关数据显示，AI机器人已在网络流量中占据可观份额。研究结果还揭示了一场日益复杂的“军备竞赛”正在展开——机器人采用巧妙策略，试图绕过旨在阻止它们进入的网站防御措施。

“未来互联网的大部分流量将是机器人流量，”追踪网络抓取活动并发布这份新报告的TollBit公司联合创始人兼首席执行官托希特·潘格拉希表示，“这不仅仅是版权问题，互联网上正出现一种新的‘访客’。”

大多数大型网站都试图限制机器人可抓取的内容，以防这些内容被用于AI系统的训练（《连线》的母公司康泰纳仕以及其他出版商目前正因涉嫌AI训练相关的版权侵权问题起诉多家AI公司）。

但另一种与AI相关的网站抓取行为如今也在增加。许多聊天机器人和其他AI工具现在可以从网络上获取实时信息，用其补充和改进输出内容，比如最新的产品价格、影院排片表或最新新闻摘要。

Akamai的数据显示，自去年7月以来，与训练相关的机器人流量稳步上升。与此同时，全球范围内为AI代理抓取网络内容的机器人活动也在增加。

“AI正在改变我们所熟知的网络，”Akamai首席技术官罗伯特·布鲁莫菲告诉《连线》，“随之而来的军备竞赛将决定网络的未来面貌、触感、功能，以及商业运作的基本方式。”

TollBit估计，在2025年第四季度，其客户网站平均每50次访问中就有1次来自AI抓取机器人；而2025年第一季度这一比例仅为每200次1次。该公司表示，第四季度超过13%的机器人请求绕过了robots.txt文件（部分网站用它来指示哪些页面机器人不应访问）。TollBit称，从去年第二季度到第四季度，无视robots.txt的AI机器人比例增长了400%。

TollBit还报告称，过去一年试图阻止AI机器人的网站数量增加了336%。潘格拉希表示，随着网站试图控制机器人访问内容的方式，抓取技术也越来越复杂。一些机器人通过伪装流量使其看起来像是来自普通网络浏览器，或发送模拟人类正常与网站交互方式的请求。TollBit的研究指出，一些AI代理的行为现在几乎与人类网络流量无法区分。

TollBit销售的工具可让网站所有者向访问其内容的AI抓取者收费，Cloudflare等其他公司也提供类似工具。“任何依赖人类网络流量的主体——从出版商开始，但基本上包括所有人——都将受到影响，”潘格拉希说，“需要一种更快的方式来实现机器间的程序化价值交换。”

《连线》试图联系TollBit报告中提到的15家AI抓取公司征求意见，大多数公司未回应或无法联系到。有几家表示，其AI系统旨在尊重网站为限制抓取而设置的技术边界，但指出这些限制往往复杂且难以遵循。

全球最大的网络抓取公司之一Bright Data的首席执行官奥里·莱希纳表示，该公司的机器人不收集非公开信息。Bright Data此前曾被Meta和X起诉，称其不当抓取平台内容（Meta后来撤诉，加利福尼亚州一名联邦法官驳回了X提起的诉讼）。

另一家被提及的公司ScrapingBee的发言人卡罗利斯·斯塔休莱维丘斯告诉《连线》：“ScrapingBee遵循互联网的核心原则之一：开放网络旨在供人访问。公开网页在设计上本就可供人类和机器读取。”

另一家抓取公司Oxylabs在一份未署名声明中表示，其机器人“不会访问登录墙、付费墙或需认证后方可查看的内容。我们要求客户仅将我们的服务用于访问公开信息，并在整个平台执行合规标准。”

Oxylabs补充说，企业抓取网络内容有许多正当理由，包括网络安全目的和调查性新闻报道。该公司还称，一些网站使用的反制措施并未区分不同使用场景：“现实情况是，许多现代反机器人系统无法很好地区分恶意流量和合法的自动化访问。”

除了给出版商带来困扰，网络抓取“战争”也创造了新的商业机会。TollBit的报告发现，目前有40多家公司在销售可收集网络内容用于AI训练或其他目的的机器人。AI驱动的搜索引擎以及OpenClaw等工具的兴起，可能正在推动对这些服务的需求。

一些公司承诺帮助企业向AI代理展示内容，而非试图阻止它们，这种策略被称为生成式引擎优化（GEO）。“我们实际上正看到一种新营销渠道的崛起，”Brandlight公司（该公司优化内容以使其在AI工具中突出显示）的首席商务官乌里·加夫尼说。

“这种趋势在2026年只会加剧，我们将看到它作为一种全面的营销渠道推出，搜索、广告、媒体和商业将融合在一起。”加夫尼表示。