人工智能网络爬虫对所有内容的无休止渴求正在摧毁网站
当以 Meta(占人工智能搜索机器人流量的 52%)、谷歌(23%)和 OpenAI(20%)为首的人工智能搜索机器人在一次激增中以高达 30 太比特的速度攻击网站时,它们甚至会损害最大公司的网站性能。
随着人工智能的崛起,人工智能网络爬虫正在对网络进行无休止的剥离式挖掘,以获取更多的内容输入其大语言模型(LLM)工厂。它们的流量有多大?据大型内容分发网络(CDN)公司Cloudflare称,目前全球网络流量的30%来自机器人。 领先并快速增长?人工智能机器人。
云服务公司 Fastly 对此表示赞同。它报告说,80% 的人工智能机器人流量来自人工智能数据获取机器人。 那么,你会问:”问题出在哪里?自 1993 年World Wide Web Wanderer出现以来,网络爬虫不是一直存在吗?” 是的,它们已经存在了。不过,任何经营网站的人都知道,老式爬虫和如今的人工智能爬虫之间存在着巨大的差异。新型爬虫是网站杀手。
Fastly 警告说,它们正在导致 “性能下降、服务中断和运营成本增加”。为什么?因为它们正在用流量峰值锤击网站,在几分钟内就能达到正常水平的十倍甚至二十倍。
此外,人工智能爬虫比标准爬虫更具攻击性。正如InMotionhosting虚拟主机公司所指出的,它们还往往无视抓取延迟或带宽节省准则,提取完整的页面文本,有时还试图跟踪动态链接或脚本。
结果如何?如果您的网站使用的是共享服务器,就像许多小型企业一样,即使您的网站没有因为内容而被攻击,但使用相同网络管道的相同硬件上的其他网站也可能会受到攻击。这意味着,即使人工智能爬虫没有攻击你的网站,你的网站性能也会一落千丈。
像我自己的Practical Tech这样的小型网站就会受到严重冲击,以至于无法提供服务。多亏了Cloudflare 分布式拒绝服务(DDoS)保护,我的微型网站才能躲过 DDoS 攻击。而人工智能机器人攻击–面对现实吧,它们就是攻击–就不行了。
即使是大型网站也感受到了压力。为了应对负载,他们必须增加处理器、内存和网络资源。如果不这样做呢?根据大多数虚拟主机公司的数据,如果一个网站的加载时间超过 3 秒,超过一半的访问者会放弃该网站。每超过一秒,跳出率就会猛增。
因此,当以 Meta(占人工智能搜索机器人流量的 52%)、谷歌(23%)和 OpenAI(20%)为首的人工智能搜索机器人在一次激增中以高达 30 太比特的速度攻击网站时,它们甚至会损害最大公司的网站性能。
现在,如果这是我可以盈利的流量,那是一回事。但事实并非如此。以前,当搜索索引爬虫–Googlebot–来的时候,我总是希望我网站上的一些故事能出现在某人搜索结果的神奇首页上,这样他们就会访问我,阅读我的故事,然后在一百次访问中,有两三次他们会点击广告,我就能得到几分钱的收入。或者,如果我有一个商业网站,我可能会卖一个小工具,或者让别人跟我做生意。
人工智能搜索机器人?就没那么简单了。人工智能爬虫不会引导用户回到原始来源。它们把我们的网站踢来踢去,什么也不返回,而我们只能想办法在人工智能驱动的网络世界里谋生。
当然,我们可以尝试用登录、付费墙、验证码挑战和复杂的反机器人技术来抵御它们。你知道人工智能擅长什么吗?那就是绕过这些墙。
至于 robots.txt 文件,这种阻止爬虫的老式方法?许多–大多数?- 人工智能爬虫会直接忽略它们。
例如,Perplexity 曾被 Cloudflare 指责忽略 robots.txt 文件。而Perplexity则矢口否认这一指控。 我?我只知道我经常看到多家公司的人工智能机器人袭击我的网站。
人们正在努力用llms.txt 文件来补充 robots.txt。这是一个拟议的标准,目的是提供大语言模型(LLMs) 可以访问的友好内容,而不影响网站的性能。不过,并不是每个人都对这种方法感到满意,而且这种方法也可能会无疾而终。
与此同时,为了打击过度爬行,一些基础设施提供商,如Cloudflare,现在提供默认的僵尸拦截服务,以阻止人工智能爬虫,并提供阻止人工智能公司访问其数据的机制。其他程序,如流行的开源免费Anubis人工智能爬虫拦截器,只是试图将它们的访问速度减慢到–请原谅我的说法–爬行。
在所有企业及其网站与人工智能公司之间的军备竞赛中,它们最终会达成某种中立。不幸的是,网络将比以往更加分散。网站将进一步限制访问或将访问货币化。重要、准确的信息最终将被屏蔽或完全删除。
还记得开放的网络吗?我记得。我可以在互联网上看到我们的孩子,在那里你必须支付现金才能访问几乎任何东西。我认为没有人想要一个巴尔干化的互联网,但我担心这正是我们要去的地方。
小规模系统管理员之外的人真的无法理解这个问题的严重性。
我经营着一家规模不大但不断发展壮大的精品托管基础设施公司,主要服务机构客户。最近,人工智能机器人爬虫的问题越来越严重,我再也不能视而不见了。
一边是那些绝对拥有工程技术人才和资源但却没有把事情做好的公司的爬虫,另一边是客户被告知只需建好就可以不用管的资源繁重的 WordPress 安装。我无法管理他们的 robots.txt 文件;与此同时,每个页面的加载都需要 1 秒钟的往返时间(其中大部分时间都花在 MySQL 上),大约有 6 个不同的、攻击性相当强的人工智能机器人,偶尔它们会卡在某个网站的产品变体或分类页面上,并开始以 1r/s 的速度进行攻击。
网站上有一个隐形缓存层,可以很好地处理图片等内容,因此这并不是带宽问题。机器人甚至不经常请求图片和其他页面资源;它们只是在做成吨成吨的页面请求,而每个请求都会占用某个数据库。
累积起来,几乎每天都有网站被 Slashdotted。
我终于开始在nginx上过滤掉大部分僵尸和爬虫流量,然后再将其传递给WP容器。我花了不少时间从日志中抽取流量样本,粗略估计,目前大约有 5% 的网站流量来自真正的人类。这太疯狂了。
我刚刚完成了解决这个问题的第一轮工作,但这只是争取了一点时间。现在,我得组建一个 IP 情报系统,因为这些公司显然不会接受 “403 ”这个答案。
如果有帮助的话,GitHub 上有一些基于 ASN 的 DROP 列表集。
哦,我还真没想到。是的,我可以把它加入到 ipset 中。你觉得哪个特别可靠?
我觉得 Spamhaus 运行的是大的那个。
难道不能在应用程序前使用 fail2ban 规则、某种按会话计算的 429 过多请求配额来解决这个问题吗?或者爬虫是否匿名/来自不同的 IP 地址?
是的,这就是 IP 情报的作用。他们使用的是相当大的 IP 池,因此,要么你整天手动将单个 IP 添加到一个列表中(并随着 ASN 的不断变化而更新该列表),要么你在后台有一个进程,该进程本质上是进行 whois 查询(并对其进行缓存,这样你就不会滥用),解析返回的元数据,并决定该请求是否 “正常”。
经典的 80/20 规则适用于此。通过这种方法,你可以很容易地捕捉到大约 80% 的懒惰爬虫活动,但剩下的 20% 则需要付出更多的努力。你会开始遇到一些边缘情况,比如爬虫使用 AWS 进行爬行活动,但同时你的某个客户正在通过一个也在 AWS 上运行的流程,将他们的 WooCommerce 订单同步到他们的内部 ERP 系统。
我曾经遇到过爬虫在搜索页面上陷入循环的情况,在这种情况下,即使没有搜索结果,你也可以继续添加内容。我过滤了可以确定是僵尸的请求(指定的请求早已超过了任何结果的范围)。有超过一百万个独立 IP,其中大部分只做了 1 或 2 次请求(来自许多不同的 IP 地址块)
它们分散在许多不同的 IP 块中
它叫阿努比斯。
Anubis 屏蔽了所有拥有奇数处理器的手机,例如许多 Pixel 手机。
这不是显示动漫人物的那个吗?还是 Anubis 是不显示动漫人物的 “专业 ”版本?
是的,那就是阿努比斯。是的,花钱就可以不显示动漫猫女。
真是天才。
老实说,阿努比斯的动漫吉祥物越惹人讨厌,我就越喜欢。
这样做的目的是给机器人制造麻烦,而不是惹恼网站的访客。我尊重开发者的选择,他们可以随意使用自己开发的软件并免费提供。动漫是一种两极分化的格式,其原因超出了本次讨论的范围。这绝对说明了开发者的很多问题
动漫只对极少数人 “两极分化”。大多数人不会在意。没有人应该在乎,这只是一个可爱的吉祥物形象。
> 与此同时,每个页面的加载可能需要 1 秒的往返时间(其中大部分时间花在 MySQL 上)
只要用户没有登录,这些响应就不能被反向代理缓存吗?
他们可能不会重复抓取同一个页面,而要缓存足够长的页面以便在两次抓取之间持续显示,就需要仔细考虑并与客户协商(例如,如果客户希望他们的博客文章快速显示,或希望出现 “特卖 ”横幅等)。
从另一个角度来看,向数据库投入更多资源或对其进行清理可能会更容易一些。我无法想象数据库查询要花费整整一秒钟的时间是怎么回事,但我也不太使用 WP。
我上次使用 WP 已经是几年前的事了。但性能问题是因为他们将大量数据存储在键值存储中,而不是存储在具有固定列的表中。
这可能会导致在数据库中出现大量的单个行点击,而在任何正常系统中,这只是一个 0.1 毫秒(通常更快)的数据库请求。
实际上,任何以 1r/s 的速度进行 SEQUENCIALLY 刮擦的网络刮擦程序都是行为良好的非侵入式刮擦程序。只是,WP 在性能方面一般都比较差。
如果你想看看一个糟糕的刮擦程序在几乎没有限制的并行请求下会做什么,那么WP就会在没有任何挣扎的情况下倒下。但是,每个人都想使用 WP,现在压力大了,这些鸭子就要回家了。
这是 WP 核心还是插件的结果?如果你随口就能说出来,我也不需要知道坏到值得深究的地步。
> 任何以 1r/s 的速度 SEQUENCIALLY 刮擦的网络刮擦程序实际上都是行为良好、无干扰的刮擦程序。
我认为还有改进的余地,但我明白你的意思。我认为一个 “理想的 ”机器人会根据响应时间来确定 QPS,如果 QPS 升高了就会停止,但 “任何网站都应该能够处理 1 QPS 而不会翻转 ”的说法也不无道理。
> 只是,WP 的性能一般都很高。
WP 遭到了很多人的憎恨,其中很多都是罪有应得,但我真的不认为我可以做得更好,因为我需要用一个插件系统来支持一个通常不懂技术的用户群,而这个插件系统基本上可以让不同素质的开发人员做任意的事情。
> 但是每个人都想使用 WP,现在这些鸭子要回家了,压力更大了。
这其实是一个有趣的问题,我确实想知道 WP 用户是否在这些投诉中占了过多的比例,以及是否存在潜在的解决方案。如果可以检测到人工智能搜刮器,你就可以为他们提供缓存时间更长的内容,因为我怀疑任何一方都不在乎时间敏感性内容(如闪购)。
> 这是 WP 核心还是插件的结果?
所有因素的综合… 考虑到我上次使用 PHP 和 wordpress 已经是 8 年前的事了,所以也许情况有所改善,但我对此表示怀疑,因为有些问题是结构性的。
* PHP 是一种 “一烧了之 ”的编程语言。因此,无论何时发出请求,数据都不会持久保存(除非卸载到外部缓存服务器)。这就导致了 PHP 代码的完全重新渲染。
* 然后,我们还有 WP 核心,它在调用数据库时并不小心。他们在键/值系统中存储数据的方式确实损害了性能。请记住我上面所说的关于 PHP 的内容… 因此,如果您的设计很繁重,而您的语言又需要重做所有调用,那么您就需要重新设计。
WP 的问题在于它的设计已经有 25 年历史了。它之所以广受欢迎,是因为它是免费的,而且你可以用插件来扩展它。但正是这种插件系统,使得 WP 开发人员很难真正解决性能问题,因为破坏大量插件往往会导致失去市场份额。
随着网络流量的增加,PHP 的性能在过去几年里提高了 3 倍,再加上服务器硬件本身的速度越来越快,这才是 WP 能够幸存下来的主要原因。此外,WP 的缓存插件的存在也起到了帮助作用。
但现在,正如你已经注意到的那样,当大量被动或主动的刮擦者攻击 WP 网站时,作为保持 WP 网站正常运行的主要保护层的缓存插件就无法处理这种情况了。因为刮擦程序会攻击每个页面,甚至是非流行/存档/……且通常不会被缓存的页面。因为这些非热门页面会受到攻击,这就显示了 WP 的根本弱点。
唯一能稍微处理这种行为的方法(除了阻止刮擦者之外),就是大量增加数据库内存限制,这样就不会不断地进行交换。在实际的 WP 缓存扩展中增加页面缓存,这样就能在内存中保留更多内容。您可能还在考虑增加服务器可以加载的 PHP 实例数量,以及更多的数据库…
但前提是你能控制你的 WP 托管环境。而那些经常托管 10 万或数百万网站的公司,并不愿意为这个问题投入大量资金。他们更希望你 “升级 ”到更昂贵的套餐,但这只能部分缓解问题。
总的来说,每个人都很沮丧…… 数据搜刮的数量只会越来越多。
尤其是现在大语言模型(LLM) 可以使用工具,比如他们可以自己在互联网上搜索信息。这将导致来自大语言模型(LLMs) 的数以千万计的请求。如果有人搜索 cookie 请求,可能会在一秒钟内点击几十个页面,而过去的普通用户会先进行谷歌搜索(点击谷歌缓存),然后才打开一个页面,……如果不是他们想要的,就会回到其他地方。在 5 或 10 分钟的时间内,可能会在多个网站上收到 10 个请求,而现在每秒会收到几十个并行请求。
大语言模型(LLMs)是很好的搜索引擎,但随着技术向消费级硬件发展,你会发现情况只会越来越糟。
解决方案是对许多网站进行根本性的改造。多年前,我放弃了 PHP,最终选择了 Go,其中一个主要原因是,即使在那个时候,我们也已经达到了极限。这也是 Facebook 开发 Hack(带有持久性和其他优化功能的 PHP)的原因之一。你能渲染完整页面的日子,只是在浪费性能。不能内部缓存数据的日子……你懂的。
> 这实际上是一个有趣的问题,我想知道 WP 用户在这些投诉中是否占了很大比例,以及是否有潜在的解决方案。如果可以检测到人工智能搜刮器,你就可以为他们提供缓存更长时间的内容,因为我怀疑任何一方都不关心时间敏感的内容(比如闪购)。
问题不在于缓存内容,而在于它们会获取你数据库中的所有数据。他们不会关心你的文章是否来自 1999 年。
解决这个问题的唯一办法就是在每个网站上都设置 API 端点,让搜刮者可以直接获取数据库中的数据(这样就不需要渲染完整的页面),而且他们还可以获取 /api/articles/latest-changed 或类似的数据。
而这一切的前提是整个行业已经实现了标准化。因为如果不是这样,搜刮者就更容易搜索到所有页面。
提示:我用 Go 语言编写了自己的搜刮程序,使用双核 VPS,月租 3 欧元,每秒可完成 10.000 次搜刮(我们说的是直接搜刮,而不是通过浏览器处理 JS 检测)。
现在,你想猜猜如果我让 WP 任意运行,你的 WP 服务器的资源使用情况吗?) 你可能要多花 10 到 50 倍的钱,才能养活我的 scraper,而我又不会让你的网站瘫痪。
现在,我是否每秒请求 10.000 次?不… 因为每个网站 1r/s 仍然是每天 86400 次页面点击。此外,我还结合实际情况,查找有 “最新 xxxx ”的网站,并缓存这些内容。我知道我只需要每 24 小时清除 X 数量的新页面。因此,我花了一到三个月的时间来进行一些大型网站的搜刮,后来你甚至看不到我了,因为我只做页面更新。
但这需要努力!你需要为每个网站都设计这样的功能,有些网站没有任何好的位置可以让你以低资源挂钩 “是否有新内容”。
我甚至还没有提到那些积极尝试增加搜索难度的网站(比如不断更改标签、在渲染时使用动态 HTML 块、屏蔽 js、强制使用验证码),但具有讽刺意味的是,这对他们的伤害更大,因为这可能会导致对其网站的全面重新搜索。
因此,具有讽刺意味的是,对于不那么肆无忌惮的刮擦者来说,最简单的解决方案就是简单地将资源投入到这个问题上。你只需使用傻瓜式搜索器对找到的每个页面链接进行重新抓取,然后与本地缓存校验和进行比较,然后更新抓取页面的结果,何必在每个网站上都费心费力地 “是否有新东西 ”呢?然后,你就会遇到那些对网站进行 ddos 攻击的过激搜刮器。再加上一半的互联网都是 WP 网站 +lol+
可刮除的资源量非常小,你越是试图阻止刮除者,你就越会妨碍你自己的客户/合法用户。
再说一遍,这只是我为一些小说/漫画网站进行的私人使用/数据囤积刮擦。大公司可以访问完整的 IP 区块,可以使用家庭 IP(因为有些网站会检测你是来自数据中心租用的 IP 还是家庭 ISP IP),拥有更多可用资源。
但前提是你能控制你的 WP 托管环境。而那些经常托管 10 万或数百万网站的公司,并不愿意为这个问题投入大量资金。他们更希望你 “升级 ”到更昂贵的套餐,但这只能部分缓解问题。
总的来说,每个人都很沮丧…… 数据搜刮的数量只会越来越多。
尤其是现在大语言模型(LLM) 可以使用工具,比如他们可以自己在互联网上搜索信息。这将导致来自大语言模型(LLMs) 的数以千万计的请求。如果有人搜索 cookie 请求,可能会在一秒钟内点击几十个页面,而过去的普通用户会先进行谷歌搜索(点击谷歌缓存),然后才打开一个页面,……如果不是他们想要的,就会回到其他地方。在 5 或 10 分钟的时间内,可能会在多个网站上收到 10 个请求,而现在每秒会收到几十个并行请求。
大语言模型(LLMs)是很好的搜索引擎,但随着技术向消费级硬件发展,你会发现情况只会越来越糟。
解决方案是对许多网站进行根本性的改造。多年前,我放弃了 PHP,最终选择了 Go,其中一个主要原因是,即使在那个时候,我们也已经达到了极限。这也是 Facebook 开发 Hack(带有持久性和其他优化功能的 PHP)的原因之一。你能渲染完整页面的日子,只是在浪费性能。不能内部缓存数据的日子……你懂的。
> 这实际上是一个有趣的问题,我想知道 WP 用户在这些投诉中是否占了很大比例,以及是否有潜在的解决方案。如果可以检测到人工智能搜刮器,你就可以为他们提供缓存更长时间的内容,因为我怀疑任何一方都不关心时间敏感的内容(比如闪购)。
问题不在于缓存内容,而在于它们会获取你数据库中的所有数据。他们不会关心你的文章是否来自 1999 年。
解决这个问题的唯一办法就是在每个网站上都设置 API 端点,让搜刮者可以直接获取数据库中的数据(这样就不需要渲染完整的页面),而且他们还可以获取 /api/articles/latest-changed 或类似的数据。
而这一切的前提是整个行业已经实现了标准化。因为如果不是这样,搜刮者就更容易搜索到所有页面。
提示:我用 Go 语言编写了自己的搜刮程序,使用双核 VPS,月租 3 欧元,每秒可完成 10.000 次搜刮(我们说的是直接搜刮,而不是通过浏览器处理 JS 检测)。
现在,你想猜猜如果我让 WP 任意运行,你的 WP 服务器的资源使用情况吗?) 你可能要多花 10 到 50 倍的钱,才能养活我的 scraper,而我又不会让你的网站瘫痪。
现在,我是否每秒请求 10.000 次?不… 因为每个网站 1r/s 仍然是每天 86400 次页面点击。此外,我还结合实际情况,查找有 “最新 xxxx ”的网站,并缓存这些内容。我知道我只需要每 24 小时清除 X 数量的新页面。因此,我花了一到三个月的时间来进行一些大型网站的搜刮,后来你甚至看不到我了,因为我只做页面更新。
但这需要努力!你需要为每个网站都设计这样的功能,有些网站没有任何好的位置可以让你以低资源挂钩 “是否有新内容”。
我甚至还没有提到那些积极尝试增加搜索难度的网站(比如不断更改标签、在渲染时使用动态 HTML 块、屏蔽 js、强制使用验证码),但具有讽刺意味的是,这对他们的伤害更大,因为这可能会导致对其网站的全面重新搜索。
因此,具有讽刺意味的是,对于不那么肆无忌惮的刮擦者来说,最简单的解决方案就是简单地将资源投入到这个问题上。你只需使用傻瓜式搜索器对找到的每个页面链接进行重新抓取,然后与本地缓存校验和进行比较,然后更新抓取页面的结果,何必在每个网站上都费心费力地 “是否有新东西 ”呢?然后,你就会遇到那些对网站进行 ddos 攻击的过激搜刮器。再加上一半的互联网都是 WP 网站 +lol+
可刮除的资源量非常小,你越是试图阻止刮除者,你就越会妨碍你自己的客户/合法用户。
再说一遍,这只是我为一些小说/漫画网站进行的私人使用/数据囤积刮擦。大公司可以访问完整的 IP 区块,可以使用家庭 IP(因为有些网站会检测你是来自数据中心租用的 IP 还是家庭 ISP IP),拥有更多可用资源。
这几乎是我要写的东西的一个更雄辩的版本。在商业动机如此荒谬地一边倒的情况下,完全以结果为导向的观点是很危险的。大教堂的所有者每年在各种胡萝卜加大棒上的花费超过了大多数国家的 GDP,以维持类似当前的生态系统。我认为,对大多数人来说,当前的世界远非理想,但要与世界上最富有、最强大的实体的协调努力相抗衡是很难的。
答案很简单,只要复杂程度超过普通人的兴趣,就会出现大教堂。
这与资本主义或激励机制无关。人类的认知能力是有限的,而科技在大多数人的认知清单中排名很靠后。他们希望别人来处理复杂性,这样他们就可以专注于自己的生活。中世纪的行会、宗教等级制度、部落会议、你的分销软件包仓库,这些都是大教堂。人类总是将复杂性委托给可信赖的权威。
那些 “关心隐私或所有权 ”的 25% 的人,大多只是说说而已。当他们真正面临配置自己的电子邮件服务器或编译自己的内核时,这 25% 的人中有 24% 会立即选择 “大教堂”。你知道这类人,就是那些带着 MacBook 参加 FOSDEM 的人。激励机制并没有创造对 “大教堂 ”的需求,而是顺应了这种需求。即使在后稀缺公社中,也会有人来处理复杂的事情,而其他人则会感激地让他们去做。
集市不会因为资本主义而失败。它之所以失败,是因为大多数人在选择理解复杂事物还是信任别人来处理它时,每次都会选择信任。不仅是信任,每次都会选择CYA(我不对我不完全理解的东西负责)。你认为人工智能为什么会成功?事实证明,人们_喜欢_被告知在他们并不关心的事情上应该怎么做。
> 集市养活了大教堂
这不就是许可问题吗?伯克利发布了 BSD,让每个人都可以使用它,人们做了多年的工作才使它变得可以通过,苹果用它来制作 macOS 和 iOS,因为许可证允许他们这样做,然后他们就同时拥有了社区的工作和自己的工作,所以每个人都在使用它们。
Linux 内核采用的是 GPLv2 而非 GPLv3,因此供应商会将二进制 Blob 驱动程序/固件与他们的硬件一起发布,一旦他们停止发布新版本,硬件就无法使用,因为这样一来,要使用硬件,你就只能使用存在已知安全漏洞的旧内核,或者他们会锁定引导加载器,因为 v2 缺乏 v3 中的反 Tivoization 条款。
如果你使用的许可证让大教堂关闭了社区的工作,那么你就输了,但如果你不这么做呢?
这可能是个愚蠢的问题,但我们应该在每个新用户访问网站时,在他们面前放一个简单的验证码,然后给他们一个 cookie,并开始跟踪该用户每秒的请求次数?
我猜这是一种每次会话都需要的软登录?
更新:你可以把它植入 Cookie 批准对话框(笑话!)。
后人工智能时代的网络已经是一团糟了。我更倾向于不会让它变得更糟的解决方案。
我自己在浏览网页时,大部分时间都是关闭 Cookie 的,每天要点击 Cloudflare 复选框或帮助谷歌对其数据集中的对象进行分类的次数实在是太多了。
> 后人工智能时代的网络已经是一团糟了。
你指的是前人工智能时代的网络?还是说人工智能已经完结,不再施加影响了?
我不知道他们为什么不直接缓存网站,至少在 24 小时内避免访问,尤其是大多数网站。我发誓,这就像我们在用大语言模型(LLMs) /人工智能重新学习软件工程基础知识,这让我很难受。
是啊,在有更多搜索引擎的时代,情况肯定是完全一样的……
我认为这些搜索引擎背后的工程团队只是在处理过程中更能干/更节俭而已。
而且,由于没有任何与 AWS 相当的系统,他们必须成为更好的公民,因为众所周知,对被抓取网站的 IP 范围禁止是微不足道的。
值得注意的是,当时的搜索引擎(现在也一样,除了人工智能搜索引擎)一般都倾向于遵循 robots.txt,这意味着如果你不想让搜索引擎索引你网站的某些重要区域,你可以过滤掉这些区域,让搜索引擎只抓取静态页面。例如,你可以把 /cgi-bin/ 全部屏蔽掉,这样它们就永远不会访问你的 CGI 脚本–例如,如果你的留言簿软件写出了要提供的静态文件,这就很有用了。
搜索引擎的资源也是有限的,因此它们对获取的内容、时间和频率都很谨慎;优化自己的爬虫为它们省钱,反过来也为网站省钱。即使有 100 个爬虫主动索引你的网站,它们也不会每天索引超过一次,而一天 100 次请求即使在当时也不算多。
现在,各家公司都在为人工智能投入数十亿美元;预算是无限的,限制是绕过的,规范是被忽视的。如果公司认为每分钟索引你的网站 30 次对它有利,那么它就会这样做,但即使它不能从中获益,他们也没有理由阻止它这样做,因为这不会给他们带来任何损失。他们不能冒险不提供最新信息,因为如果用户来问你时事,问你为什么太空部队要转移到阿拉巴马州,而你的人工智能不知道,别人却知道,那你就落后于时代了。
因此,为了将短期利润最大化放在首位–这也是人工智能公司唯一在做的事情–他们不妨每秒对你网站上的每个 URL 进行一次扫描,因为这不会给他们带来任何损失,他们也不在乎你是否会破产倒闭。
当时带宽成本较高,所以早期的搜索引擎别出心裁地不大幅增加自己的成本。
blekko 搜索引擎的索引只有 10 亿页,而 Common Crawl 基金会每月抓取 30 亿网页。
这个 今天,我请 Claude Sonnet 阅读维基百科上关于 “推理 ”的文章,并回答我的几个问题。
松内回答说 “抱歉,我没有权限” 然后我问它为什么,它一脸茫然和困惑。我问人类为什么不简单地用 XX 种不同的语言维护维基百科的镜像,并每周运行一次 cron 作业。
它还是没有给出有力的回答。真可悲。这在很大程度上是人类学的一个盲点,至少是不道德的,甚至是不道德的。
那些从维基媒体基金会获利颇丰的大型人工智能公司是否有任何回报?还是他们只是没有道德的大型互联网吸血者?
达里奥和萨姆等人: 为你们自己的献血者的福利做贡献。
> Sonnet回复说 “对不起,我没有权限” 然后我问它为什么,它一脸茫然和困惑。我问人类为什么不简单地用 XX 种不同语言维护维基百科的镜像,并每周运行一次 cron 作业。
更糟糕的是,你可以下载所有维基百科供离线使用……
> 然后我问它为什么
我还在了解大语言模型(LLMs) 的情况,但我们指望一个大语言模型(LLMs) 能够回答这个问题吗?我以为他们没有自己运作的元信息。
你甚至可以把所有维基百科和一大堆其他维基都下载下来。
如果他们也这么做了,而且还做了种子,那就太好了。
一旦爬虫爬上去了,谁还会在乎它带下来的是什么?
爬行者冯-布劳恩说:“那不是我的工作范围”。
太有价值了,我一周前才偶然发现它的原版
我猜他们更喜欢为带宽而不是存储付费
因为他们根本不在乎产品是否能正常运行。通过阻止人工智能搜索,网站迫使人工智能公司在被阻止之前加快搜索速度。而更快就意味着更邋遢。
还有一点,如果网站在被你搜刮后瘫痪了,那么你搜刮到的数据就多了一个网站,而你的竞争对手现在却无法获得这些数据。
谁说他们不能?
处于创造捷径机器最前沿的人正在走捷径。我们正在缓慢地走向注重细节的死亡。
缓慢前进?老实说,感觉我们已经在这列火车上走了很久了。真尴尬。我们甚至没有完全原生的图形用户界面,它们都是浏览器的封装。
在我看来,当有人因此而丧命时,就有理由采取极端手段,比如向他们灌输大语言模型(LLM)生成的、人为损坏的文本等捏造的真相 /s
我和其他人一样认为,这是一个巨大的问题,尤其是对小型爱好者网站而言。
我负责管理一个颇受欢迎的铁路论坛。我们的网站已经被一些人工智能爬虫攻击得无法正常使用。你在设计架构时要考虑到某些假设,而其中一个假设绝对不是 “流量五倍”。
我们最终拦截了很多流量,但这是一场无休止的 “打地鼠 ”游戏。
> 其中一个绝对不是 “流量五重奏”
O, it was… 人们对 WordPress 的大规模使用提出了警告,因为它存在性能问题。
互联网使用量不断增长,即使没有大语言模型(LLM)的大规模搜刮。每个人都希望获得越来越多的最新信息、最近的价格查询以及许多其他功能。这种趋势已经持续了 10 多年。
只是现在,针对大语言模型(LLMs) 的机器人搜刮已经把一些网站逼到了绝境。
> 我们最终阻止了很多僵尸,但这是一个无休止的 “打地鼠 ”游戏。
除非你屏蔽所有 IP,否则你无法阻止他们。要隐藏刮刮卡真的很容易,尤其是如果你使用的是慢速刮刮卡。
当你像这里的一位发帖者一样,设置了一个数据库调用需要长达 1 秒的时间来处理某些未在缓存中的产品页面时,问题就来了。这些网站已经在借时间过日子了。
具有讽刺意味的是,在他们的网站上安装更好的软件(比如不使用 WP),就能让他们在同样的资源下轻松处理 1000 倍的流量。不要让我开始说很多网站的后台配置有多么糟糕。
人们都在指责错误的问题。在过去的 10 年里,我们对最新数据的需求一直在增长。只是人们认为生成一个网页需要 400 毫秒的网站就可以了(实际上它们浪费了大量资源,或者后台配置有限)。
我很难理解这一点。这种积极的抓取行为有什么意义?收集训练数据?我们不是已经有了大量用于搜索索引的网络数据了吗?这是一个协调问题吗?每个小型人工智能初创公司都必须自己抓取数据,因为没有人愿意以定期转储的方式分享他们的数据?对于维基百科,我们有官方的离线下载,对于书籍,我们有 books3,但对于网络的其他部分,却没有相应的数据?是否可以通过某种系统来解决这个问题,让网站运营者向一个大数据库提交他们网站的文本副本?然后在 robots.txt 或类似文件中添加一行,指向该数据库,并带有指向其网站镜像内容的深度链接?
显而易见的问题是:a) 谁会花钱托管这个数据库?b) 不参与的网站是因为他们不想让大语言模型(LLMs)访问他们的内容进行培训(因此刮擦仍然会比使用数据库更有优势)?
或者说,这个拟议中的数据库基本上已经存在于 Cloudflare 和互联网档案馆之间,而我们已经知道搜刮者是愚蠢和好战的结合体,他们拒绝使用除实时网站之外的任何东西?
我向谷歌人工智能模式询问 “谷歌人工智能模式是否会为一个提示请求数十个网站”,结果显示 “正在查看 69 个网站”,然后给出了关于查询扇出的回复。
Cloudflare 缓存了大部分网站,IA 响应时间过长,无法处理负载。Google/OpenAI 和其他公司可以缓存这些网页,但显然做得不够积极,或者根本没有这样做。
我不认为你对谷歌的看法是正确的。缓存网页是搜索引擎的基本功能,这也是它们显示片段的方式。
他们可能会缓存,但如果在过去 30 秒内发生了变化,现在他们的信息已经过时了呢?最好再申请一次,以防万一。
搜索引擎不是这样工作的。它们对哪些网页可能经常更新有很好的了解。这就是 “新闻搜索 ”的工作原理,甚至像 blekko 这样的小型初创搜索引擎也有新闻搜索功能。
的确如此。我的理解是,大规模抓取确实是一笔不小的开支,因此他们会优化到 “刚好 ”能够抓住大多数网站的更新节奏,然后使用其他信号(如博客ping,或有人搜索尚未抓取的URL等)有选择地抓取更新鲜的内容。
我的经验是,大规模新闻抓取的花费并不大,但到目前为止,我只建立了一个,并继承了一个。顺便说一句,没有人使用博客 pings,最新的热门产品是 IndexNow。
我怀疑他们根本不在乎。这些公司的所有者正是这种人,当有人希望他们只考虑自己时,他们真的会感到困惑和反感。
这种态度在人工智能领域处处可见,为什么爬行就不一样呢?
我当时在管理一个虚拟艺术画廊的系统,里面有数千件 “展品”,包括声音、视频和图像。
我们以前从未遇到过任何问题,但突然间,我们在很多天内被关闭了 3 次。我调查后发现都是 Claude 的问题。
他们不顾超时,不加节流地猛烈攻击每条线路。太恶心了。
他们给网络清除者留下了坏名声。
网络刮刮卡自己赢得了坏名声,非常感谢。这并不新鲜。网站是否主要是静态的、陈旧的文本,还是不断更新的文本,搜刮者并不关心。大多数网站都不是 FB/Twitt…er,X/等。即使不是亚马逊的零售网站,也不会每分钟都有新产品上市。但是,这就需要刮擦网站的人去关注,而不是让电脑运行,即使它每次读取的都是相同的数据。
即使网站为机器人提供了单一的可下载文件,机器人创建者也不会相信这些内容不是陈旧过时的,因此他们仍然会继续忽略这种简单的方法进行搜刮。
我创建并维护了 ProtonDB,这是一个广受欢迎的 Linux 游戏资源。我不做广告,只靠一些 Patreon 捐款支付账单。
这是一个静态生成的 React 网站,我部署在 Netlify 上。大约十天前,我开始每天从用户代理那里获得 30GB 的数据,这些数据表明他们正在使用 Prerender。按照这个速度,几乎所有的数据都会超过我的计划所分配的 1TB 容量,所以我需要每月额外支付约 500 美元来购买额外的带宽增强器。
我打算试试 robots.txt 选项,但我怀疑从长远来看这是否有效。如果我想继续使用 Netlify 这样的 SaaS,很多其他选择都不可行。
我最初的想法是,要么转移到带宽无限的 Cloudflare Pages/Workers,要么制作一个解析用户代理的边缘功能,并希望它足够有效。边缘函数的调用费用大约为 60 美元。
比起在用户代理上玩 “打地鼠 ”游戏,我还有很多更好的事情要做,如果失败了,我还得支付刮擦赎金。
我能说去你们的人工智能收割机吗?这是一项广受欢迎的免费服务,帮助人们摆脱对微软的依赖,在自由操作系统上生活。你想从中渔利?好啊,那就下载我已经提供的 ODbL 许可证数据转储,而不是让我怀疑我他妈的为什么要这么做。
质子数据库是一个了不起的网站,我一直在使用它。感谢您对它的维护!
谢谢。感谢您的支持,很高兴它能为您带来价值。
我不清楚 Netlify 在做什么,但您网站上最重要的资产是您的 javascript 源。你是否考虑过将它们托管在 GitHub 页面上?
图片来自 steamcdn-a.akamaihd.net,我认为它已经由第三方(Steam)托管。
我不想让微软参与进来,但我知道还有其他选择。这可能是我必须承担的额外工作/复杂性。
你有能力阻止 ASN 吗?我帮助一个 DIY 建筑论坛进行系统管理,通过阻止 ASN 45102 中的所有阿里巴巴 IP,我们减少了服务器 80% 的负载。新加坡的僵尸流量最大。
请在用户代理上使用默认拒绝。它会阻止很多访问工具,使隐私保护变得困难。
你是想说 don't 使用默认拒绝吗?
是的
感谢你创建 ProtonDB!我经常使用它 <3
超过1TB就要500美元?这里的问题不在于爬虫,而在于你的价格欺诈、敲诈勒索的托管计划。选择你最喜欢的 5 美元/月的 VPS 平台–我建议拥有 20TB 限制的 Hetzner(如果他们的 KYC 流程允许你进入的话),或者 Digital Ocean(如果不允许的话,只有 1TB,但超出部分只需额外支付几块钱)。即使是以超高价格著称的 AWS,价格也比它们便宜(但仍然太贵,所以不要使用)。
> 这里的问题不是爬虫,而是你的价格欺诈、敲诈勒索的托管计划。
不,两者都有。
爬虫很懒惰,显然没有缓存,而且也没有明显的方法来指示/强制爬虫以节省带宽的方式抓取网页。尽管如此,如果这里有人自以为是地反驳我,并给出如何做到这一点的说明,我也不会感到惊讶。
在短期内,如果我是这样一个网站的托管人,我就会想方设法减少所能管理的每一个字节,使用指纹识别技术向机器人提供较少的页面,并探索其他托管/CDN 选项。
> 这里的问题不在于爬虫、
这是我见过的最糟糕的做法之一。是的,这很昂贵,但进行大量不必要的疯狂抓取的个人才是问题所在。让我们不要表现得好像情况并非如此。
说明一下计算方法。Netlify 的专业计划限制为 1TB,每超过 100GB 收费 50 美元。这也是我本月在其他人有同样想法之前所面临的困境。所以是的,除非我花功夫重新托管,否则我两边都要受挤压。
我去过一家地铁店,每条生菜超过前 20 条就要收费 50 美元。当工人把生菜撒在我的三明治上时,我咬着指甲焦急地数着。19条,呼,我安全了。我想我明天还会来这里。
明天,我前面的人要求多加生菜。那个工人糊涂了,把生菜放到了我的三明治上。我被收了 1000 美元。该死
> The worker got confused and put it on my sandwich.
不,这就是你完全错误的地方。这里不存在 “工人不小心犯了人为错误,让你损失了钱”。这是'价值数十亿美元的公司经常运行一些脚本,他们知道这些脚本会让你赔钱,但还是照做了,因为这能为他们带来利润'。举个例子、
你经营一家卖三明治的 Subway。你的生菜供应商向你收取每片生菜 1 美元的费用。你的普通顾客可以在他们的三明治里吃到价值 1 美元的生菜。有一位顾客不断进来,伸手在柜台上抓一把生菜。你无法禁止这位顾客,因为他们经常乔装打扮,无视你 “禁止额外生菜 ”的告示。最终,这种情况会让你破产,迫使你完全停止供应生菜,或者你不得不在生菜箱上安装栏杆(例如,云飞)。
进入 Cloudflare 页面。
你的错误在于在 HN 上公开暗示你要使用 Cloudflare,加剧了互联网的集中化,为他们的证明计划做出了贡献,而社会却迫使你成为公地悲剧的受害者。
请相信我,这不是我想迈出的一步。
另一个不会加剧集中化的选择可能是 neocities。他们以每月 5 美元的价格提供 3 TB 的空间。不过这似乎已经是极限了。这位老兄只为 neocities 运行自己的 CDN,所以并不只是转售 cloudflare 什么的。
附注:感谢 ProtonDB,它对我运行一些老游戏帮助很大。
你不需要道歉–HN 需要清醒地认识到,并非所有事情都是公地悲剧,中心化的存在是有原因的,现在的去中心化互联网存在严重的弊端。如果我们不能坦然面对大科技所解决的问题,我们就永远无法克服大科技的流行。
另外,告我,大教堂打败了集市。这是可以预料到的,因为集市就是一群石匠互相竞争,卖出最好的石头来建造大教堂。我们重塑了农贸市场,认为只要所有农民联合起来,就能打垮沃尔玛。但这是不可能的。
在这种情况下,农民们要应对的是个人层面难以想象的猖獗的侵权行为。
在这种情况下,我不清楚搞垮 Cloudflare/Walmart 意味着什么。我也不清楚联合起来如何不会导致集中化,而集中化又是如此糟糕,以至于必须取缔。
> 云服务公司 Fastly 表示同意。它报告说,80% 的人工智能机器人流量来自人工智能数据获取机器人。
别开玩笑了。越来越多的网站都设置了验证码。
问题出在哪里?验证码很烦人,每天都要检查眼睛 50 次,而且
> Google's reCAPTCHA is not only useless, it's also basically spyware.
> reCAPTCHA v3的复选框测试并不能阻止机器人,而且还会追踪用户数据
[https://www.techspot.com/news/106717-google-recaptcha-not-on…](https://www.techspot.com/news/106717-google-recaptcha-not-only-useless-also-basically-spyware.html)
在这个问题上,网站管理员真的有点进退两难。
至少在我所做的工作中,配置不佳或完全恶意的机器人所消耗的资源是人类访问者的 5000 倍,所以没有机器人缓解措施意味着我基本上已经放弃了,并决定我应该尝试做一个菜农,而不是在网上做事。
在实践中,僵尸缓和措施是一种权衡,既要有足够的障碍物将大部分僵尸阻挡在外,同时又不能让用户烦得离开。
我认为,目前阿努比斯是不太糟糕的选择之一。有些用户会因此而恼火(它确实很烦人),但它比点击 35 次消防栓更不烦人,而且只要配置正确,它似乎能将大多数机器人挡在门外,或者至少能促使它们以更易识别的方式行事。
也许它不会永远存在,但我不知道除了会像一个有特殊需求的孩子那样,对每个页面请求都进行加密微交易之外,还会有什么。不幸的是,这不仅会赶走机器人,还会赶走人类访客。
Anubis 在低端设备上运行速度极慢,通常需要 30 秒以上才能完成。用户应该得到更好的体验,但我想它还是比 reCaptcha 或 Cloudflare 的体验更好。
嗯,>30 秒完成 anubis 还是比因为人工智能机器人导致服务器超载而每次页面加载都要 >30 秒完成要好。
我刚刚开始点击那些充满验证码的网页。具有讽刺意味的是,这导致我更多地使用人工智能。
讽刺的是… 大语言模型(LLM) 非常擅长解决验证码问题。因此,只有真正的网站访问者才会被这些验证码困扰。
网站需要做的是临时阻止来自相同 IP 的重复请求。当然,有些代理使用了上万个 IP,但如果他们真的像人们所说的那样咄咄逼人,那么你将会比普通用户更频繁地遇到相同的 IP。
这就会把那些过分激进的家伙踢出去。我曾进行过网络搜刮,并将其限制在 1r/s 左右。这样你就不会遇到任何拦截或检测,因为你几乎不会出现。但是,当你有一些人向一个网站发送 1000 个并行请求时,因为他们从来没有弄清楚大型页面点击的查询构建器。也不知道如何建立检查以查看最后更新的页面。
我看到的一个主要问题是,有些人只是编写了最基本的基本刮擦程序。查看链接、跟踪、生成过程、清除、再查看 100 个链接…… 更新?只需重新创建网站,重复,重复… 因为为每个网站制作一个知道在哪里检查更新的 scrap 模板需要时间。因此,有些人从不费心。
我经常使用 VPN 或 iCloud 私有中继。有些网站会抱怨 “今天从你的 IP 地址访问(下载)的次数太多了”。
细节决定成败。我(非机器人)有时会使用 VPN-flipping。
我猜有些机器人也会这么做,这只是我的猜测。
Fastly report[1]有几段精彩的引语提到了Common Crawl的CCBot:
> 我们的观察还凸显了像Common Crawl这样的开放数据计划的重要作用。与商业爬虫不同,Common Crawl 向公众免费提供数据,帮助为人工智能研究和开发创造一个更具包容性的生态系统。Common Crawl覆盖了人工智能机器人所抓取的63%的独特网站,大大高于大多数商业替代方案,在大规模网络数据访问民主化方面发挥了关键作用。这种开放访问模式使更多的研究人员和开发人员有能力训练和改进人工智能模型,从而促进该领域更加多样化和广泛的创新。
…
> 值得注意的是,排名前四的爬虫(Meta、谷歌、OpenAI 和 Claude)似乎更喜欢商业网站。Common Crawl 的 CCBot(其开放数据集被广泛使用)对商业、媒体和娱乐以及高科技领域的偏好较为均衡。Timpibot 和 Diffbot 似乎更偏好媒体和娱乐领域,这也许是为了补充 Common Crawl 的不足。
还有最后一个数字,Fastly 的报告中没有,但在 EL Reg article[2] 中有:
> 共同抓取项目(Common Crawl Project)将网站纳入一个免费的公共数据集,旨在防止重复劳动和流量倍增,这也是爬虫问题的核心所在。
1: https://learn.fastly.com/rs/025-XKO-469/images/Fastly-Threat…
2: https://www.theregister.com/2025/08/21/ai_crawler_traffic/
由于像 Fastly 这样的公司只通过 javascript 的执行情况来衡量问题,并假定所有不能正确执行 JS 的东西都是机器人,所以这 80% 包含了一大堆人类。
这对任何使用 Chrome 浏览器以外的浏览器、任何访问工具或隐私软件的人来说都非常糟糕,因为现在很多网站都会屏蔽你,认为你是网络爬虫。
这已经被广泛报道了几个月。Anthropic 刚刚报告又获得了 130 亿美元的融资。显然,这些公司根本不愿意投入精力来改善自己的行为。
我能问个蠢问题吗?为什么这比他们为传统搜索引擎收集文章的做法要糟糕得多?我想他们收集的数据应该差不多吧?不就是同样的文章吗?
不,流量不是由客户端请求引起的(比如当你的聊天 gpt 会话进行搜索并检查一些来源时)。它们是由训练运行引起的。不同之处在于,人工智能公司并不存储它们搜索到的数据。他们让模型摄取数据,然后将其丢弃。当他们训练下一个模型时,他们会再次搜索整个互联网。至少我是这么理解的。
为什么网站不直接发布网站转储,让爬虫来抓取呢?我知道这对动态内容不起作用,但目前很多被攻击的 “小型 ”网站肯定不是纯粹的动态内容。
也许我们可以在一个众所周知的地址上以标准格式(WARC?)发布一个转储文件,然后让爬虫在那里进行检查?内容可以定期更新,并使用 etag/etc 以便爬虫知道何时更新。
我认为,即使是一些动态网站,也可以定期(也许每隔几小时一次)对自己的内容进行快照,并将其提供给爬虫下载,以满足它们的需求,同时将大部分服务能力留给真正的人类。
因为爬虫并不关心它们所抓取网站的带宽,而且无论网站做什么,它们都会继续无时无刻、无处不在地抓取所有内容。
此外,指望每个小网站都花时间和精力向人工智能公司支付丹麦克朗(Danegeld),以换取继续存在的特权,也是不公平的。我们不应该认为网络的存在只是为了喂养人工智能,也不应该认为每个人都必须围绕喂养人工智能来设计自己的网站。
那些不尊重基本道德、法律版权和常识的人不会因为他们是个讨厌鬼而停止。他们会一直这样做下去,直到毁掉孕育他们的一切,这样他们才有可能取而代之。去他妈的人工智能
我的表弟管理着几十个中型信息网站和社区,他的前主机提供商把他踢出局了,因为他拒绝支付疯狂的账单,这简直就是人工智能机器人对他的网站进行 DDoS 的结果……
不幸的是,他别无选择,只能将大部分内容放在登录墙后面(只有在退出登录时才能看到部分文章/论坛帖子),但他正在强烈考虑在这一点上对一些内容进行硬性付费… 我们谈论的是一个真诚地提供部分内容数据转储供这些公司免费下载的人,但是,缓存/etags? 这些雇用 “最优秀、最聪明 ”的人工智能公司都没听说过这个词,速率限制?这是什么?
这太疯狂了,这些人工智能公司正在毁掉网络。
“以前,当搜索索引爬虫–Googlebot–来找我时,我总是希望我网站上的一些故事能出现在别人搜索结果的神奇首页上,这样他们就会访问我,他们就会阅读我的故事,在一百次访问中,有两三次他们会点击广告,我就能得到几分钱的收入。”
也许人工智能爬虫可以 “点击一些广告”
我们能给这些爬虫弄一个人工智能驱动的 “防空洞 ”吗?
添加一个隐藏链接,把它放在 robots.txt 中
爬虫点击该链接后,轻资源语言模型就会生成无限量看起来似是而非的胡言乱语,让爬虫抓取带有链接的内容。
我的网站还没有酷到会被爬虫抨击的地步。除了一个不死心的中国机器人。花瓣机器人?差不多吧。
我打开了 Cloudflare 的反僵尸功能,OpenAI 和 Anthropic 似乎要么尊重我的规则,要么被它阻止。
收集这些数据是为了训练集吗?这似乎有问题。不可能只有我一个人注意到,网络上很快就充斥着人工智能生成的点击诱饵(这使得使用搜索引擎变得更加困难)。
如今,大部分可能是在人工智能查询解析过程中进行实时抓取。
不,你会得到大量的无限链接网络跟踪
如今的世界就是骗子横行(或上行,取决于你怎么看)。
我只是通过用户代理字符串来阻止它们。其余的伪造用户代理会被网站服务器上的速率限制拦截。虽然不完美,但我们的网站不再受到攻击了。
[https://perishablepress.com/ultimate-ai-block-list/](https://perishablepress.com/ultimate-ai-block-list/)
2] https://github.com/jzdziarski/mod_evasive
有一种非常大规模的爬虫,它使用随机有效的用户代理和大得惊人的 ip 池。我第一次注意到它是因为大量流量来自巴西和 “HostRoyale”(asn 203020)。它们每天从每个 IP 只发送几个请求,因此限制速率没有用。
我运行了一个蜜罐,它能生成带有源 IP 的 url,因此我非常确信这都是一个僵尸,在过去 48 小时内,有超过 200,000 个 IP 攻击了我的蜜罐。
我非常确定这是 Bytedance 所为,他们偶尔会用正常的用户代理和常用的 .sg 数据中心访问这些标记的蜜罐网址。
我的网站最近也被巴西 IP 大量攻击。这种情况会持续一两天,即使他们被屏蔽了。
我自己编写的机器人就是这样做的。我这样做的主要原因是为了避免被侦测到,因此作为其中的一部分,我还对请求进行了严格控制,并以随机间隔点击目标。换句话说,我并不想滥用它们。我只是不想让他们注意到我。
总之,当你是信息的控制者时,发送虚假信息是小事一桩。
我想知道您是否可以实现一个假的速率限制?有一半的时间是随机限制速率的。真正的用户会觉得没什么,然后刷新页面。
这样做有一半时间会激怒真实用户,而机器人却不会在意。
如果他们是在 2025 年访问您网站的真实用户,那么他们甚至没有其他感兴趣的选择。他们会责怪他们的 ISP 并等待。
与此同时,限制大语言模型(LLM)可能会耗费大量的时间和计算成本,而这些人并没有把我们的利益放在心上。在我看来,这是一场胜利。
博客垃圾邮件,只是链接到今年早些时候的一些报告和帖子。
最近正在进行的一些讨论:
_Cloudflare雷达: 人工智能洞察
https://news.ycombinator.com/item?id=45093090
代理时代:从密码学角度识别代理流量
https://news.ycombinator.com/item?id=45055452
那个 Perplexity:
Perplexity正在使用隐身、未申报的爬虫来规避禁止抓取指令
https://news.ycombinator.com/item?id=44785636
AI爬虫、抓取器正在炸毁网站;Meta、OpenAI是最严重的犯罪者
https://news.ycombinator.com/item?id=44971487
与此同时,许多 HN 反推新的解决方案,如 CF 的 Signed Agents(签名代理)。
https://news.ycombinator.com/item?id=45066258
因为这是一个糟糕的解决方案。核心问题在于,互联网很容易受到 DDoS 攻击,而且网络没有原生的抵御假冒者机制。
Cloudflare 解决所有问题的办法就是让他们控制更多的互联网。当他们拥有足够的控制权,可以为所欲为时会发生什么?他们可以收取任何他们想要的价格。
这个想法本身有其可取之处,即使实施起来有问题。
赋予机器人一个加密身份,可以让优秀的机器人在游戏中真正拥有自己的皮肤,并在声誉受到威胁的情况下爬行。这不是一个完整的解决方案,但可以成为其中的一部分。虽然你可能仅从 HTTP 请求签名中就能获得好的部分,但 Cloudflare 在其中添加的内容似乎无关紧要。
老实说,我不知道什么才是好的解决方案。现状肯定是完全站不住脚的。如果我们继续像现在这样发展下去,几年后就没有网络可以保护了。值得注意的是,这需要付出机会成本,即使是糟糕的解决方案,也可能比没有解决方案更可取。
… 我认为应该运行一个独立的网络爬虫。
我认为解决方案就是像现在人们建立的某种 PoW 网关。或者建立一个小额支付系统,每个页面请求只需支付几分钱。
你可以将其与某种类似于 IPFS/Bittorrent 的系统结合起来,允许他人重新托管你的静态内容,并以内容的 Merkle 哈希值为索引。这样用户就可以捐赠带宽。
我真的不喜欢这样的想法,即通过加强对用户代理的监控或区分 “好 ”机器人和 “坏 ”机器人来解决这个问题,这是一个巨大的社会问题。
我更害怕的是那些对知识、认知和创造力拥有足够控制权的组织,一旦他们把我们训练得不再亲自实践,他们就可以对这些知识和创造力漫天要价。
没有护城河
直到不在人们的白名单上爬行变得足够困难为止
希望我们在大语言模型(LLMs)的能源使用中包括这一点。
我认为,过去几十年来,我们创建了效率极低的网络,但我们却收获了延迟风暴。
绝大多数网站都完全没有必要使用数据库和 SSR,大多数网站都可以静态渲染,托管成本也很低,但遗憾的是,WP 却是最流行的 “框架”。
从我的角度来看(SAAS,1K 域名):最具破坏性/DDoS/恶意暴力抓取大约在半年前达到顶峰。
验证码消除了 25 年来在浏览速度上的进步。
因此,Javascript 开发者的衣钵已经传给了图灵测试的作者。
“我喝你的奶昔 ”类型的短信
如果内容提供商将一份食谱的 30K 字页面缩减到只有实际食谱,这是否会减少这些机器人获取的数据量?
我认为这种趋势不会减缓。如果网站不适应人工智能深度搜索的现实,机器人就会去别的地方。人们不想阅读这些针对过时的谷歌搜索引擎优化技术的长篇大论。
你把这个问题说成是与过长的文本网页有关。其实不然。如果你主办的是一个本地清洁公司网站,或者是一个游戏攻略网站,或者是一个角色扮演论坛,机器人同样会蜂拥而至。
你说得没错,它看起来并没有放缓,但其发展结果不会是人们发布更短的食谱,而是面向公众的、开放的互联网的进一步萎缩。
看到有人随口提到角色扮演论坛,我觉得有点好笑。这就是我运营的论坛,它一夜之间从人工智能机器人那里获得了 10 倍的流量。
我十几岁的时候就做了这个论坛,结果一做就是一辈子。
当然,机器人会深入网站,破坏你的缓存。
你有权向机器人提供假的胡言乱语的数据。
也许当这些数据开始破坏模型时,它们就会减少抓取了。
这只是权宜之计,最终他们会意识到发生了什么,并使用分布式 IP 和虚假用户代理来伪装成正常用户。腾讯和 Bytedance 搜索引擎已经在这么做了。
子页面级别的文本内容约占网络流量的 0%。这不是问题。
那么去掉 30MB 的广告,只提供 3kB 的文本内容,你的服务器负载就完全没问题了。