标签: 爬虫

无需JavaScript即可阻止大型语言模型网络爬虫的方法

无需JavaScript即可阻止大型语言模型网络爬虫的方法

该方案虽非完美无缺,但实践中效果良好,至少能避免误判。我观察到它能有效拦截大量请求,同时确保行为规范的爬虫顺利通过验证。

给网络爬虫下套

给网络爬虫下套

只需从主站链接到垃圾页面即可。由于每个垃圾页会链接五个新垃圾页,爬虫队列将以指数级增长填满垃圾内容,最终无暇爬取真实站点。

反击网络爬虫

反击网络爬虫

爬虫抓取程序正在无意间对公共网站实施DDoS攻击。我收到许多运营小型网络服务和博客的人发来的邮件,寻求自我保护的建议。本文并非讨论防御策略,而是探讨反击之道。

对抗网络爬虫,你不需要 Anubis

对抗网络爬虫,你不需要 Anubis

我近期自建了Redlib,尽管未与他人共享实例,却因大量抓取爬虫试图获取优质Reddit内容而遭到Reddit限速。以下是我用12行Caddyfile解决该问题的方案

在 FreeBSD 上配置 Anubis 反 AI 爬虫工具

在 FreeBSD 上配置 Anubis 反 AI 爬虫工具

阿努比斯(Anubis)是由Techaro近期开发的卓越反人工智能软件产品。其运作原理是向连接计算机发起工作量证明挑战,设备必须完成解题才能访问请求内容。该项目正迅速普及,包括联合国,Linux 在内的机构均已采用。

部署 Anubis:让 AI 网络爬虫寸步难行

部署 Anubis:让 AI 网络爬虫寸步难行

Anubis 是一款基于工作量证明的中间件解决方案。它接收传入流量,进行特殊处理后,决定是否将请求转发至您的Web服务器。具体实现将在后文详述。本文旨在记录我的实践过程(供个人参考),并提供简明易懂的部署指南(供您参考)。

人工智能网络爬虫对所有内容的无休止渴求正在摧毁网站

人工智能网络爬虫对所有内容的无休止渴求正在摧毁网站

当以 Meta(占人工智能搜索机器人流量的 52%)、谷歌(23%)和 OpenAI(20%)为首的人工智能搜索机器人在一次激增中以高达 30 太比特的速度攻击网站时,它们甚至会损害最大公司的网站性能。

防 AI 网页爬虫工具 Anubis 安装配置中文文档

防 AI 网页爬虫工具 Anubis 安装配置中文文档

该程序旨在帮助保护小型互联网免受人工智能公司无休止的请求风暴的影响。Anubis 尽可能轻便,以确保每个人都有能力保护离自己最近的社区。

Anubis:利用工作量证明(Proof-of-Work, PoW)机制来阻止 AI 网站爬虫

Anubis:利用工作量证明(Proof-of-Work, PoW)机制来阻止 AI 网站爬虫

“Anubis” 是一款利用工作量证明(Proof-of-Work, PoW)机制来阻止 AI 爬虫抓取网站内容的开源软件。它由开发者 Xe Iaso 创建,旨在应对当前大语言模型(LLM)训练数据抓取带来的挑战。

Cloudflare 推出对人工智能数据抓取工具的默认阻断功能

Cloudflare 推出对人工智能数据抓取工具的默认阻断功能

云计算公司Cloudflare于周二宣布,已推出一项基于权限的新设置,允许客户自动阻止人工智能公司收集其数字数据,此举对出版商及人工智能技术竞赛产生深远影响。

Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

如果创作者希望阻止所有AI爬虫访问其内容,他们应该能够做到这一点。如果创作者希望允许部分或全部AI爬虫免费访问其内容,他们也应该能够做到这一点。创作者应该掌握主动权。

用一个奇招检测并让Chromium机器人爬虫崩溃(机器人爬虫讨厌这个!)

用一个奇招检测并让Chromium机器人爬虫崩溃(机器人爬虫讨厌这个!)

享受这个漏洞吧。把它留在你的工具箱里。在测试环境中让机器人崩溃时笑一笑。但也许不要在生产环境中部署它。尤其是当Googlebot能看到它的时候。

关于 JavaScript “工作证明(proof of work) “防抓取系统的思考

关于 JavaScript “工作证明(proof of work) “防抓取系统的思考

人们越来越多地使用基于 JavaScript 的“工作证明”系统来应对激进的大语言模型 (LLM) 和其他网络抓取器的问题,在这种系统中,您的网络服务器要求访问客户端运行一些 JavaScript 来解决挑战

我用 Zip 炸弹保护我的服务器

我用 Zip 炸弹保护我的服务器

zip 炸弹并非万无一失。它很容易被发现和规避。毕竟你可以阅读部分内容。但对于那些盲目爬网、扰乱服务器的不成熟机器人来说,这已经是保护服务器的好工具了。

小试牛刀:使用Python模拟登录知乎

小试牛刀:使用Python模拟登录知乎

最近突然对爬虫兴趣倍增,主要是自己想从网上爬点数据来玩玩。知乎虽然携带验证码,但难度算是适中;微博的登录难度稍微大点,因为不仅有验证码,还在传递参数的时候对用户名进行了base64加密。在这篇 博文里,主要是以知乎为例,模拟知乎登录,至于数据爬取部分咱们就暂且不谈吧。