谷歌靠抓取网络建立帝国,如今却起诉阻止他人抓取谷歌

谷歌自身正是通过未经许可抓取网络数据建立起整个商业帝国。如今却欲援引版权法中最遭滥用的条款,阻止他人从事与谷歌崛起之初如出一辙的行为。

上周,谷歌对数据抓取公司SerpApi提起诉讼,该企业曾协助其他公司从谷歌搜索结果中提取数据。诉讼称SerpApi通过规避谷歌的“技术保护措施”未经授权访问搜索结果(及其中受版权保护的内容),违反了《数字千年版权法案》第1201条。

但该理论存在一个根本矛盾:谷歌自身正是通过未经许可抓取网络数据建立起整个商业帝国。如今却欲援引版权法中最遭滥用的条款,阻止他人从事与谷歌崛起之初如出一辙的行为。

元素周期表

此诉讼紧随Reddit去年十月提起的同样存在争议的反抓取诉讼——我们曾将其称为对开放互联网的攻击。Reddit起诉Perplexity及多家抓取公司(包括SerpApi),指控其通过规避谷歌的技术保护措施违反了《版权法》第1201条。Reddit对此极为不满:其已与谷歌达成数百万美元的授权协议获取Reddit内容,而这些公司却绕过协议及谷歌本身,向用户提供类似服务。其法律理论荒谬至极:Reddit并不拥有用户帖文的版权,且抓取公司甚至未直接接触Reddit平台——但Reddit仍以“规避他人技术保护措施”为由主张起诉权。

如今谷歌也提起类似诉讼,直接针对SerpApi公司,重点在于该平台如何规避谷歌的抓取封锁措施。谷歌发布博客文章为诉讼辩护

我们今日提起诉讼,指控抓取公司SerpApi规避了保护谷歌搜索结果中他人版权内容的安全措施。我们此举旨在请求法院叫停SerpApi的爬虫程序及其恶意抓取行为,该行为侵犯了网站及权利人对内容访问权限的选择权。本次诉讼延续了**其他网站对SerpApi及同类抓取公司的法律行动 ,也是我们积极诉讼打击欺诈者 不良行为者 的积极诉讼记录的一部分。

谷歌遵循行业标准爬网协议,并尊重网站对其内容爬取的指令。而SerpApi这类隐蔽抓取工具会强制覆盖这些指令,完全剥夺网站的选择权。SerpApi通过可疑后门手段——如伪装身份、用庞大机器人网络轰炸网站、为爬虫设置虚假且不断变换的名称——绕过我们的安全措施,大肆窃取网站内容。过去一年间,此类非法活动激增。

SerpApi 欺骗性地窃取谷歌从第三方授权的内容(如知识面板中的图片、搜索功能的实时数据等),再转售牟利。其行为蓄意践踏了搜索结果中内容提供方及网站的权利与指令。

看,SerpApi的行为相当可疑。伪造用户代理、轮换IP伪装合法用户、程序化破解验证码——谷歌的投诉揭露了这家企业积极规避检测的行径。但谷歌为阻止其行为而援引的法律理论,却威胁到远超单个可疑抓取器的重大问题。

谷歌的整个商业模式正是建立在未经许可尽可能抓取网络内容的基础上。如今他们竟欲援引《数字千年版权法案》第1201条——这项版权法中最常遭滥用的条款——来阻止他人抓取自身内容,这暴露了许可时代论调的根本缺陷:无异于爬上梯子后再抽走梯子。

单从公众认知角度看,这看起来就很糟糕。

需要明确的是:这并非为SerpApi辩护。他们显然是靠规避检测系统牟利的恶意行为者。问题在于谷歌选择动用一种具有长期附带损害历史的法律武器来打击他们。当你援引《联邦刑法典》第1201条打击网络爬虫时,你不仅在针对某家可疑公司——更可能重写整个开放网络的运行规则。武器的选择至关重要,尤其当该武器曾屡次被滥用以扼杀正当竞争,如今更可能反噬现代互联网赖以生存的开放性。

多年来,我们反复探讨过DMCA第1201条的诸多弊端。该条款的“反规避”部分规定:任何试图绕过“技术保护措施”的行为(甚至仅是告知他人规避方法),都可能被认定违法——即便相关TPM完全无效,且规避行为与版权侵权毫无关联。

这导致企业多年来滥用该条款,设置荒谬无用的“技术保护措施”,仅为借法律之名限制竞争。相关诉讼包括针对打印机墨盒车库门开启器等产品引发过诉讼。

谷歌声称其于2025年1月部署名为“SearchGuard”的TPM(听起来像是某种高级验证码系统),旨在阻止SerpApi抓取其搜索结果,但SerpApi找到了破解方法:

2025年1月SearchGuard上线时,有效阻止了SerpApi访问谷歌搜索结果及其合作伙伴的版权内容。但SerpApi立即着手破解谷歌的技术保护措施,并迅速发现可行方案予以部署。

SerpApi应对SearchGuard的策略是:将每日向谷歌发送的数亿次自动化查询伪装成人类用户行为。其创始人近期将该过程描述为“利用大量被谷歌视为普通用户的IP地址创建虚假浏览器”。

SerpApi的伪造手段多种多样。例如当SerpApi向谷歌提交自动化查询时,若SearchGuard发出验证挑战,SerpApi可能伪造查询来源的设备、软件或地理位置信息,从而通过验证并获得查询提交权限。此外或另行采取的策略是:SerpApi可能先用“合法”请求通过SearchGuard的验证,再将获得的授权进行分发——即共享给全球未经授权的设备,使其“虚假浏览器”生成的自动化查询在谷歌看来具有合法性。该服务还通过自动化手段绕过验证码系统,而验证码正是SearchGuard用于区分人类用户与机器的另一项机制。

规避这些防护机制消耗了谷歌的资源,这无疑令谷歌感到困扰。但真正的动机在于谷歌对经济利益的考量。谷歌已开始与内容合作伙伴签订授权协议——最引人注目的是价值数百万美元的Reddit协议——而如今这些合作伙伴正因SerpApi允许他人免费获取同类数据而愤怒不已:

对谷歌而言,SerpApi的自动化抓取不仅消耗大量计算资源却分文未付,更破坏了谷歌的内容合作生态。谷歌通过内容授权提升搜索结果质量以增强竞争力,而SerpApi的行径削弱了谷歌在授权协议上的巨额投入,使其他无需承担同等成本的服务也能获取这些内容。

SerpApi抓取谷歌搜索结果的行为同样损害了向谷歌授权内容的权利人权益。该平台未经许可且未支付报酬,便从谷歌获取内容并广泛分发给第三方使用。此举将危及谷歌与权利人的合作关系——这些权利人本期望谷歌能防止其展示内容被擅自挪用。至少已有谷歌内容合作伙伴Reddit因SerpApi的违规行为提起诉讼。

这正是1201理论真正危险之处。若谷歌的论点成立,将为任何试图锁定内容的网站运营商提供操作指南:只需设置一个简单的技术保护措施——验证码、IP验证等任何手段——就能援引联邦法律打击任何破解者,即便其目的与版权侵权毫无关联。

影响迅速向外蔓延。如果谷歌在此得逞,还有什么能阻止各大网站纷纷要求从最大规模的抓取者那里获取许可收入?Cloudflare可能在其服务的庞大互联网区域部署机器人检测系统,并要求谷歌付费。WordPress也可能在其庞大网络中采取同样措施。开放网络——其根基在于发布内容可供公开索引与分析——将沦为由各种许可要求拼凑而成的碎片化体系,每项要求都通过1201条款威胁强制执行。

这对开放网络的未来前景显然不利。

谷歌的法律理论还存在另一个重大缺陷:要求技术保护措施(TPM)必须“有效控制”访问权限。就在上周,法院驳回了Ziff Davis将OpenAI被指控无视其爬虫限制的行为定性为1201条款侵权的诉求。法院的裁决理由在此同样适用:

robots.txt文件要求网络爬虫停止抓取特定内容,其效果如同要求访客“勿踩草坪”的告示牌——无法真正“有效控制”对该内容的访问。据Ziff Davis自身陈述,robots.txt指令仅属请求性质,无法有效控制对版权作品的访问权限。网络爬虫无需“应用…信息、流程或处理手段”即可访问包含robots.txt指令的网页内容;其只需无视文件中的请求,无需采取任何积极措施即可获取内容。因此,FAC未能主张robots.txt文件构成“有效控制访问的技术措施”,基于此理由,DMCA第1201(a)条主张不成立。

谷歌将辩称SearchGuard与之不同——它不仅是礼貌请求,更能主动识别并阻断抓取工具。但若SerpApi能通过伪装浏览器和轮换IP地址轻松绕过该系统,它是否真能“有效控制”访问?抑或只是块稍显精致的“禁止践踏草坪”告示牌,任凭决心已定的行为者视若无睹?

此问题至关重要,因为它决定了原本旨在防范CD/DVD盗版的法律条款,是否如今也适用于所有通过自动化手段访问公开网页的行为。

数十年来,我们始终遵循着以robots.txt为代表的自愿性网络爬行准则。各大平台遵守这些指令并非出于强制要求,而是因为维护该规范能使各方受益。如今体系崩塌的根源并非SerpApi,而是聚焦于大型语言模型训练的爬虫兴起,加之其他企业试图通过授权协议分食资金流。Reddit与谷歌就开放网络内容谈判许可协议已是预警信号,如今更演变为法庭上的1201条款争议诉讼。

Reddit和谷歌均宣称此举旨在保护开放互联网免受恶意行为侵害。但攀上梯子后抽走梯子并非保护——而是寻租行为。谷歌的帝国建立在公开网络内容可自由抓取索引的假设之上。如今它却欲改写规则……竟借用好莱坞最爱用的工具来封锁信息通道。

真正的问题不在于谷歌反击SerpApi的规避策略。问题在于他们选择的法律武器——若得逞,将彻底颠覆我们对开放网络访问权的认知。《版权法》第1201条早已被滥用于扼杀从打印机墨盒到车库门开闭器等各领域的竞争。如今仅因SerpApi存在可疑操作,就将其适用范围扩大至基础网络抓取,这威胁到“已发布网络内容可供索引、研究和分析”这一根本性假设。

谷歌本可通过技术改进或提高规避成本来解决问题,使其商业模式难以维系。但他们却选择了法律捷径——若得逞,其影响将远超某家可疑抓取公司,彻底重塑互联网格局。

互联网正在变革,在大型语言模型与人工智能训练时代,网页抓取的运作方式确实存在合理质疑。但通过曲解版权法覆盖其从未设计的领域,赋予每个网站运营商仅凭设置验证码就能索要许可费的权力,绝非解决之道。

这并非保护开放网络,而是将其封闭。

元素周期表抱枕

本文由 TecHug 分享,英文原文及文中图片来自 Google Built Its Empire Scraping The Web. Now It’s Suing To Stop Others From Scraping Google

共有{53}精彩评论

  1. 我不确定其合法性,但确实欣赏他们的产品。这场诉讼显得奇怪,因为谷歌自身也在抓取内容用于索引。据我所见,SerpApi本质上只是提供了一个机器接口——而谷歌自己拒绝向用户开放这个接口,同时阻碍用户查看搜索结果页面(SERPs),这些本应是用户理应享有的权利。

    不过我可能只是太天真了…

    1. 谷歌公开了通过robots.txt文件控制爬虫的方法,并严格遵守这些指令。他们还采取措施避免占用用户全部带宽。谷歌虽非完美,但至少在“善意”努力提供服务,这在法庭上具有参考价值。总体而言,多数人认同谷歌为帮助用户发现网站所做的努力,其价值足以抵消其行为带来的影响。

      当然,若执意深究,总能找出诸多边界案例。但多数情况下我认为“争论毫无意义”。某些特殊情形下,经过深思熟虑后我或许会支持你的观点,但总体而言谷歌现行机制基本有效,属于可接受的折中方案。

      1. 但他们的机器人默认处于启用状态。这本质上属于未经许可的抓取行为。若我未经授权向数百万邮箱发送垃圾邮件,却附上退订链接,难道就能成为好人?

        1. 如今所有人都了解robots.txt机制,若未主动拒绝抓取实属自身疏忽。批量拒绝抓取操作简单,若需精细控制也完全可行。

          况且多数人通常不介意被搜索引擎收录,这与人们厌恶的邮件垃圾信息截然不同。

          1. 观察SerpApi的客户情况,多数企业似乎认可抓取谷歌数据的行为。但这不同于网站内容被盗用后,由谷歌搜索的AI进行摘要处理——这种情况显然不受欢迎。

            1. 诉讼指控称SerApi未遵守robots.txt协议,且从谷歌获取的数据量远超索引操作所需频率。至少这是我从报道中对法庭指控的理解——我尚未阅读正式诉状。

              只要不占用过多带宽,人们通常对索引操作持包容态度。

              利用AI摘要内容仍是未决问题——若最终演变为“允许索引但禁止摘要”的模式,我不会感到意外,但这需要时间验证。

            2. 或者像谷歌代码维基那样,道德上等同于靠剽窃真实旅行指南作者的内容来制作伪造指南牟利

      2. 谁说robots.txt具有法律约束力?反垄断分析呢?我反而更困惑了。

        1. 法院这么说。鉴于这是长期存在的传统,他们很可能会认同。

          1. > 法院这么说。

            你有法院判定违反robots.txt构成现有法律违规的案例吗?

            在Ziff Davis诉OpenAI案[1]中,纽约南区地方法院认定违反robots.txt不构成违反《数字千年版权法》第1201(a)条(即美国法典第17编第1201(a)条,该条款禁止规避受版权保护内容的技术保护措施[2])。

            据我所知,robots.txt最初是社会性强制规则,至今仍属法律自愿性规范。

            [1] https://blog.ericgoldman.org/archives/2025/12/are-robots-txt

            [2] https://www.law.cornell.edu/uscode/text/17/1201

      3. 一边为己所用抓取所有内容,一边肆意摧毁网站,这有什么好的?谷歌也该被起诉。

        加上其他所有人工智能公司,他们犯下了人类历史上最大的盗窃罪。

  2. 这就是我尽可能停止使用谷歌的原因——他们不断突破合理使用与版权判例的边界,将公共互联网中无需登录即可展示的内容视为抓取的合理目标。美国最高法院裁定:若想限制内容使用,必须设置身份验证机制,而非简单地将内容投放至公共互联网。

    随后他们却扭曲法律,通过法务团队炮制“但不包括这种情况!”的荒谬说辞,挥舞财富与影响力打压其他企业和个人。而绝大多数案件都消失在记忆黑洞里——保密协议与庭外和解让真相永不面世。除非你如鹰般警惕,在头条新闻被抹除前捕捉到蛛丝马迹,否则永远无法窥见他们造成的全部危害。

    谷歌必须被拆分,我们需要立法瓦解现行的广告技术体系,制定尊重隐私与主权的数字权利法案,将个体公民的利益置于巨型企业集团和大规模监控数据产业之上。

  3. 谷歌抓取数据,这究竟算什么?更甚者,谷歌能利用所有数据(如YouTube)强化其人工智能产品,而其他企业却无此权利,这种垄断行为实属不公。这意味着巨头企业将永葆霸权,中小玩家注定要付出更多努力且侥幸才能生存。这绝非公平竞争。因此我认为抓取谷歌数据对社会而言实属必要。

  4. 摘自诉讼文件

    > SerpApi应对SearchGuard的策略是掩盖其每日向谷歌发送的数亿次自动化查询,使其伪装成人类用户行为。SerpApi创始人近期将此过程描述为“利用大量被谷歌视为正常用户的IP地址创建虚假浏览器”。

  5. > 被告SerpApi有限责任公司(“SerpApi”)通过欺骗手段大规模自动抓取谷歌受版权保护的内容及其他资源,免费获取后再收费提供给各类客户。通过此举,SerpApi 既窃取了谷歌在内容创作与投资中产生的宝贵成果,又剥夺了谷歌合作伙伴应得的著作报酬。

    这简直是讽刺。难道谷歌不是最严重的同类行为者吗?

    1. 不,谷歌并未使用欺骗手段。其爬虫明确标识为GoogleBot,并遵守robots.txt协议。

      1. 谷歌在建立垄断地位后,现在根本无需如此行事…就像SerpApi若垄断搜索领域,也无需采取欺骗手段。

      2. 因为他们强迫所有人接受。他们是互联网流量黑手党。阻挡他们,你就从网络上消失

        他们滥用这种权力抓取你的作品,进行摘要处理并尽可能剔除你的贡献。纯粹榨取他人劳动价值却毫无回报。如今借助AI技术更是变本加厉

        不过你说得对,他们确实不存在欺骗行为

        1. > 因为他们强迫所有人接受他们。

          根本没人强迫任何人。这和当年人们对谷歌搜索的指控如出一辙。没人强迫任何人使用谷歌搜索、谷歌浏览器,甚至允许谷歌爬虫抓取内容。

          成千上万用户已转向ChatGPT、Brave/Firefox浏览器…

          你的论调就像在说:“我不喜欢苹果的做法,却被迫购买iPhone。老兄,若不喜欢苹果就别买他们的产品”

          1. > 已有成千上万用户转向ChatGPT、Brave/Firefox等平台

            若想吸引访客,将目标局限于“数千名”不使用谷歌的用户显然行不通。

            > 你的论调就像在说“我不喜欢苹果的商业模式,却被迫购买iPhone” 老兄,若你讨厌苹果,就别买他们的产品"

            好吧,我确实不喜欢苹果和谷歌的做法,但基本上[1]我只能用iOS或安卓系统。

            [1]:确实存在GrapheneOS和Librem这类系统,但对多数人而言并不实用。

          2. > 你的论点听起来像“我不喜欢苹果的做法,却被迫购买iPhone。兄弟,若讨厌苹果就别买他们的产品”

            不,情况不同。苹果有替代方案,而谷歌掌控着绝大多数互联网流量的入口

            对许多人而言,“封杀谷歌就意味着生意完蛋”

      3. 那他们的LLM产品呢?众所周知OpenAI根本不遵守robots.txt文件

        1. 谷歌使用相同的爬虫和robots.txt文件来获取训练数据。

          1. 训练数据其实使用的是不同爬虫:Googlebot-extended。因此你可以将自己排除在训练数据之外,但无法阻止搜索摘要收录。

  6. > SerpApi 狡猾地获取谷歌从第三方授权的内容

    他们对“授权”的定义似乎与多数人不同。网站运营者不都在抱怨谷歌将这类“授权”内容用于AI概览吗…更别提为AI模型训练抓取内容的行为。

    真是五十步笑百步。

    1. 据我所知,谷歌尊重robots.txt协议且不隐藏爬虫身份,因此若需屏蔽可轻松实现。这似乎是个关键区别?

      1. 谷歌之所以能遵守robots.txt协议,是因为它在搜索领域占据垄断地位,而且根本没人会考虑在该协议中真正屏蔽谷歌。

        SerpApi可没有这种特权。

        1. 但SerpApi并非抓取网站,而是向google.com发送恶意请求。

          1. SerpApi正在抓取谷歌。请求的“恶意性”取决于视角。谷歌当然认为其恶意,但这未必属实。

      2. robots.txt并非具有法律约束力的文件,无人有义务实际遵守它

      3. 法律从未强制要求遵守该文件。在互联网早期,遵循它曾是明智之举。但在当今网络环境中,遵守robots.txt等同于自我设限,不应如此行事。

        无论robots.txt如何规定,DDoS攻击始终违法。

        1. 当你主张无视他人意愿时,使用“应该”这类措辞颇为奇怪。虽然有时存在不配合的理由,但默认遵守仍是明智之举。

          1. 网络已成敌对之地。若你打算创建搜索引擎,所有网站都已写好robots.txt文件禁止你这么做。要么无视禁令,要么放弃搜索引擎计划。

            1. 或许唯一合乎道德的选择就是不参与?或者走艰难路线:抓取用户允许的内容,并尝试谈判获取更多数据。

              1. “开发搜索引擎不道德”绝对是史上最荒谬的论调之一。谷歌肯定很高兴你这么认为。

  7. 若谷歌提供同等API,SerpApi根本不会存在…

      1. 因为谷歌正是通过抓取其他网站数据来构建其Gemini人工智能市场霸权。Web 2.0的承诺在于开放API,而谷歌正试图在Web 4.0时代巩固自身地位,同时起诉那些大规模效仿其行为的竞争者。

        对抗性互操作性是数字人权。企业要么合理提供该服务,要么人们将通过其他方式主张权利。

    1. 谷歌为何要开放API?这如同苹果起诉员工窃取知识产权时辩称“若免费开放就不会有人窃取”。关键在于——为何要免费开放?

  8. 抓取与恶意抓取有何区别?谷歌从事的是抓取还是恶意抓取?人工智能公司从事的是抓取还是恶意抓取?

    1. 需注意,我并非为谷歌诉讼的正当性辩护,但他们确实在这篇博文中阐述了他们认为自身抓取行为与SerpApi的区别。

      > 像SerpApi这样的隐蔽抓取者会强制覆盖网站指令,完全剥夺网站选择权。SerpApi采用阴暗的后门手段——例如伪装身份、用庞大机器人网络轰炸网站、为爬虫设置虚假且不断变换的名称——以此绕过我们的安全措施,批量窃取网站内容。[…] SerpApi 欺骗性地获取谷歌从第三方授权的内容(如知识面板中的图片、搜索功能的实时数据等),再收费转售。此举蓄意无视搜索结果中内容提供方及网站的权利与指令。

      在我看来这确实…耐人寻味。谷歌直接将网络内容纳入搜索结果已开创不良先例,更甚者竟向用户生成内容的网站支付费用(而这些网站却未向实际创作内容的用户付费,堪称双重打脸)。

      但谷歌至少暗示SerpApi是在“窃取”谷歌已完成的工作成果,而非自主完成同类工作。不过考虑到谷歌在网络爬虫领域享有特权地位,我不禁怀疑这是否实为其在爬升后抽走梯子的行为。

      这案子很棘手。我认为针对无视robots.txt的“恶意”网络爬虫终究需要采取措施,但传统上这类行为并不违法,我对如今判定其违法持怀疑态度。话说LinkedIn不是也干过同样的事吗?

      1. >用庞大的机器人网络轰炸网站

        像GoogleBot那样?

        没错,robots.txt本身不受任何法律强制执行。

        我认为这不过是想让SerpApi陷入漫长的法律程序和费用消耗战。

    2. 是否遵守robots.txt协议(谷歌遵守,SerpApi不遵守)似乎是个关键区别。

    3. 恶意抓取是指他人实施的行为。当他们抓取互联网数据训练AI时,因其自称“合法”便成了正当行为。

  9. 若谷歌提供合理定价的可用API,SerpApi根本不会存在。

  10. * 这是梯子被猛然抽走的声音

  11. 谷歌的行为令人作呕。抓取数据就是谷歌的全部生意。

    而他们假装在为他人版权而战,不过是虚伪行径堆砌上的点睛之笔。

  12. 谷歌可以去吃一袋鸡巴。

    他们的整个AI模型都是被抓取的。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: