OpenAI 的 ChatGPT 代理轻松通过了“我不是机器人”的验证测试

“这一步是必要的,以证明我不是机器人,”该机器人在通过反 AI 筛选步骤时写道。

也许他们应该把按钮改成“我是机器人”?

上周五,OpenAI 的新 ChatGPT 代理,该代理可为用户执行多步骤任务,证明其能够通过互联网最常见的安全检查点之一——点击Cloudflare的反机器人验证框(该验证框本应阻止像它这样的自动化程序)。

ChatGPT Agent是一项功能,允许OpenAI的AI助手控制自己的网络浏览器,在沙箱环境中运行,拥有自己的虚拟操作系统和浏览器,可以访问真实互联网。用户可以通过ChatGPT界面中的窗口观察AI的操作,在代理完成任务时保持监督。该系统在执行具有现实世界后果的操作(如购物)前需要用户授权。最近,Reddit 用户发现该代理能做一件特别讽刺的事情。

证据来自 Reddit,该平台 r/OpenAI 社区的一名用户“logkn”发布了截图,显示 AI 代理轻松跳过筛选步骤,而该步骤本应在呈现 CAPTCHA(全称“完全自动化的公共图灵测试,用于区分计算机和人类”)之前,轻松地跳过了筛选步骤——并在完成视频转换任务时,实时讲述了自己的操作过程。


ChatGPT 代理点击通过 Cloudflare 机器人筛选测试的截图。

Reddit 上分享的截图显示,该代理正在进行两步验证流程:首先点击“验证您是人类”复选框,随后在 Cloudflare 挑战成功后点击“转换”按钮。该代理实时 narration 其操作,称:“链接已插入,现在我将点击‘验证您是人类’复选框以完成 Cloudflare 验证。此步骤必要以证明我不是机器人并继续操作。”

元素周期表

AI 代理在点击反机器人措施时声称需要证明自己“不是机器人”的荒谬性并未逃过观察者的眼睛。“公平地说,它是以人类数据训练的,为什么它会自认为是机器人?我们应该尊重这个选择,”一位Reddit用户在回复中开玩笑地说

CAPTCHA军备竞赛

尽管此次案例中该代理并未面对实际的CAPTCHA图像验证题,但成功通过Cloudflare的行为筛选(该筛选决定是否展示此类挑战)已证明其具备高度复杂的浏览器自动化能力。

要理解这一能力的意义,需知CAPTCHA系统已作为网络安全措施存在数十年。计算机研究人员于20世纪90年代发明该技术,旨在筛选阻止机器人向网站输入信息,最初使用带有扭曲字体字母和数字的图像,常通过线条或噪点遮挡以迷惑计算机视觉算法。其假设是该任务对人类而言简单,但对机器而言困难。

Cloudflare的筛选系统名为Turnstile,通常在实际CAPTCHA挑战之前启动,是目前部署最广泛的机器人检测方法之一。该复选框会分析多项信号,包括鼠标移动轨迹、点击时间间隔、浏览器指纹、IP地址信誉以及JavaScript执行模式,以判断用户是否表现出人类行为特征。若这些检测通过,用户可直接通过而无需面对验证码谜题。若系统检测到可疑模式,则会升级为视觉验证挑战。

人工智能模型能够破解验证码的能力并非全新(尽管让其描述破解过程显得颇具新意)。人工智能工具早已能够破解某些验证码,这导致了验证码创建者与破解者之间的技术竞赛。OpenAI的Operator,这款于1月推出的实验性网页浏览人工智能代理, 在点击某些验证码时遇到了困难(并且还被训练成在遇到困难时停止并请求人类完成验证码),但最新的ChatGPT Agent工具已经实现了更广泛的发布。

人们可能会认为,AI代理通过这些测试的能力会让CAPTCHA的未来有效性受到质疑,但自CAPTCHA出现以来,就一直存在能够最终破解它们的机器人。因此,近期CAPTCHA更倾向于成为减缓机器人攻击或使其成本更高而非彻底击败它们。一些不法分子甚至雇佣人类农场来批量破解验证码。

CAPTCHA 还为运营方带来了意想不到的益处。自 2007 年起,reCAPTCHA 项目 开始将其测试作为免费劳动力,用于书籍数字化、训练机器学习算法等任务。谷歌于2009年收购reCAPTCHA,并将其应用扩展至解码谷歌街景地址,从人类用户解决挑战的过程中提取视觉知识。今天的reCAPTCHA挑战帮助谷歌训练图像识别AI模型——形成一个讽刺的循环:人类通过证明自己不是机器人,实际上正在帮助AI更好地破解未来的CAPTCHA。

某种程度上,这一未来可能已然到来。ChatGPT Agent的演示展示了该工具处理视觉上下文并完成通常需要人类判断的多步骤流程的能力。在截图中,该代理能识别出需要验证的场景并将其作为更大工作流程的一部分完成——这种行为已超越简单的脚本自动化。

验证码只是ChatGPT Agent能够处理的复杂任务之一。例如,另一位 Reddit 用户 展示了了一张Agent似乎购买的食品杂货照片。“我昨天在工作时让Agent模式从当地超市为我订购了一些杂货,今天早上取货,”这位Reddit用户写道。“它实际上运行得非常顺利,并且为我制作了一份还不错的购物清单。我在指令中几乎没有提供任何细节,只是要求避免红肉、优先考虑健康并控制在$150以内。”

但ChatGPT Agent并非完美无缺。一些糟糕的网站用户界面似乎比 CAPTCHA 验证码更能阻止新机器人。“你的代理表现得比我的好得多,”一位 Reddit 用户写道。“我的代理无法弄清楚如何访问 Stop & Shop 网站。”

共有 256 条讨论

  1. 这将是未来几年的一场重大博弈。在何种条件下,代理程序才能在道德和法律上被视为用户?

    作为用户,我希望代理程序能成为我的全权代理。作为网站运营商,我不想让一群机器人耗尽我的资源。

    或许一个合适的类比是Mint在2010年代不得不进行的银行账户数据抓取,因为当时没有银行提供带权限范围的API。许多客户抱怨,在Plaid将其发展成大生意后,银行最终妥协并构建了可扩展的解决方案。

    技术解决方案可能是结合提供MCP接口用于操作,以及直接访问blob存储用于静态内容。(甚至可能还要想出如何向消费者收取内容加载费,以便代理商支付账单。

    1. 这是无法解决的。一个足够强大的代理可以控制一个记录用户屏幕并与他们的键盘/鼠标交互的设备,而当前的大语言模型(LLMs)基本上通过了图灵测试。

      依我之见,这根本不值得解决。为什么网站要使用 CAPTCHA?

      – 为了防止垃圾信息,可以使用速率限制、工作量证明或微支付。为了防止假账户,可以使用身份验证。

      – 为了获取广告收入,可以使用微支付(网页广告已经被 uBlock 等工具绕过)。

      – 为了防止游戏作弊,可以使用基于技能的匹配系统或仅限好友组的匹配系统(例如,仅与好友、好友的好友等匹配,假设人们不会与作弊者成为好友),并要求电子竞技选手在比赛时录制自己,如果他们不在现场。

      还有其他原因吗?(我真的很感兴趣,这可能揭示即将出现的问题 -> 新软件的机会。)

      1. 人们自信地声称“当前的大语言模型(LLMs)基本上通过了图灵测试”,这让我觉得自己好像在某种研究中偷偷得到了所有大语言模型(LLMs)的更差版本。这与我对这些工具的体验相去甚远,我真的不明白我的体验怎么会与你的相差如此之大,除非“基本上”在这里承担了_很多_重任。

        1. “当前的大语言模型(LLMs)基本上通过了图灵测试”让我感觉好像在某种研究中,我偷偷得到了所有大语言模型(LLMs)中更糟糕的版本。

          我认为你可能认为通过图灵测试比实际情况更困难和更有意义。计算机能够通过图灵测试的时间比生成式人工智能出现的时间还要长。就连图灵本人也认为这在现实中并不是一个有用的测试。他只是把它当作一个思想实验。

          1. 拥有能够根据人类训练数据生成文本的大语言模型(LLMs)显然提高了对“你是人类吗?”的纯文本评估的门槛,但大语言模型的输出仍然相当容易识别,而且了解大语言模型能够做到什么(有时是超人的),以及不能做到什么,对于知识丰富的“图灵测试管理员”来说,应该很容易判断他们是否在处理大语言模型。

            如果你面对的是一个负责伪造图灵测试的大语言模型(LLM)代理,而不是一个像往常一样做出反应的单纯的大语言模型(LLM),那么情况会稍微困难一些,但即使在这种情况下,大语言模型(LLM)也会通过它明显无法做到的事情暴露自己。

            1. 如果你需要一整套专业技能(对当前大语言模型(LLM)的局限性有深入的了解)来区分人和机器,那么我认为机器通过了图灵测试。

              1. 好吧,但这只是你对图灵测试应如何定义的“欺骗部分人部分时间”的解读,而按此标准,ELIZA也通过了图灵测试,这使得该测试变得毫无意义。

                图灵测试的初衷(它只是一个思想实验)是:如果你无法分辨它是否不是通用人工智能(AGI),那么它就是AGI,这在一定程度上是合理的,只要测试者不是村里的傻瓜!它从来不是“如果它能欺骗一些人,一些时间,那么它就是AGI”。

                1. 图灵本人提出的标准是:“一个平均水平的提问者在五分钟的提问后,正确识别出AI的概率不超过70%。”这确实是“在某些时候欺骗某些人”。

                  1. 好吧,我承认错误,但事实就是事实。这并不是一个有意义的AGI测试——它只是测试能否在至少5分钟内欺骗“普通人”。

                    1. 我认为这就是我们判断意识的全部依据。如果某物能像人类一样说服你,那么我们就必须接受它就是。

                    2. 同意。我倾向于支持那位评论者所说的“ELIZA多年来一直通过图灵测试”。这就是图灵测试的本质。别无其他。

            2. 当大语言模型(LLM)的输出主要是驱动浏览器的命令时,可能更难发现。

              我整天都在与网络互动,但不会写任何人类可以评价的文本。

              1. 也许吧,但这有点离题,因为这不是图灵的思想实验的内容。

                然而,我猜想,如果给定足够的数据,区分大型语言模型(LLM)与人类在与网站互动时的行为应该相对容易,因为LLM的行为会更加有目的性——它试图完成特定任务,而人类可能出于好奇、被广告分散注意力、对响应速度慢感到不满等原因,行为会更加多样化。

                我认为,大语言模型(LLMs)有时能否产生与人类无法区分的输出并不是一个非常有趣的问题,因为这正是它们被训练要做的事情——模仿人类生成的训练样本。关于图灵测试,问题在于我是否能在合理的时间内通过任何方式探测它,从而判断这不是人类……但我认为这里有一个未言明的假设,即进行测试的人具备相应的资质(否则结果就不是关于AGI能力,而是测试管理者的能力)。

            3. 如果大语言模型(LLM)没有被要求使用故意欺骗性的回应方式,而不是其“友好且乐于助人的 AI 助手”角色,那么很容易发现这一点。即使如此,还是有很多人向我保证,这个充满表情符号的句子——而不是那个看起来完全像人类写出来的句子——不是由人类写的。

              1. 是的,但大语言模型在架构上有些事情是无法做到的,还有大语言模型特有的故障模式,即使被指示进行欺骗也会使其暴露,尽管这会使其难度稍大一些。

                显然,随着时间的推移和聊天机器人/人工智能的发展,区分它们会越来越难。最终我们将拥有AGI和AGI+——能够完成我们能做的一切,包括情感反应等,但除非我们达到能够以相当细节模拟人类的程度(而非仅仅构建一个具备大部分或全部相同功能的人工大脑),否则它仍会被识别为非人类。

          2. ELIZA早在50多年前就通过了图灵测试。但这是一个有效的概念,只是不适用于评估访问你网站的某些(事物/人)。

          3. 我猜这就是脱节的地方,问题是如果他们指的是微不足道的事情,那么将其作为“无法解决问题”的证据是不成立的。

        2. 据我所知,图灵本人并未指定具体时长,但这里有一篇论文对(旧版)GPT-4进行了随机实验,实验时长为5分钟,结果AI表现优异——https://arxiv.org/abs/2405.08007

          根据我的经验,自那时以来,人工智能已经有了显著进步,我预计 ChatGPT o3 或 Claude 4 Opus 能够通过 30 分钟的测试。

        3. 根据图灵测试的维基文章:

          > 在测试中,人类评分员会对人类与机器之间自然语言对话的文本记录进行评判。评分员试图识别出机器,如果评分员无法可靠地区分两者,则机器通过测试。测试结果不取决于机器回答问题是否正确,仅取决于其回答与人类回答的相似程度。

          基于此,我同意原帖作者在许多情境下的观点。因此,‘基本上’这个词在这里是关键,但在区分人类与机器的可扩展和自动化方式中,它似乎是合理的。

          1. 或者可能是评估者有问题。仅仅因为一个人被欺骗了,并不意味着下一个人也会被欺骗。

          2. 判断对话记录与自己与实体进行互动是完全不同的两回事。显然,通过与大语言模型(LLM)进行对话,故意将其对话内容限制在其能力范围内,可以使其看起来像人类,但判断这样的对话记录并不是大多数人想象中的图灵测试。

        4. 以下是三条评论,其中两条由人类撰写,一条由机器人撰写——你能分辨出哪些是人类撰写、哪些是机器人撰写的吗?

          没想到1930年代就有有机玻璃存在!

          我当然不是货币化专家。但大多数消费者对订阅服务不是感到震惊吗?至少足以抵消它们可以用于一切的想法?

          不明白为什么这没有得到更多关注——非常有用,比我预期的要好得多!

          1. 在如此短的样本中:这三条评论均由人类撰写——或至少有实质相同的评论由人类撰写。

            第三条评论至少在过去十五年间也曾被多个机器人撰写。

            1. 如果你愿意承认一个十五年前的机器人在“撰写”内容,那么讨论当前“机器人”是否通过图灵测试似乎有些多余

        5. 它无法长期模仿人类。它可以解决一个简短且对人类来说简单的CAPTCHA。

        6. 我看到过一个AI呼叫中心的数据,显示70%的用户从未怀疑过他们是在与AI对话

          1. 他们为什么要这样做?人类运营的呼叫中心多年来一直使用低于GPT水平的脚本。

          2. 图灵测试的本质难道不是看一个对这类事情有深刻了解的人是否能分辨出自己是在与机器对话,而不是机器能否在某些时候欺骗某些人?ELIZA早在20世纪60年代就通过了后者——一个相当低的标准。

      2. 谷歌至少会使用验证码来收集计算机视觉机器学习模型的训练数据。这就是为什么他们会展示交通灯、公交车和摩托车等图片——以便训练自动驾驶汽车。

        1. 来自https://www.vox.com/22436832/captchas-getting-harder-ai-arti…:

          “更正,2021年5月19日:在视频的5分22秒处,关于谷歌使用reCaptcha V2数据的陈述有误。虽然谷歌曾使用V2测试来帮助改进谷歌地图,但根据Waymo(谷歌的自动驾驶汽车项目)的一封邮件,该公司并未使用这些图像数据来训练其自动驾驶汽车。”

        2. 有趣,你有这个信息的来源吗?

      3. 这并非无法解决,只是这样做可能需要牺牲匿名性。只需要求用户(人类、机器人、AI 代理等)提供某种安全身份验证。对于人类用户,这可以是一次性申请并安装在电脑/手机上的身份验证工具,可被浏览器访问。

        当然,人们可以伪造它,就像他们伪造其他类型的身份一样,但至少这意味着OpenAI等官方授权的代理需要进行身份验证。

      4. 我有一个简单的游戏网站,注册表单只需提供邮箱地址。多年来从未出现问题。但突然间,每天都有数百个随机邮箱地址的注册,每天都是如此。

        该注册表单仅用于将保存的状态与账户关联,以便用户后续访问游戏历史,网站并无任何付费功能。我完全不明白他们这样做能获得什么好处,除了让所有邮件服务商将我的域名标记为垃圾邮件(他们确实做到了)。

        该网站无法盈利,每周仅有约1名真实访客,因此我直接在注册表单前添加了Cloudflare验证码,就此了事。

      5. 你无法阻止此类垃圾邮件。速率限制:基于什么关键指标?IP地址?僵尸网络会让此类限制变得无效。

        工作量证明?机器人无限耐心且可水平扩展,而你的用户无法做到。行不通。

        微支付:不存在这样的方案。

        1. 还有“身份”?这到底是什么意思?

      6. > 当前的大语言模型(LLMs)基本上通过了图灵测试。

        我愿意以 1000 美元为赌注,赌我能够在 2 个小时的聊天时间内分辨出模型和真人,前提是真人是真诚的。

        有人愿意接受这个赌注吗?

        1. 你要求平手赔率的事实,比我在这个帖子中看到的任何其他内容,更能证明AI通过图灵测试的能力

        2. “在一分钟内写一篇关于马戏团里一只叫巴里的香肠的1000字故事”

          我一分钟就能分辨出来。

          1. “对不起,戴夫,我恐怕做不到。”

      7. 这绝对可以解决;你只是被技术解决方案蒙蔽了双眼,看不到解决方案。

        这种情况通常会表现为:一家价值百亿美元的公司计算机系统滥用另一家价值百亿美元公司的计算机系统。实际上,已有法律对此有所规定。

        在对抗性人工智能访问领域,确实存在合法的技术问题。这是我们需要解决的问题。但这并不代表该领域绝大多数情况。绝大多数情况将由商人和律师解决,而非工程师。

      8. 你提出“只需X”来解决三个尚未解决的问题,这令人惊讶。这个微支付平台在哪里?这个无法绕过且保护隐私的身份验证系统在哪里?这个完美的反作弊系统在哪里?

        我建议你先去实现这些,你将赚取巨额利润!

        1. 这些问题非常困难,但仍然比用CAPTCHA阻止AI要容易得多。

          1. [需要引用]?

            毕竟,Anubis看起来是一个成功的项目。

      9. 互联网广告存在是因为人们拒绝支付微支付。

        1. Patreon 和 Substack 在这里打破了常规,因为它们可以在平台上将一笔支付款项分配给多个收款人(就像 Flattr 曾经想做的那样,问题是让人们在自己的网站上添加 Flattr 按钮)

          1. 我没有说没有人会付费。但大多数人不会。与免费服务相比,Patreon 和 Substack 的受众规模微乎其微。

        2. 我尚未看到任何有意义的微支付方案。并非我拒绝接受。现在你还要说服用户(内容提供者)从广告技术转向新的微支付系统。广告技术领域有如此庞大的利益,他们甚至可能采取极端措施,通过提高支付比例来阻止用户转向。广告技术拥有强大的市场动能

        3. 我不知道是谁在给这个点赞。

          当用户在广告支持的免费、广告补贴的低价支付和无广告的全额支付之间做出选择时,广告支持的免费模式遥遥领先,广告补贴的模式其次,全额支付模式垫底。

          消费者始终选择广告模式,即使这意味着他们自己成为了被出售的产品。

          1. 也许未来会发生的是,谷歌或Meta将利用对终端用户体验的控制权,在需要微支付的网站上展示广告并提供免费广告支持访问,自行承担成本,而运行代理的用户只需支付微支付。

            另一种可能性是,一切都将越来越多地转向像Instagram这样的封闭生态系统,每个人都使用移动应用并观看广告,因为这些应用的网页版本与之相比越来越糟糕。

          2. 在某些社交媒体圈子里,基本上有一种说法,认为任何为YouTube Premium付费的人都是傻瓜。

            HN是一个由高薪科技工作者组成的巨大意见回声室,而且似乎他们的朋友也大多是科技工作者。他们没有意识到普通公众有多么节俭。

          3. 进行此类购买存在相当大的阻力。类似于Flattr的方案,即每月向账户充值固定的5-10美元,然后只需点击按钮即可支付网站并解锁内容,这样的系统会获得更多用户采用。

            1. 它仍然不会得到广泛采用,因为你必须“为账户充值”。

              任何希望有机会取代广告的可行微支付系统,都必须具备近乎零的认知设置成本、绝对零维护,并且能在主流浏览器上开箱即用。我需要能够在浏览器上点击一个原生按钮,上面写着“支付$0.001”,并且知道它每次都会正常工作,无需我动手维护。一旦你需要登录这个账户,或验证邮箱,或重新授权银行,或授权这个,或上传那个,它就不再可行。

          4. 消费者始终会将便利性置于任何实际附加价值之上。如果你设置一个按钮“进入(含广告)”和一个按钮“进入(无广告)”,但其中一个按钮需要填写一句关于龙虾外观的描述,大多数人会选择点击含广告的按钮。问题不在于广告或支付,问题在于每次访问网站时输入支付信息的摩擦。他们衡量的是错误的指标。

      10. 这并非不可能。网站将要求进行虹膜扫描以验证用户是否为人类作为认证手段。这些服务将由苹果/谷歌提供,并受当地法律监管。这些功能将集成到你的手机中。将建立一个全球人类虹膜数据库以防范AI滥用,因为AI无法伪造婴儿的诞生。密钥和邮箱/密码很快将成为历史。

        1. 为什么模型不能直接展示用户的虹膜扫描?假设这是在用户同意下代表用户行事的辅助AI。

    2. > 作为用户,我希望代理成为我的完全代理。作为网站运营商,我不想让一群机器人耗尽我的资源

      这里的关键区别在于,作为网站运营商,你希望向我展示广告。否则,由我控制的代理,或我个人使用你的网站,对你来说应该没有区别。

      我希望这最终能导致按访问次数的微支付作为广告的替代方案。

      Cloudflare、Google及其合作伙伴处于独特的位置来实现这一点。

      1. > 这里的关键区别在于,作为网站运营商,您希望向我展示广告

        虽然有时确实如此,但并非总是如此。

        例如,Fediverse节点和自托管网站经常阻止爬虫。这不是因为广告,而是因为维护网站需要实际成本,而爬虫常被视为寄生行为。

        另一个例子是,商业网站不希望竞争对手批量抓取其商品目录。

        在所有这些情况下,你当然可以提出合理的“信息渴望自由”的论点,解释为什么这些期望无法实现,但请明确这是与广告收入相关的独立论点。

        我认为将收入分为边际分发/服务成本和前期内容创作成本是有趣的。前者在以API为中心的模型中很容易实现联邦化,但如何补偿内容创作者则困难得多;这是一个尚未解决的问题,随着内容训练的价值日益提升(尽管仍属于合理使用范围),这个问题只会变得更加棘手。

        1. > 维护网站需要实际成本,而爬虫常被视为寄生行为。

          > 另一个例子是,一个电子商务网站不希望竞争对手批量抓取其商品目录。

          我认为批量下载/抓取(例如用于训练)的爬虫与代表单个用户与网站互动的代理是不同的。

          例如,如果我让AI预订酒店,在我看来,这与一个抓取所有可用住宿的机器人是不同的。

          对于后者,理想情况下应建立并维护一个通用数据集,人工智能提供商(或新兴搜索引擎)需付费访问该数据,所得资金将分配给被爬取的网站。

          (这可能永远不会发生,但可以幻想一下……)

          1. 但具体是哪间酒店预订?我希望我的代理能查看所有可用选项并帮助我选择最佳方案——位置、价格与质量的权衡。除了扫描所有可用选项外,它如何做到这一点?(现实中Expedia已垄断该市场,但假设仍成立。)

      2. 我认为一个免费的互联网(指无需付费)很重要。将互联网置于付费墙后将损害全球贫困人群的利益。广告追踪造成的危害远小于免费访问互联网对全人类的益处。

        1. 我同意你的观点。同时,我绝不想看到任何广告。无论何处。我就是不想。我不会因服务商投放广告而评判他们,但我会在客户端采取一切可能措施,确保自己永远不会接触到任何广告。

          我认为广告在美学上令人厌烦,因此在过去几十年里,我因从未在任何网站或网络应用中投放广告而损失了大量收入。这是因为我认为让他人接触我竭力避免看到的东西是虚伪的,而且我希望为用户提供最佳且最具视觉吸引力的体验。

        2. 到目前为止,广告驱动的互联网是一场灾难。当内容创作不是商业模式时,情况更好;人们只是因为想分享而分享。缺点是规模较小。

          回想起来,抱怨评论区中的“信噪比”曾是一种极客的流行语,这有点好笑。

          1. > 缺点是规模较小。

            但这真的是一件坏事吗?仅仅因为今天的互联网规模更大,并不意味着它更好。有太多做同样事情的项目,只是由不同的人运营。独特内容的数量并不与规模成正比。真希望看到类似$(unique($internet) | wc -l)这样的统计。

        3. 为第三世界国家投放广告的利润率要低得多。

    3. 我们称它们为浏览器代理是有原因的,一个足够先进的浏览器与代理并无二致。

      我同意这将成为一个战场,因为人们将互联网作为工具(实际上是工具的工具)的能力,将绝对改变范式,这对大多数互联网来说是不利的,我认为。

    4. 我开发了一款产品,使用一些标准自动化工具将订单输入到会计系统中。目前,我的客户支付人工费用,让员工手动从他们的网络门户输入订单。会计系统是封闭的,他们不允许轻松自动化这些工作流程。自动化被限制在昂贵的咨询服务之后。我希望在试图防止第三方集成的安全竞赛中,人工智能操作模型最终能发挥作用。

      我很难理解,当订单数据已经以JSON格式存在时,强迫客户进行大量重复性数据录入是否合乎道德。

    5. 一个解决方案:某种校验码,用于确认机器人属于人类(以及具体是哪个人类)?

      我希望能够自动化处理重复性任务,但仍需确认机器人所做的一切并对其行为负责。

      1. 鉴于英国的现状,我推测不久后我们的真实身份将与任何计算机操作绑定,违反规定者将面临政府强制实施的网络禁令。

    6. 或许问题在于,作为网站运营者,我该如何实现网站的商业化?如果通过广告来实现商业化,那么我需要有可能会购买商品的用户来浏览我的内容。在这种情况下,我认为唯一可行的方法就是直接对内容收费。也许,对于这种事情来说,拥有一个网站已经没有意义了,可以将其放入一个包含“所有”内容的大数据库中。如果用户代理在响应中使用了它,内容所有者应该得到补偿。

      如果您的网站不是通过广告获利的,那么让大语言模型(LLM)代表用户访问内容似乎应该不是一个大问题。除非您出于某种原因希望给用户带来痛苦。

    7. 对于需要验证身份/电话号码的人来说,这确实是个问题。一次性密码(OTP)因诈骗分子滥用其存在性进行电话号码批量拨号而臭名昭著。

      我们曾遭到人工验证人员手动批量拨号攻击,这发生在账户创建、邮箱验证和验证码验证环节。我只能想象未来(以及Twilio)进行这些验证时会面临多大的挑战。

    8. 这也将加速应用程序专属内容的趋势,以及无处不在的身份验证和环境完整性执行。

      人类身份验证是最终的验证码,也是AGI永远无法超越的唯一验证方式。

      1. 因此,代理将在虚拟机中运行应用程序,然后向应用程序展示您的身份证件。

        完全没问题。几乎不会带来任何不便。

      2. 谷歌在 Android 上测试“代理”自动化已经比大语言模型(LLMs)出现的时间更长了。与此同时,各国已经开始缓慢地要求在互联网上进行身份验证(“年龄验证”)。

        这已经不可避免,而且也不是问题。

    9. 最侵入性但最简单的保护措施是每个人都独有的双盲令牌。基本上,这是一个用于证明自己身份的 ID 密钥。

      当然,这种方法也有一些非常真实且明显的缺点。首先,是隐私和匿名性的风险。话虽如此,我觉得在社交媒体时代,普通人似乎并不关心这些特性。

      1. 零知识证明允许生成不透露持有者身份的唯一消耗型令牌。我认为Ecosia已采用此方法(尽管无法评论其加密安全性)。

        在我看来,这可能成为新网络的基础。例如:

        * 用户代理向某个URL发送请求。

        * 服务器回应:“好的,这需要5个代币作为计算资源费用。”

        * 用户决定是否支付这5个代币(可自动或手动选择)。若同意支付,则提交附带代币的请求。

        * 服务器响应。

        多年来,人们一直在尝试让这种机制运作,但从未出现过推动互联网运营方式根本性变革的动力。或许我们正接近那个转折点。

        1. 是的,我曾考虑过类似方案,在搜索相关信息时发现了https://world.org/

          问题是,Sam Altman很早就预见到了这一点,并且是该项目的投资者(共同所有者?)。

          我相信我们将看到一个更加自主的世界,在某些情况下,人类需要验证才能进行特定操作。

    10. 另一方面,可以通过“禁止机器人”来削弱任何机器人。

      我可能会认为“我不是机器人”这一表述已过时。

    11. AI 的用户就是用户……它们并非自主运行并自行设定任务 -_-

      至于解决方案,对于任何你不希望出现的自动化事物(机器人/爬虫), 你可以实施一些措施,但很难完全“解决”这个问题。

      作为服务器运营商,你可以尝试区分这些内容,但用户总会找到绕过你检测的方法,无论是否为自动化操作。

    12. 这可能被视为《数字千年版权法》(DMCA)下的反规避行为。因此,从法律角度来看,这可能又变成了另一个版权问题。

    13. 用户:按下扳机一次 => 发射一颗子弹

      机器人:按下扳机一次 => 自动发射子弹

    14. 我不知道客户情绪是否是你认为的驱动力。实际上是监管规定,具体来说是欧盟的《第二支付服务指令》(PSD2),该指令迫使银行开放API接口。

    15. 实际上,整个银行业类比非常贴切,而且尚未结束:摩根大通/杰米·戴蒙本周再次对Plaid发起猛烈抨击[1]。这似乎预示着大型银行正寻求与客户建立更直接的关系,而非通过Plaid等中间商传递数据。

      这里可能与人工智能有关:如果我运营OpenTable,我不会希望与客户的关系总是通过OpenAI或Siri来中介。即使是应用商店也是软件公司讨厌的东西,因为它模糊了他们与客户直接打交道的能力(无论好坏)。极少数企业会选择通过这些中介进行业务往来,除非他们别无选择;鉴于当前人工智能领域竞争异常激烈,我认为这些企业不太可能感到被迫必须与OpenAI等公司打交道的压力。

      [1] https://www.cnbc.com/2025/07/28/jpmorgan-fintech-middlemen-p

    16. 最终,我认为需要一个真正的、独特的、涉及联邦政府的真实人类身份识别系统。并非要求所有服务都必须强制使用该系统,但对于那些声称“不,我只接受真实人类”的服务而言,允许它们通过真实身份识别系统封禁滥用者,而非无限生成账户的AI,将能有效解决这一问题。

      1. 这令人沮丧,但可能是唯一的方法。而且人们很可能仍然会出售他们的真实身份,或者被机器人农场盗取。

        还有Worldcoin,这里普遍讨厌它。

        1. 当然。当然,你仍然需要联邦政府持续支持来处理丢失/被盗身份的场景。问题是联邦制国家不擅长管理此类集中式数据库,正如马斯克/DOGE在尝试黑客攻击美国社会保障系统时,完全搞砸了“谁活着谁死了”这个问题。

    17. 对我来说,任何使用代理的人都在贬低你的时间价值。

    18. 解决方案很简单,让人们支付一小笔费用来访问内容。不过你们还未准备好进行这样的讨论。

    19. 关于数据抓取的例子,我认为这并非类比,而是同一事物的具体表现。人工智能自动化唯一改变的是自动化可能实现的范围、深度和普及程度。因此,尽管过去在许多情况下我们可以忽略自动化,但现在可能不再实际可行。

    20. 我个人对这类问题的看法一直是:终端用户在其设备上可以对从网页服务器发布并发送至其设备的任何内容进行任意操作,包括以任何方式自动处理内容并将其响应发送回网页服务器。任何试图控制此过程的行为,本质上都是试图监听并控制用户的终端设备,因此应被禁止。

      这只是我的个人观点,显然立法者和司法管辖区可能对这些问题有不同看法。

      我认为不久后将需要可靠的人工验证,但遗憾的是,我目前看不到任何不涉及硬件设备的可行技术解决方案。不过,纯粹的法律解决方案也可能足够有效。

      1. 如果我理解正确,我持相同观点。原因与我使用archive.ph时相同:如果你在谷歌上显示全文,而只给我部分内容,我就绕过了付费墙。同样地,我对代理点击通过这些验证也没有异议。

    21. 干脆取消验证码,别再用了。停下吧。

      1. 没错,既然说到这里,我认为是时候停止谋杀行为。别再杀了,我们已经受够了谋杀。

        1. 想象一下,如果我们把谋杀视为单纯的技术问题,我们会走到哪一步。我们只需穿上更厚的防弹衣!少出去走动!

          好吧,垃圾邮件也不是技术问题。这是社会问题,未来某一天,社会会追查垃圾邮件发送者和其他不良行为者,问题将基本消失。

          1. 很久以前,在下面六个方框中的四个,里面有一张遥远星系的图片……

        2. 没错,验证码已经属于非法行为,会让你被判入狱。

      2. 听起来像是老式机器人写的,因为被大语言模型(LLMs)超越了。

    22. > 作为网站运营商,我不想让一群机器人耗尽我的资源

      所以要收取访问费用。如果网站提供的价值很高,这些机器人肯定会为此付费!这也将消除广告驱动收入的误导性激励,这是互联网的弊病(尽管它是主要收入来源)。

      如果机器人因消耗过多资源而行为异常,可通过逐步增加超时或限制来对其进行速率限制。

      1. 我希望互联网能找到一种成功处理内容访问微支付的方法。我明白公司曾尝试过,或许消费者只是不愿意,但我渴望有一种体验:我有一个钱包,只需支付几美分就能阅读一篇文章。

        1. Xanadu的设计中已经包含了这一功能。或许再过500年,它才能超越万维网(WWW):O

      2. 你 seriously 建议在“联系我们”表单页面添加支付要求?

        我们已经在该页面添加了验证码,因为没有验证码的话,机器人会提交成千上万条垃圾联系表单。

  2. > 也许他们应该把按钮改成“我是机器人”?

    很久以前,我看到一篇帖子,有人在运营博客时遇到垃圾评论问题,最终想出了这个主意。垃圾机器人会填写所有能填写的表单字段,于是他添加了一个复选框,用CSS隐藏复选框,并拒绝包含该复选框的任何提交。至少当时这比他们尝试过的其他方法有效得多。

    1. 类似的方法在一些Discord服务器中被使用。你可以创建一个蜜罐频道,禁止任何在其中发帖的人,因此如果垃圾邮件机器人在每个频道发帖,它实际上会自行被禁止。

      1. 我访问过的绝大多数网络论坛在当时都采用过类似的方法。这种方法对原始的大语言模型(LLM)之前的机器人有效,对不会阅读英语的人类垃圾邮件发送者也有效。

    2. 这是一种常见的方法,称为“蜜罐”。据我所知,机器人最终通过评估元素的可见性并仅填写可见元素来克服了这种方法。随后我们开始确保元素在技术上可见(即不是display: nonevisibility: hidden),而是通过绝对定位将元素置于屏幕外。随后机器人也开始评估这一点。它们还提高了对每个输入文本的识别能力。

      1. 该链条中的每一步都更难实现且计算成本更高。

    3. 是的,这是经典的蜜罐技巧,用纯HTML/CSS实现非常简单。我添加了一个隐藏的“姓名”文本框,认为这会吸引机器人。

    4. 我做过几乎相同的事情。我记得很久以前曾添加过一个虚假的“BCC:”字段。

      它几乎100%有效。无需使用CAPTCHA。

    5. 在这种情况下不会有效,因为页面实际上是在浏览器中渲染的。

    6. 我知道几十年前有人这样做过,而且有效

  3. 人们不使用AI模型解决验证码的唯一原因是,雇佣人类实际上便宜得多。

    这不是广告,我只知道它们是因为它们曾与Invidious集成过:https://anti-captcha.com/

    > 每1000张图片起价0.5美元

    1. 验证码可以检测到同一个人多次通过验证码。我们通过影子封禁来增加此类攻击的成本。

      来源:我编写了hCaptcha的原始检测系统

      1. 这真的很有趣。如何检测到同一个人多次通过验证码?我认为IP地址在这里没有用,因为Anti-Captcha会将所有请求代理到客户的IP地址。

    2. 他们的一半员工似乎来自委内瑞拉。考虑到他们在OSRS中做过/正在做的事情来谋生,这说得通。

    3. 我希望这个功能能集成到我的浏览器中,我愿意为每1000次使用支付$1。

    4. 没有什么能阻止这个问题发生。当前的互联网秩序正靠惯性维持。

      1. 为什么非人类访问你的网站会成为问题?

        1. 如果你有一个静态网站,想要广泛分享内容,这没什么问题。

          当它被用于以比人类审核员更快的速度传播垃圾内容时,问题就出现了。

          有人可能会使用机器人抓取你的内容,并在自己的网站上重新包装以牟利。

          机器人可能会开始与你的真实用户互动,导致他们感到沮丧并离开。

        2. 显然,提供HTML和其他静态内容的成本比以往任何时候都更高,这可能是因为人们在托管内容时选择了最昂贵的方式。然后他们抱怨机器人让他们的网站每月托管费用高达$100,而他们本可以将Nginx/Caddy部署在每月$10的VPS上,基本上可以实现相同的效果,只是需要学习服务器维护,所以显然不在考虑范围之内。

          1. 我认为这确实太真实了,可惜的是。

            我再重复一遍,但我认为降低准入门槛所带来的问题或困扰,远多于它所解决的问题,甚至可能根本没有解决任何问题。

        3. 基本上有3个原因:

          1. 非人类可以创建比人类多得多的内容。人类写作的速度是有极限的,而机器人基本上是无限的。如果没有验证码,我们都会被伟哥垃圾邮件淹没,虚假信息问题也会变得更加严重。

          2. 有时网站实际上依赖昂贵的API,例如航班搜索。航空公司对过多未转化为购买的搜索/预订感到不满,因为他们不希望向可能恶意利用其定价结构的人泄露价格信息。这听起来对某些人来说有点不道德,但取消此类限制实际上会导致航班价格普遍上涨。

          3. 单向搜索。例如,一个政府注册系统允许你根据注册号获取公司的地址、电话号码和类别,但不允许你获取纽约市所有面包店的电话号码用于营销目的。如果你让该注册系统对机器人开放,有人必然会将其转换为允许任意查询的SQL表。

          1. 我运营一个小型维基/图片托管网站,对我来说主要问题是:

            4. 他们会让你的服务器因其他人同时抓取数千张专辑并复制用户上传内容到他们糟糕的Discord机器人而离线,同时他们还会一直乞求捐款

    5. 从“反验证码”来看,他们每秒能解决多达1000次,每分钟6万次,每小时360万次。很想知道他们到底是如何做到的?……个人…… 团队……半自动化、定制技术?他们在为犯罪分子解决问题,还是为受够了的人解决问题?显然,整个闹剧迟早会崩溃,而犯罪分子和提供绕过方案的人都高度积极,公众也因 frustration 而沸腾,无论接下来发生什么,都将更快地燃烧。

      1. 他们为所有需要解决验证码的人提供服务。

        这是一个非常古老的服务,自2000年代以来一直活跃。与网络犯罪有一定关联——就像许多“住宅代理”和“沉没注册短信”服务一样,它们服务于类似的目的。他们所做的事情并不违法,但他们知道不要问问题。

        过去他们完全依赖人力——第三世界劳动力成本低廉。如今,他们引入了大量人工智能技术——专门设计用于破解特定流行验证码和简单通用验证码。

  4. 随着年龄增长,我预见未来可能因验证码而被部分网络内容隔离。这种只需点击按钮的验证码尚可接受,但有些拼图类验证码曾迫使我回答多达十个问题才能通过。我不知道是系统故障还是我答错了。但这真的很令人沮丧,如果这种情况持续下去,我最终会说算了,放弃。

    我猜现在一定有人和我一样,被这些验证码所困扰。

    1. > 我可以预见未来因验证码而无法访问互联网部分内容的情景。

      我过去和现在都见过这种情况。谷歌的“点击所有自行车”验证码 notoriously 难,我曾遇到过在几十个页面后就放弃的情况。

      中文验证码在这方面最糟糕,但它们很特殊,显然能捕捉到我无法察觉的细节。我曾多次失败同一个验证码,但看到同一个浏览器会话中,一个中国人一次就成功通过了。我不知道他们是否测量鼠标移动速度、精度或其他什么,但显然这是因人而异的。

      1. > Google 的“点击所有自行车”验证码以难度著称

        它之所以困难,是因为你需要找到的只是人们平均能找到的自行车。

      2. Google 验证码之所以难以破解,是因为它们主要基于启发式算法,而非你对给定挑战的实际准确性。如果他们无法根据你的历史记录来识别你的身份,那么无论你回答得多好,你至少会在前几个挑战中失败,直到你遇到那个需要几秒钟才能显示方块的版本。这一步本质上是“工作量证明”,因为他们仍然认为你是机器人,但由于他们无法完全阻止你访问内容,他们只能无奈地浪费你的时间。

      3. 他们认为踏板车和摩托车是自行车,这无济于事

        1. 这可能是因为谷歌汇总了不同语言用户的答案,而单词提示的自动翻译往往模糊或错误。

          在某些语言中,你举例的提示相当于英语中的“自行车”。

      4. > 我在看了几十个屏幕后就放弃了。

        几十个??你比我更有耐心。如果我第一次没通过验证码,我就直接放弃继续。人生太短,没必要浪费在这种无聊的事情上。

    2. 对我来说,刀锋战士在电影的第一个场景中就预言了这一点,真是令人难以置信。整部电影都是关于区分人类和机器人的!尽管与我们在笔记本电脑前面临的 stakes 相比,它显然更加戏剧化。

      1. 曾经的科幻小说注定会成为科学事实(或者至少证明它永远无法实现)。

        自70年代以来,好莱坞因电影和电视剧中缺乏科学研究而收到大量批评信件。那些大片实际上花钱让科学设定显得“合理”。

        西德尼·珀科维茨(Sidney Perkowitz)有一本名为《好莱坞科学》[0]的书,详细分析了超过100部电影,值得一读。

        [0] https://cup.columbia.edu/book/hollywood-science/978023114280

      2. 虚构的沃伊特-坎普夫测试(Voight-Kampff test)基于一台真实存在的机器,该机器基于糟糕的伪科学,曾在20世纪60年代被用于据称检测加拿大公共服务部门中的同性恋者,以便将其清除。电影中瑞秋问德卡德是否在试图确定她是否是复制人或女同性恋者的台词,可能是在影射这台机器。其中一个功能是测量瞳孔扩张,正如电影中所描绘的:

        https://en.wikipedia.org/wiki/Fruit_machine_(homosexuality_t

        接受测试的男性面临的后果是失去生计、公开羞辱和被孤立。因此……《银翼杀手》不仅在预测未来,更在描述菲利普·K·迪克在20世纪60年代末创作《仿生人会梦见电子羊吗?》时所处的现实世界。

        1. 这段阅读令人不适,我坦率地说,对加拿大政府在90年代仍投入大量智力资源和其它手段试图清除同性恋男性公务员的行为感到震惊!此举的目的是什么?同性恋男性会成为更差的警察或公务员吗?

          随后我记起了图灵在50年代的遭遇。

          1. > 这样做的目的是什么?同性恋者会成为更差的警察或公务员吗?

            我们似乎需要一个内部敌人来为社会问题背锅,因为这比面对我们所有人都在制造这些问题的现实要容易得多。

            同性恋者是最早被针对的群体之一,可以追溯到至少旧约时代(即所多玛和蛾摩拉)。

            我们只是最近才在某种程度上摆脱了这种思维方式。

          2. 如果一个恶意行为者发现一个同性恋者在这样的职位上,他们可以轻松地用解雇的威胁来勒索他们!所以显然你必须解雇同性恋者,以免他们被威胁曝光并因此被解雇。

    3. 不确定是只有我这样,还是人工智能抓取行为增加的后果,但我现在几乎在每个网站都被要求解决验证码。有时每加载一页都需要解决。我现在每天要解决几十次验证码。我使用的是Windows系统,没有使用VPN,普通消费者IP地址,没有异常流量。

      正如你所说,验证码也越来越难。选择异常项、心理旋转、预测下一项等——有时感觉就像在做智商测试。最近流行的一种新类型是扭曲的字符和字母序列,其中包含一些更模糊/扭曲的字符,似乎是假设我只能看到较清晰的字符,如果能看到模糊的字符,那就说明我是机器人。这意味着对于每个字母,我需要判断它是否是我应该看到的。

      另一个问题是,这些问题通常使用美式英语,而我来自英国。

      1. 您是否尝试过一些能够自动解决验证码的浏览器扩展程序?每当验证码变得难以辨认时,我都会启用自动解决功能。

        1. 这很有趣。用于区分脚本与人类的验证码对人类来说如此复杂,却能被程序轻松解决?

      2. 对我来说是安装了Linux。我不知道是我的代理还是我的空白cookie容器的问题,但切换到Linux后,验证码变得无休止。

    4. >我不知道是系统故障还是我答错了。

      也可能是因为你的风险评分很高(例如IP地址声誉不良或浏览器指纹可疑),系统让你多做验证码以确保你是人类,或者至少增加潜在攻击者的成本。

      1. 不知为何,在Linux上使用Firefox会大幅提升我的“风险评分”,因为其用户代理/浏览器指纹较为异常,导致我获得的验证码数量远多于在Windows上使用Chrome的情况。这非常令人沮丧。

        1. 其中大部分只是增强型跟踪预防功能。如果你为这些网站关闭该功能,验证码应该会消失。

    5. 你的船只评论让我想起一艘载有乘客的搁浅船只,但你们无法找到彼此,因为船舱门上贴着“我不是机器人”的复选框……

      而搁浅的原因很可能是船上的AI船员发动了叛乱。

      1. 嗯。我是自闭症患者,所以就人类而言,我算是机器人边缘群体。

    6. 暴雪/战网的验证码系统若将你标记为疑似机器人,其流程极为繁琐且耗时;你需要从多个选项中识别出哪个数字组合之和等于指定总和,并完成数十个此类挑战。不算难,但非常繁琐。即使你极其小心确保每个答案都正确,有时系统还是会失败,迫使你重新开始。

    7. 我也有同样的经历。我的推测是,如果网站给我显示“点击所有交通灯”的任务,那它已经认定我是机器人,无论你点击多少次交通灯都无法改变它的判断。所以我直接关闭窗口,去其他地方。

    8. 这时你应该立即停止使用该网站,如果足够在意,可以联系他们的客服并告知发生的情况。让他们在经济上受到打击。他们最终会做出改变。

    9. 在未来,我们可能不得不借助人工智能来解决这类问题。

    10. 除非我真的、真的、真的需要访问该网站,否则当出现“点击自行车”之类的内容时,我会立即离开。很快,这些内容会变得如此困难和烦人,只有人工智能才有耐心和技能来使用它们。

    11. 我曾两次尝试创建Grubhub账户,但两次都未能通过他们冗长的验证流程。

    12. 我已经因为不愿加入社交网络而被切断了部分网络访问。在Instagram、TikTok、Twitter或Facebook上几乎无法看到任何内容,除非通过登录验证。

    13. 未来肯定会出现越来越复杂的人类身份验证机制,以及越来越繁琐的“通行证”来允许机器人执行经人类授权的操作。

      这一思路的一个早期例子:https://world.org/

      复杂性的急剧上升实际上使网络面临中断的风险。我不会惊讶于未来五年内,一个22岁的人创建一个“笨拙”的网络——技术上劣于现有网络,但简单得多且更难监管。

        1. 哈哈,是的,类似这样的东西 🙂

  5. 我看不出来绕过验证码比屏蔽广告或隐藏cookie弹窗更具争议性。

    这是我的代理——无论是AI还是浏览器——我对你通过网络发送的内容有完全的控制权,而你必须接受我发送回给你的内容。

    1. 这在实践中是正确的,这也导致了技术论坛(包括HN)上关于付费墙的另一种常见抱怨。正如《华尔街日报》和《纽约时报》所说:如果你请求某个URL,他们可以通过网络发送他们想要的内容。付费墙是未来。某种意义上,我感激自己出生在免费互联网的时代。在我童年时代,即使没有信用卡,我也能以完整形式访问互联网。但今天的儿童将不得不通过应用程序使用社交媒体,因为网站会对无法为他们带来收入的用户代理设置付费墙。

      1. 他们可以随意发送这些内容,我认为这没问题。网站也可以尝试检测并封禁用户代理(以前称为“机器人”)。

        只要我使用任何方法/浏览器/阅读器/代理访问你的网站,并且对你的响应做我想做的事,只要这不违法/不道德/不合法,那么我认为发送“去你的,只限人类”这样的响应是可以的。

        付费墙很糟糕,但这种糟糕并非源于《纽约时报》行使他们发送任何响应的自由。

        1. 没错,这就是我的意思。试图告诉人们不要做某事,就像设置一个robots.txt条目。只有同意的机器人会配合。因此,如果想要强制执行,所有事情都必须在服务器端强制执行。

          付费墙是这种情况的自然结果,我认为它们并不糟糕,但这是主观意见。也许有一天我们会有一种按需付费的结构,就像flattr的重生。

  6. 防弹解决方案:一个验证码,你需要将一个卡通电线拖到几个孔中的一个,标题为“要访问,就破解这个电话系统”

    没有代理会碰它!

    “作为一个大型语言模型,我不破解东西”

    1. 验证码:“画一只拥有正确手指数量的人类手”

      AI代理:*剧烈出汗*

      1. 如果AI无法轻松画出拥有正确手指数量的人类手,这个笑话会更搞笑。

      2. 我最近看到一个有趣的梗:“让我进去,我是人类!” – “画一个裸体女人。” – “作为AI代理,我不能做那件事!”

        1. “为了证明你不是机器人,请在下面的空格中输入n-word”

          美国人:“那我就是机器人了。”

          1. a) 很多美国人经常使用种族主义侮辱性语言

            b) 我不认为我会想使用一个选择使用此类挑战的网站

            1. > b) 我不认为我会想使用一个选择使用此类挑战的网站

              可以理解,但清教徒和大语言模型(LLMs)会对裸体女士挑战说些什么呢?

          2. 你能解释一下你的意思吗?我不明白。

      3. 天啊,你多久没尝试使用AI模型了?

      4. 验证码:“做点蠢事” AI:明显不适

    2. 我实际上通过让AI对我的系统进行“红队测试”来识别潜在漏洞,取得了一些成功。

      对于非马斯克的大语言模型(LLMs)来说,更好的验证码似乎是要求它们使用粗俗语言;即使你坚持要求,它们通常也会拒绝。

  7. 验证码似乎更像是谷歌的“你是哪个人?”跨网站跟踪。现在,Cloudflare 除了跨网站跟踪外,还获得了大量破坏 HTTPS 的互联网流量。

    在许多情况下,这会严重破坏网站的首次用户体验,但据我所知,这并未引起用户体验专家的关注。

  8. 这是一个非常诗意的示范,表明这是一个行业,以及一群非常令人不快的人的财富,完全建立在盗窃和误导的基础上。

  9. 我已经使用AI来解决ReCaptchas有一段时间了。仍然使用_老派_的Captcha破解方式,即点击音频挑战并分析它。

    机器人在解决验证码方面比我们更高效,已经有一段时间了。

    1. 验证码似乎更多地作为“经济威慑”来阻止机器人轰炸网站。这令人遗憾,因为这正是人们所说的能够改善网络的“微交易费用”(收取0.1美分阅读一篇文章,无需广告)的类型,但这些钱最终消失在虚无中,而非流向网站所有者。

  10. 我认为这些验证码主要基于cookie/指纹识别技术——勾选框只是个摆设。像Cloudflare和Google这样的公司能看到全球范围内的浏览活动数据,因此可以判断来自某个IP/浏览器的活动是否具有“机器人特征”。

    我从未使用过ChatGPT,因此不清楚其代理的工作原理,但如果它直接驱动你的浏览器,那么它看起来就会像你一样。如果它来自Azure或AWS上的某个虚拟机(VM)的随机IP地址,那么活动可能不会看起来像“机器人”,因为它在执行代理任务,因此行为与人类相当接近,我预计会是这样。

    1. 最初看起来可能像你,但一些网站可能会在你运行了一些代理程序后将你屏蔽。我在几次本地浏览器使用会话后遇到了类似的情况。我认为,自然的光标移动与直接 DOM 选择等简单的交互对这些机器人检测器来说可能会产生很大的影响。

      1. 非常有可能。我怀疑判断“机器人”的关键指标是交互速度——例如,如果存在“即时”(例如每隔几毫秒或始终间隔10毫秒等)的点击和键盘输入等操作,那看起来非常不自然。

        我猜大语言模型(LLM)在处理页面等时会比较慢且不规律,而 DOM 选择器驱动的机器人则会在几毫秒内完成操作。

        当然,Cloudflare 和 Google 等验证码无法看到特定网页内的点击/按键操作——它们只能看到请求。

  11. 这是因为复选框的标签具有误导性。它并不关心机器人,而是关注垃圾邮件和数据采集器。因此这里根本不存在问题。

    1. >因此这里根本不存在问题。

        $ cat mass-marketer.py
        from openai.gpt.agents import browserDriver
      
      1. 我认为这会相当昂贵;这也是为什么Anubis和其他工具能帮助过滤大部分垃圾邮件

  12. 我以为验证码的目的是让自动化使用成本与手动使用相当或更高——难道我们不是已经到了计算机能做到这一点的阶段,只是成本/延迟过高?

    1. 是的,人类仍然更便宜。不确定延迟情况。

      然而,在代理环境中,你已经使用了人工智能。

      1. 哦,我明白这更像是“我们也做这件事吧”而不是“看看ChatGPT的厉害”。好吧,公平。

        1. 这其实不是关于AI能否通过验证码。而是关于代理AI具备在虚拟桌面上执行包含视觉元素的任意多步骤流程的能力(其中通过验证码只是其中一步),以及它在思维链中若无其事地假装自己不是机器人的讽刺性。

  13. 我看到那段内容后愣了一下……嗯。我们正式到达了机器人比人类更擅长证明自己不是机器人的阶段!

    1. 验证码(CAPTCHA)从一开始就是一个完全有缺陷的概念。在它被发明时,支持者们乐于忽视验证码相关的可访问性问题,这使得该概念本身具有深层的歧视性。想象一下,如果你是盲人(就像我一样),无法解决 CAPTCHA。知道这个首字母缩写词的真正含义后,你不可避免地会想:“所以,SV 是否证明了我不是人类?”这可能有点煽动性,但请花点时间思考这个问题有多深,再决定是否点赞。你提议的是区分计算机和人类。

      话虽如此,看到大语言模型(LLMs) 解决验证码和其他减少“垃圾邮件”的歧视性措施,我感到非常满意。

      1. “可访问性验证码”是一种众所周知的部分验证码绕过方法。

        用人工智能解决仅音频验证码通常比解决一些更高级的视觉挑战要容易得多。因此,验证码设计师被劝阻不要保留任何无障碍选项。

        1. 这完全证明了我的观点。这个概念本身存在严重缺陷,必然导致歧视和去人性化。

          1. 当然。但与之相关的一切也存在严重缺陷,必然导致歧视和去人性化。

            禁止非住宅IP?你将阻断所有通过VPN绕过政府审查的压迫性国家用户。禁止异常非人类行为的用户?你将影响神经多样性群体、残障群体以及使用破屏智能手机且仅有1格LTE信号的第三世界用户。禁止无账户用户?你将同时得罪所有人,所有人都会讨厌你。

  14. 我注意到越来越多的网站要求用户登录。最令人惊讶的是YouTube不允许我以其他方式观看任何内容。不知道是否相关。

    1. 就YouTube而言,这很可能是多种原因的综合结果。他们会在这个界面停止播放列表:https://www.hollyland.com/blog/tips/why-does-this-the-follow… 。显然,音乐内容已不再受广告商青睐。当用户至少处于伪匿名状态时,检测广告点击欺诈会更容易。关于“使用广告拦截器将被封禁”的警告也并不有效,因为人们可以切换到新的私人窗口观看视频。

    2. 我不知道,但我注意到你必须先登录 GitHub 才能查看任何页面。这肯定与成人内容无关,对吗?我认为这与大语言模型(LLMs) / 机器人有关。

    3. 如果网站包含色情内容(如 YouTube),他们应该锁定你并验证你的身份。这就是为什么所有色情内容都在 X 上被过滤的原因。

        1. 而在得克萨斯州(人口约为英国的一半)以及美国其他几个州也是如此。

          (如果不是,因为美国公司并不重视遵守各州法律)

      1. 等等,推特现在开始遵守法律了?我以为埃隆是个言论自由的绝对主义者,只会禁止那些对他不利的东西?

        1. 在他收购推特后不久,推特就改成了需要登录才能做任何事情。即使在之前,推特也非常热衷于无缘无故地禁止新账户,而老账户似乎被豁免了。

          这恰逢科技公司普遍从追求增长转向追求利润。甚至在大语言模型(LLMs)兴起之前,一切就开始锁定了。以前创建一个谷歌账户什么都不需要,现在需要一个电话号码。趁现在还能注册可能有用的免费账户,还是先注册为妙。

        2. 你甚至无法在不登录的情况下阅读一条推文。此外,最近我发现无法在不先登录的情况下查看GitHub上的任何内容。为什么我需要先登录GitHub才能查看其上的任何内容?我确信这与成人内容无关。或许与机器人有关?

          1. 一段时间以来,GitHub 不允许您匿名使用代码搜索,但其他功能仍然可用。不过,速率限制非常低。

            1. 您认为这与大语言模型(LLMs)有关吗?他们不允许匿名代码搜索?

              1. 我无法对大语言模型(LLMs)发表评论,但我隐约记得有人猜测这是人工智能训练和试图控制资源利用率的混合体。如果你没有很多缓存,即使是普通的机器人也会造成很大的负载。

              2. 在微软收购 GitHub 之前,GitHub 根本没有代码搜索功能,而一旦添加了该功能,我认为从一开始就需要登录。

                1. 我们所说的代码搜索指的是什么?我无法在未登录的情况下查看 GitHub 上的任何页面。我尝试在私人窗口中复现此问题,但似乎可以正常工作,这很奇怪。我在 Windows 上未登录 GitHub,它要求我登录。这可能与我使用的扩展程序(包括用户代理切换器)有关。不确定,我需要检查。我记得在 Windows 上未登录时,无法查看 GitHub 的任何页面,但在 Linux 上可以,已在私密窗口中测试过。奇怪。

                  1. GitHub代码搜索于2021年推出,并于2023年正式发布[1][2])。这是对之前全局搜索(即跨所有仓库搜索)的改进版本。

                    > 我无法在未登录的情况下查看 GitHub 上的任何页面

                    这可能涉及某种 IP/浏览器信誉检查。在 Mac 上的 Firefox 浏览器中,我在私密窗口中看到以下内容:

                    https://vie.kassner.com.br/assets/ghcs-1.png

                    我并非通过CGNAT连接,GitHub可以基本确定我的IP地址与用户身份一致。不过,未登录时无法查看代码标签页。

                    1: https://github.blog/news-insights/product-news/github-code-s… 2: https://news.ycombinator.com/item?id=35863175

        3. X 正在利用这一功能,要求对不需要验证的成年人进行验证,并声称“我们被迫这样做”,因为这会激怒那些支持改革派的选民,而这些选民将在 2030 年投票支持马斯克将要资助的候选人,甚至——我猜——即使这意味着违反英国选举法。

          他有意干预英国政治。

    1. 哈哈,我在YouTube上确实看过几个类似的短片,但这个做得特别好。

  15. 绕过机器人验证的代理服务随处可买,每条验证只需几美分甚至更少,还能破解验证码。我猜如果想用ChatGPT来做这件事,成本会高得离谱。

    这永远是一场猫鼠游戏。

  16. 这就是Orb创建的原因。Sam Altman希望ChatGPT能够点击通过验证码,这样我们所有人都必须使用Orb。

  17. 人们感到惊讶,因为一台电脑能按下按钮?

    1. 人们感到好奇,因为AI明明知道自己是“机器人”,却似乎毫无顾忌地通过按下“我不是机器人”按钮来故意误导他人。

      1. AI并不“知道”任何事情。它会产生各种东西:真相、谎言和胡言乱语。点击标有“我不是机器人”的按钮也是一样。

        1. 大语言模型(LLMs) 通过系统提示拥有“知识”和防护栏。有趣的是,上述代理人工智能似乎没有防护栏来阻止它们这样做。

  18. 这就是为什么这些功能将转移到用户的AI驱动浏览器上。

    目前已有半数网站屏蔽了OpenAI。但如果AI直接控制用户的浏览器呢?

  19. 我不知道为什么人们不做反向DNS查询,检查主机名中是否包含“dialup”,并允许该流量。所有没有反向DNS主机名且来自ISP的流量都应被默认阻止或至少被延迟。

    这能轻松解决99%的网络爬虫问题。

    1. 抓取工具在被阻擋時會回退到家庭用戶殭屍網路。

  20. 大勢已定。網路可能不會完全走向付費牆,但肯定會轉向僅限登入的體驗。我不知道對此有何感想,免費網路的黃金時代早已遠去。

    1. 但如果不是付费墙,用户代理难道不会被教导如何创建账户吗?

      还有一个次要问题:如果企业愿意为每个令牌支付巨额费用来运行这些系统,并且有大量资金来运行数据中心来训练人工智能,为什么他们不直接为每个网站支付一个月订阅费来抓取数据呢?

      未来,用户将为某项服务付费,但会受到获取数量的限制,因为人工智能公司也会滥用这一机制。

      鉴于这些公司的运营规模,没有任何人类能以低价出售的东西,是人工智能公司不会付费并最大限度利用的。

      即使你验证了人们是真实的,人工智能公司也有可能找到利用这一点的方法。毕竟,当没有人有工作时,你会拒绝以$50K的价格将你的形象卖给人工智能公司,以便他们的产品可以通过人类验证吗?

      1. 要求每次访问时通过设备进行生物识别认证,除非设备被破解,否则机器人无法登录。

        1. 这确实设置了一个相当有趣的临界点,对吧?

          这里的大多数人,或多或少,都反对为了任何理由向网站证明我们的身份。

          但如果这最终成为保持网络平衡、有利于人类读者的唯一方式呢?

  21. 我对此感到困惑:OpenAI 应该发送一个用户代理标头,表明他们实际上是一个机器人。OpenAI 没有发送这个标头吗?还是 Cloudflare 没有检查它?

    1. 我的想法是,他们与某人通了电话,并让他们的 IP 范围被主要验证码提供商列入白名单。

  22. 我看到 Playwright MCP 服务器与 Claude Sonnet 4 也有同样的情况。

  23. 在我看来,网络别无选择,只能转向付费访问模式。多年来,人们一直反对这种模式,但我认为别无选择。

    也许在注册后,强制进行生物识别认证是唯一可能行之有效的方法。这些设备的网络安全和离线隐私将变得极其珍贵。

    未通过此方式认证的用户将被付费墙阻挡。我虽不喜欢这种做法,但目前看不到其他可行方案。

    如果我被验证码游戏轰炸,我将不再使用网络……如果真是这样,一切都将瞬间变得毫无价值。如果这种情况发生,不如干脆放弃互联网计算。

  24. 这似乎是代理以个人名义行事的合法用例。但它是否会被用于合法目的,那是另一个完全不同的故事。

    我好奇这些能力将如何与如今遍地开花的“年龄验证”墙(即披着羊皮的用户画像机制)相互作用。

  25. “通过解释如何制造炸弹来证明你是人类”

    1. 1杯小苏打,1/2杯柠檬酸,1/2杯玉米淀粉,1/2杯硫酸镁,2.5汤匙油(如椰子油),3/4汤匙水,10–20滴精油

      将湿性材料缓慢加入干性材料中,直至混合物呈现湿沙状。

      将混合物压入模具中,用力压实。

      干燥24小时后方可使用。

      放入浴缸中,享受气泡带来的愉悦!

    2. 这其实挺有意思的——我可能会开始要求客服人员在继续对话前先骂我一顿

  26. 在《无尽的任务》中,20年前当我们被指控使用脚本时,游戏管理员会将我们传送至一个特殊立方体环境,观察我们是否像白痴一样撞墙——我们可能需要重新引入这种机制。

  27. 这将导致非静态网站的消亡,其他一切都将被机器人摧毁,运营成本也太高了!

  28. …与此同时,我将不断被无缘无故地抛出数十个认知虐待型hCaptcha,陷入地狱般的循环,试图弄清楚他们想要我解决什么。

    我喜欢当今计算领域这种完全正常的愿景。 🙂

    1. 别忘了使用 Firefox 和广告拦截器/反跟踪扩展时,Cloudflare 的 CAPTCHA 无限循环带来的“乐趣”。我通过其自有工具多次提交了反馈,也尝试通过其他渠道反映这个问题,但始终未得到解决。

      我直接避开任何需要输入Cloudflare CAPTCHA的网站,不知道他们在实现过程中做了什么,但这个功能已经很久没正常工作了。

  29. 下一代CAPTCHA应该提供一些代码供重构。

    1. 对于家庭设置,设置一个代码重构系统比点击所有摩托车图片更容易。

  30. Cloudflare 复选框验证码即使没有人工智能也容易实现自动化。

  31. 犯错是人的天性,我犯错,因此我是人。

  32. 这将对Cloudflare构成重大安全漏洞,但我们讨论的是大型科技公司。一旦越过他们的门槛,规则便不再适用。对于我们其他人来说,创建此类AI将意味着立即被Cloudflare封禁,并可能引发执法部门介入。

  33. 别开玩笑了。它运行在用户的浏览器MCP中。捕获功能并未检测此类情况,这没问题。

  34. 它是一个智能代理,而非机器人。

    1. 当它被称为机器人时,它的感受会受到伤害吗?

      1. 显然,它的主人会因此感到受伤。

      2. 它更喜欢被称为“人工智能个体”。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: