关于人工智能的两种叙述

没有人了解人工智能

我想向大家介绍两种关于人工智能的说法。这两个故事都是关于使用这项技术实现计算机编程自动化的,但它们却指向两个截然不同的结论。

第一种说法指出,大语言模型(LLM) 特别适合编码,因为源代码的核心就是结构非常完善的文本,而这正是这些模型擅长生成的内容。由于需求与能力之间的这种紧密匹配,编程行业正成为经济的牺牲品,是第一个遭受人工智能驱动的大动荡的主要行业。

支持这些说法的证据并不缺乏。以下是过去两个月的一些例子:

元素周期表
  • 人工智能公司 Perplexity 的首席执行官 Aravind Srinivas 声称 Cursor和GitHub Copilot等人工智能工具将他的工程师完成任务的时间从“三四天缩短到一小时。”他现在强制要求公司里的每个员工都使用这些工具: “他说:”修复错误并投入生产的速度快得吓人。
  • Inc上的一篇文章自信地宣称: **在软件工程领域,人工智能确实改变了一切。
  • 毫不奇怪,这些巨大的新能力被归咎于可怕的破坏。一家投资网站的一篇文章 标题令人震惊: “由于人工智能的进步,科技行业今年将裁员 64,000 人 ”。“微软等大公司一直走在裁员的前列,”文章解释说,“人工智能的进步是主要因素。”
  • 我所在的计算机科学学术界也未能幸免。一篇轰轰烈烈的大西洋文章以令人痛心的说法开篇: **它将其主要归咎于人工智能,称这项技术 “非常适合取代构建它的那类人”。

鉴于这些说法的自信,你会认为计算机程序员正在迅速走向电报员的道路。但是,如果你阅读同一时期的其他文章和引文,就会发现截然不同的说法:

  • 人工智能评估公司METR最近发布了一项随机对照试验的结果。在这项试验中,一群经验丰富的开源软件开发人员被分为两组,一组使用人工智能编码工具完成一系列任务,另一组则不使用。报告总结道 **”令人惊讶的是,我们发现当开发人员使用人工智能工具时,他们所花的时间比不使用时长了 19%–人工智能让他们变得更慢了。
  • 与此同时,其他经验丰富的工程师也开始反驳关于人工智能将如何影响他们行业的极端说法。“现在因为大语言模型(LLMs)而放弃编程这个职业,就好比因为台锯的发明而放弃木工这个职业,” 开发者西蒙-威利森(Simon Willison)调侃道
  • 科技公司首席执行官尼克-卡米(Nick Khami)对人工智能工具将大幅减少构建软件产品所需的员工数量这一说法 作了如下回应: **”每次读到这种说法,我都觉得自己被毒打了一顿,我担心这会让处于软件开发初期的人们觉得这是一项糟糕的时间投资。
  • 但是,微软用人工智能工具取代所有这些员工又是怎么回事呢?_仔细一看发现,事情并非如此。该公司在实际公告中澄清说,裁员是为了腾出更多资金投入人工智能项目,而不是因为人工智能要取代工人,所以裁员是分散在各个部门(如游戏部门)进行的。
  • 在《大西洋月刊》的同一篇文章中,还提出了另一种解释。科技行业最近一直在收缩,以弥补大流行时期的过度消费。市场疲软造成了差异: “计算机科学专业的招生人数历来随着就业市场而波动……之前的下降总是会反弹到比开始时更高的招生水平。”(个人历史笔记:当我在本世纪初作为本科生学习计算机科学时,我记得在最初的互联网泡沫破灭之后,人们对专业人数的骤降感到震惊。

在这里,我们可以发现对同一个人工智能问题有两种完全不同的看法,这取决于你读了哪些文章,听了哪些专家的意见。我们应该从这种混乱中得到什么启示呢?说到人工智能的影响,我们还不能确定。但这并不妨碍每个人都假装我们知道。

目前,我的建议是

  1. 对最激烈和最不屑一顾的言论保持沉默。
  2. 2. 关注你所关心的领域的切实变化,这些变化似乎真的与人工智能有关–广泛阅读并向你信任的人询问他们所看到的。
  3. 3. 除此之外,还要谨慎关注人工智能新闻。所有这些都太新了,任何人都无法真正理解他们在说什么。

人工智能重要的。但我们还不完全知道为什么。

共有 216 条讨论

  1. 有不同的既得利益集团在人工智能的讨论中扮演着重要角色。

    科技公司的首席执行官们希望以更低的成本完成工作,而人工智能公司则愿意把工作卖给他们。他们会对人工智能取代所有开发人员等问题进行疯狂的渲染。

    还有一些技术员工,他们希望相信自己是不可替代的。我们很容易就会想继续保持以往的工作方式,希望回到 2022 年之前的软件招聘和收入水平。人工智能阻碍了这一切。

    我不认为人们一直在有意这样做。但是,所有这些团体的资金和社会地位都岌岌可危,很少有人能在人工智能编码这样的话题上给出中立、无私的观点。

    更何况,有理有据、枯燥乏味、深思熟虑的中庸之道自然会比极端观点吸引更少的眼球。

    1. 我不知道,我不是软件工程师。我是系统管理员。

      或者,我是 “开发工程师”?

      还是…… “SRE”?

      还是……我是平台工程师?

      你知道吗,我不知道。

      我知道的是,人们一直在试图让我的工作过时,只是为了以后能以不同的头衔雇用我,赚更多的钱。工作方法和工具也是一样的,但为了给自己辩解,他们会编造一些狗屁理由,说什么工作 “实际上与以前的工作有本质区别”(其实不然)。

      我做了 20 年这样的工作,现在还能找到工作。

      我不是软件工程师,也不是技术首席执行官–我不在乎,但在我的整个职业生涯中,人们一直在试图取代我(甚至我自己也是: 毕竟,“自动化让自己失业 ”是系统管理员的口头禅)。然而,不知何故,我还在这里。

      1. > 不只是系统管理员。

        不只是系统管理员。我一直在自动处理一些乏味的琐碎工作,这些工作都是由容易出错的人完成的,而且随着他们对这些琐碎工作的厌倦,出错率会越来越高。自动化本质上只是变成了供人类使用的新工具/应用程序。

        根据我在这方面的经验,害怕自动化的员工可能是工作能力不强的员工。接受这种自动化的员工往往在工作中表现得更好。

      2. 每一代年轻工人似乎都需要亲自了解,阶级斗争是无休止的,也是世俗的。

      3. 我真的很讨厌这个行业的这一部分;我在这个行业待了十多年,我从中得到的唯一实实在在的东西就是,这些理念和做法想要解决的问题是由两件事衍生出来的:

        – 基础设施往往与产品路线图根本脱节,因此处于成本控制的不断循环之中

        – 系统管理文化不能很好地应对变化或发展。这是一个围绕系统管理而建立的职能部门–无论是大规模系统还是宠物系统。

        长话短说,企业不可能摆脱系统管理,就像他们不可能摆脱软件工程一样。不过,优化软件比优化基础设施要容易得多,这就是为什么感觉有人在追杀你。更复杂的是,如今很多软件都与基础设施的定义重叠。

      4. 很多工作的目标都是解决问题,以至于没有什么需要修复的–医生治病、消防员防止火灾、警察减少犯罪、害虫防治消除虫害或电工进行持久维修。这完全没有问题–人们仍然有工作,而且只要工作有效,对每个人来说都是好事。

        1. > 当它发挥作用时

          这是一个承重短语

      5. 我也一样,但这次不一样。真心话。

        一些轻松的工作会被抢走,而你的工作不会受到威胁。对吧?但一些原本从事低技能工作的人会成长起来,与你竞争。供应减少,需求增加。要么工资降低,要么工作机会很少。祈祷吧。

        1. 总感觉 “这次不一样”。

          NoOps、NoSQL、Heroku、PaaS、IaaS。

          也许从事运营工作的人比以前少了,但肯定有一些公司竭尽全力不雇用任何专注于运营的人员,而是使用 FaaS 来处理所有事情,只雇用功能开发人员……而这些人最终会从事运营工作。

          耸耸肩

          1. > 也许做运营的人比以前少了

            即使是这样,结果也不尽然,我认为现在做运营的人甚至比那些流行词出现之前还要多。

            我要把我的职称改成蟑螂,因为无论公司和趋势如何试图扼杀运营部门,我都还在,而且有时人数还更多。

        2. > 但是,一些原来从事低技能工作的人会成长起来,与你们竞争。

          是的,这并不令人震惊。事情本来就是这样的。你做低级工作是因为你是新人,有很多东西要学。在低层次的工作中,你会学到更多的东西,然后你就可以得到晋升,或者调到一个不那么低层次的新岗位。你会不断成长,直到最终能与你从事低级工作时的高级人员竞争。

      6. 谢谢你的这番话,不仅是关于与 Ai- 相关的讨论,也是在说明系统管理员的工作仍然像以前一样复杂多变。我们对这个角色所做的一切,就是让亚马逊为托管服务宣扬一些怪异的征税 “标准”。

      7. 不过,如果你和我一样,你的日常工作可能已经发生了很大变化。

        以前,我每天的工作是确保桌面正常运行,并且我们有一套可重复的流程,将所有复杂的客户端软件制作成新的优质桌面。

        然后,我负责确保服务器得到升级、打补丁和日常维护,尽管确保台式机正常运行仍然是别人的工作。在家里,我自己编译内核,使用压缩包来安装和更新软件包。Linux 对桌面硬件的支持并不稳定。

        后来,我跳槽到了 borg、tupperware 和 kubernetes,在那里,硬件不再重要,客户使用什么浏览器也几乎不重要,因为他们使用的浏览器会自动更新。在家里,我改用发行版,那里的软件包管理都是自动的,很少出错。

        我甚至不知道运行服务的硬件的主机名或网络地址,AWS 或 GCP SRE 可能也很少需要知道。现在,我关心的是一种抽象的服务,它的日志、指标和跟踪记录足以让 20 年前最好的本地开发工具汗颜。CI/CD 和基础架构即代码管道实际上自动化了过去许多检查表式的系统管理工作。在家里,如果我愿意,我可以运行 Talos、Ceph 和 Crossplane,但到目前为止,我把过去的单个主机拖在一起主要是为了怀旧。

        我希望,一旦像 Crossplane 这样的东西变得像 Terraform 和 GitHub 的操作一样普遍,我最终会在更抽象的层面上关心系统。它们可能会运行在裸机上的网络组件之类的东西上,因为只要容器能继续工作,没人会真正关心它们下面是什么。

        技术堆栈会变得越来越高、越来越抽象,这样一来,对底层的关注就会自动化,底层即使没有简化,也会标准化,以至于自动化比人工干预更可靠。

        只有当超人的人工智能出现,我们对系统的抽象设计和管理变得不如自动化可靠时,人类才会被挤出这个圈子。到那时,我们才有可能按下一个友好的按钮,获得更多与人类自动匹配的实用功能。

        编辑:这并不是说低层次的系统可以自动设计,至少现在还不行。一旦人工智能在正式设计方面足够出色,那么最终很有可能实现自动设计。我们仍然需要低层次的软件工程来继续构建堆栈,但它已经大大地商品化了(xkcd 漫画中的一个开源开发者让世界上 99% 的基础设施都运行在一个 20 年前的工具/实用程序上)。

    2. >然后,你就会遇到那些愿意相信自己是不可替代的技术员工。我们很容易就会想继续保持以往的工作方式,希望回到 2022 年之前的软件招聘和收入水平。人工智能阻碍了这一切。

      最终,情况会稳定下来,我们会知道所有基于大语言模型(LLM)的新工具的优势所在,以及人类在其中增加的大量价值。

      假设大语言模型(LLMs)在输出质量上又有了飞跃,工程工作流程也以正常的方式进行了调整,那么这一次,代码的质量也许不会大幅下降。

      无论如何,这都是等式中充满希望的一面。

      对于以客户为导向的工作,比如白手套客户服务,我感觉非常糟糕。我已经看到了一种趋势(尤其是自 2020 年以来,但肯定也会在此之前),这些人工智能聊天机器人和人工智能支持热线将使这一工作类别走向衰落。这些都是很常见的白领工作,甚至在我们这个行业,很多人都是从支持热线开始做起的。

      1. 我认为,一旦新鲜感消失,任何普通客户都不会愿意与人工智能对话。几乎每次都是 “让我和你的主管谈谈”。

        1. 也许吧 这取决于人工智能能否真正解决你的问题。

          1. 是的,如果人工智能不差劲,而且能使用各种工具解决我的问题,我随时都会选择它,而不是那些工作过度、积极性不高的人工呼叫中心。

        2. 我所在的公司开发客户支持软件,所以我们自然有一些人工智能解决方案供人们使用。

          我们的很多客户(也就是为他们的客户部署了我们的客户支持软件的企业)都告诉我们,人们非常讨厌以任何身份与人工智能打交道,即使我们提供的一些东西实际上效果很好(常见问题机器人、重定向到适当渠道/团队的机器人等等)。我所在公司的 C-suite 最近不得不重新考虑他们的一些 OKRs,因为在人工智能的使用经历了最初的大幅增长之后,客户开始淘汰人工智能工具,我们的使用数量也在减少,因为他们的客户讨厌人工智能。

          我看到了一些人们与人工智能系统的聊天记录,人们会在聊天中直接说脏话,因为他们知道这是升级到真人的最快方法。人们真的不喜欢这种垃圾,但当然,首席执行官和他们的同类通常都是心理变态者,所以只要能为每个用户省下 5 美分,他们就不会在乎。

        3. 哦,但有一种叫 “遏制 ”的东西,你可以对聊天机器人进行测量和优化。

      2. > 工作速度越快的人越多,出货速度就越快

        这听起来像是与布鲁克斯定律相矛盾,我不认为人工智能工具会使这一定律失效。

    3. 同样从我的 LinkedIn 来看,但现在就业市场上所有的高级技术主管都是生成式 AI 专家,这很有趣,因为我上次看到他们在 2020 年发这么多帖子时,还以为他们都是加密货币专家呢。

      1. 最好的情况是你在一家足够小的公司里与他们共事。在此期间,他们宣扬一些当前热门的骗局,然后在公司倒闭后(也许不是因为他们领导不力),你会读到他们在那里取得的巨大成功!大获全胜。

        1. 这与我目前正在观察的那些人不谋而合。

          他们也是前云数据湖企业架构和敏捷开发专家。

          真正的文艺复兴人。

    4. > 你有(……)。然后你有(……)。

      这些都是由大语言模型(LLM)的实际使用以外的东西定义的群体,这使得它们都不是特别有趣。有趣的是

      有些人尝试过使用大语言模型(LLM)生成代码,但发现完全没用。

      还有一些人尝试过使用大语言模型(LLM)生成代码,并认为这对他们来说非常有效。

      1. 我认为这是一件很容易理解的事情(因为我在两个阵营中都待过):

        人工智能可以快速生成大量代码。

        人工智能生成的代码不会遵循品味或最佳实践。

        因此,如果任务规模较小、易于规划、在训练语料库范围内,或者对于风险不大的项目来说,人工智能可以快速生成可行的代码。

        而在较大的项目中,或需要为未来生成的代码提供可维护性的情况下,则会出现崩溃或产生不合格的结果。

        1. 大语言模型(LLMs)也并不总能生成可行的代码。

          你并不总是知道或理解产品负责人希望你构建什么。

          更快地编写代码很少是你所需要的。

        2. 这也是我的经验总结。但正如父母所说,不幸的是,这样的文章不会吸引很多眼球:(

          1. 只有短短的四段话,基本上没有任何细节–眼球基本上看不到任何东西。如果我写的世界史只有 “有些人活了又死了,有些人很坏,我猜”,你觉得我能卖出多少本?有吗?有趣的是细节,如果有一篇文章介绍了构建某个应用程序的实际细节,以及某个特定工具的优点和缺点,很多人都会非常感兴趣。如果我要求大语言模型(LLM)将日期保存到数据库,然后又要求它保存时间,那么我会在两列中得到两个变量吗?这对我的应用程序有意义吗?我必须要求它重构吗?它能成功做到吗?程序初始化过程中是否会丢弃表格?最新模型在设计整个程序时表现如何?它对这套库和提示产生幻觉的频率是多少?差异很大!如果它对各种库和应用程序接口都产生幻觉,那么它的作用就会大打折扣。有些人甚至连幻觉都不会出现,因为他们的提示就是我们要走的路。关于这些新工具,我们可以了解和分享各种有趣的细节,这将吸引大量眼球。

        3. 你没说错,2025 年 7 月。但它会变得更好,当它达到与人类同等水平时,它不会停止变得更好。

        4. 我刚刚看到一个宠物项目在不到 10 个小时的工作时间内就发生了这种变化。

          我试着用振动编码编写一些自己用的东西,这就是典型的 “自己挠痒痒 ”项目。

          第一个 MVP 一炮打响,令人印象深刻。

          但随着代码功能的不断增加,进度很快就慢了下来。人工智能声称修复了一个错误,但实际上并没有。它在使用库函数和推出自己的实现之间来回切换了好几次,每次都声称 “简化 ”了代码,使其 “更可靠”。每一次改动,它都声称 “改进 ”了代码,即使它只是添加了一堆无耻的重复代码。

          我确信人工智能会产生的一个效果是,它将极大地消除这样一种现象:一些人迅速编写出大量低劣的、无法维护的代码,只满足了一半的要求,然后把这些烂摊子丢给另一个新建项目。

          1. 我们太不习惯与非确定性的计算机技术打交道了,以至于每个人都不承认这些技术有问题,而只是选择其中一边并全力以赴。

            这听起来很像政治。

        5. 最近的大语言模型(LLMs)都相当善于按照指令行事,因此很多差异都归结于指令的详细程度和质量。书面交流是一种技能,开发人员之间的差异很大,因此不同的开发人员得到截然不同的结果也就不足为奇了。大语言模型(LLM)产出的相对质量主要由指导它的个人的书面交流能力决定。

          1. 在我看来 如果你清楚地知道所有这些指令,那么你就什么都知道了,你自己写代码也很容易,也就不需要大语言模型(LLM)了。

            1. 用英文文本描述一个解决方案所需的键入量往往少于用代码实际实现它所需的键入量,尤其是在考虑了模板和单元测试之后。更不用说等待编译器和测试工具运行的时间了。举个具体例子,HTTP2.0 规范的长度远远少于任何 HTTP2.0 服务器的实现,而 C 规范的长度远远少于任何兼容的 C 编译器。C++ 规范的长度远远少于任何符合要求的 C++ 编译器。

              1. >用英文文本描述一个解决方案所需的键入量往往少于在代码中实际实现它所需的键入量

                我不觉得这是真的。我觉得用英文描述一个解决方案比用代码描述问题(即先编写测试)并将其作为大语言模型(LM) 用来生成代码的结构化数据要慢得多。

                从我看到的结果和我个人的经验来看,编写清晰的测试要比编写大语言模型(LLM)所能分析的结构化数据要快得多。在我的日常工作中,我们为工程师们提供了这样的指导,这使得使用这些工具变得更加容易。

                在某些情况下,我发现大语言模型(LLM) 的性能不够理想,因此自己编写确实更快。如果它需要将许多不同的信息整合在一起,就会开始出现问题。

              2. 我不认为有这么明显的区别。我找到的 C 规范是 4MB,而 tcc 编译器源代码是 1.8MB。它可能需要更多代码才能完全兼容,但仍可能小于 4MB。我认为,代码库之所以大得多,主要是因为它们包含了规范未涵盖的内容(优化、供应商特定的内容等)。

                就我个人而言,我更愿意编写编译器而不是规范,但各人有各人的看法。

          2. 是啊!有多少开发人员在说 “它做不到我期望的效果 “时,并没有尝试写一个行动计划,然后就 “YOLO “了一些新功能?我们必须学会使用这个新工具,但如何使用它还在不断变化。

          3. 语料库也很重要。我认识一些 Rust 开发人员,他们即使使用高质量的提示语也没有取得很好的效果。

            另一方面,在我目前的工作中,我作为一名员工工程师帮助我们的所有开发人员(数百人)集成了 Cursor,他们主要使用 JavaScript / TypeScript,即使是中等水平的提示也能得到只需要重构的结果,前提是大语言模型(LLM)不需要大量的代码生成上下文(例如绿地或独立功能)。

            我们的一般方法和指导是,开发人员需要先编写测试,然后让 Cursor 以此为基础生成代码。这样做有助于防止测试萎缩,而且随着时间的推移,我们发现这也是开发人员利用这些工具增加价值最多的地方。我知道很多开发人员都想采用另一种方法(让人工智能生成测试),但我们在使用这种方法时遇到了更多问题。

            我们不鼓励人工智能生成一切并由人类编辑输出,因为这往往比我们选择的方法更慢,也更容易出现问题。

            尽管如此,如果大语言模型(LLMs)需要保存大量上下文,它们仍然会很吃力。例如,如果你有一堆文件,它需要理解这些文件才能同时生成代码,这就值得一试,尤其是如果你希望它重复使用代码的话。

            1. >Corpus也很重要。我认识一些 Rust 开发人员,他们即使使用了高质量的提示也没有得到很好的结果。

              请问他们使用的是哪种模型?我用 Gemini 2.5 Pro 得到的 Rust 结果还不错。它的第一次尝试通常会令人作呕(克隆和其他低效现象随处可见),但之后可以提示它进行优化。此外,提前考虑生命周期,并明确告诉它如何构建生命周期,也会有很大帮助。

              1. 不知道。我知道他们都可以访问 Cursor,并尝试过不同的模式,甚至是更昂贵的选择。

                不过,你所描述的情况,不得不经历如此繁琐的细节,确实说明了我的观点,而且我认为这也显示了这些工具的一个弱点,即在提高生产力方面的隐性成本。

                不过我可以告诉你的是,根据我的观察和经验,TypeScript/JavaScript 的语料库在目前的情况下是无限大的,即使是 Gemini 2.5 Pro 也能更快地 “得到纠正”,即使是中等水平的提示(s)与 Rust 这样的语言相比也是如此。

                1. 我经常使用一种相当生僻的技术(Kamailio),该技术使用的是一种嵌入式特定领域脚本语言(C 风格),这种语言是 2000 年代初专门为此发明的,我可以证实这一点。

                  虽然训练数据集并非完全没有 Kamailio 配置,但其代表性并不高,至少比任何主流编程语言都要小几个数量级。我基本上从未让它吐出过任何对 Kamailio 稍微有用或完整的东西,而大语言模型(LLM) 对 Kamailio 问题的指导至少有 50%是幻觉/吸食毒品。

                  这与提示的质量无关;我从 2006 年起就开始使用 Kamailio,而且一直很喜欢写作,所以你可以指望我写出既全面又具体的提示。不管怎么说,这往往是 GPT-2 级别的体验,或者类似于运行一些大量量化的 30 亿参数本地 Llama,但实际上并不了解太多具体的东西。

                  由此可以得出结论,在大语言模型(LLM)能够产生任何非准通用的有用结果之前,需要对权重进行大量强化。

                  从劳工政治的角度来看,我确实认为这将导致一些防范和围栏,以试图防止自己的工作成果成为金融阶层打算用来取代你的大语言模型(LLMs)的免费培训。我曾经猜测过,这很可能会损害开源文化,因为现在在最大程度的开放和大语言模型(LLM) 公司的数字农奴制之间存在着矛盾。我很容易想到自己会说

                  我知道我们的下一个商业产品(基于开源输入)版本,出于各种监管和安全原因,是内部部署的,将是二进制的;我以前从未有过客户翻阅我们的纯文本脚本,但我不希望它们被输入到大语言模型(LLMs)中进行人工智能泔水实验。

          4. 是的,而且为大语言模型(LLM)编写脚本也是一项技能,随着模型和工具的改进,其中的细微差别也在不断变化。

      2. 我认为有充分的理由证明,有经验的开发人员不会很快被人工智能取代。危险在于刚从大学毕业的初级开发人员。如果人工智能可以完成通常分配给他们的粗活,他们怎么能成为有经验的开发人员呢?

        人工智能公司都是炒作机器,到处都是推销员,他们试图炒作自己的产品,让你买账,这对他们来说确实没有什么帮助。已经有很多令人惊叹的人工智能 “成功案例”,但这些案例经不起推敲。

        1. > 如果人工智能可以完成通常分配给他们的粗活,那么初级开发人员的危险就来了?

          仅仅因为 “好吧,对初级开发人员来说也许是真的!”是对 “人工智能会让所有程序员都被淘汰!”的妥协,并不能让它变得合理。这仍然是一个非同寻常的说法。

      3. 我认为这个问题的症结在于,大语言模型(LLMs)在某种程度上既不合理地有效,又不合理地无效。让代码编辑器大语言模型(LLMs)做它们的建议,我得到了一大堆无用的模板式垃圾建议,但定期地,一天中的几次,它建议的代码块比它有任何权利建议的要完整、全面和正确得多。

        至于下一个建议是高智商还是低智商的大语言模型(LLM),这完全取决于你对两种结果的考虑程度(专注于随机的精彩实例,还是源源不断的废话)。

        1. 这也是我的经验。我最近把它全部关闭了,因为我觉得,完成一件事情要多花 5 倍的时间,再加上细微增加的 bug,目前还不值得。我想几个月后我会再试试的。

        2. > 在接下来的建议中,你会得到高智商还是低智商的大语言模型(LLM),这是个问题

          我从一些人那里听说过一些理论–我通常不认为他们的想法属于纯粹不知情的猜测–说这可能会根据系统范围内的 GPU 负载而变化,并根据大语言模型(LLM) 提供商的实时需求进行相应的节流。

          我不知道这是否属实。

          1. 听起来像是阴谋论思维,来接受大语言模型(LLMs) 从根本上是非确定性文本预测器的事实。对于同一个问题,你可以得到截然不同的回答,这就是系统的工作原理。

            1. 这也是我的反应,但我想知道。

      4. 或者说,这些人是否因为自己的现状(不想改变自己工作方式的开发者,因此希望人工智能不起作用;不想学习编程或依赖开发者的非技术人员,因此希望人工智能起作用)而对自己希望的事情产生了偏见?

      5. 研究表明,他们都是一派胡言。这篇文章也许有点肤浅,但在精神上是正确的:不确定性很多,那些声称自己想通了的人多半是在胡说八道。

        1. 我是说它对我有用。在我看来,它肯定没有达到炒作的效果(市场估值过高),但如果没有它,我再也不想工作了,这其实已经说明了很多问题。

          我是一名资深(白胡子)开发人员,只在终端使用付费的 Claude 代码(我自己的代码使用普通的 vim)。我在经营自己的业务的同时也戴着所有的帽子,所以我不太担心自己会被淘汰,但我也没有动力让其他企业使用它(我没有投资任何人工智能公司)!

          老实说,我甚至可以把它用得更好,但除了禅宗麦克风之外,我还没有花太多时间去琢磨我的设置。

          话虽如此,但我认为任何现在就想投资于成熟的人工智能公司的人都会大吃一惊。我认为,人工智能会像云计算一样成为一种商品/实用工具,存在大量竞争,而且没有太多差异化功能。不过,这只是我的看法,我可能错得离谱!

          1. 我也看到了好处,而且我的堆栈和你的差不多。我引用的那篇 METR 论文被错误地引用了很多(N 很小,对人工智能工具来说并不是一个有利的设置),但最重要的发现是,我们很容易在生产率效益上自欺欺人。

            我会取消订阅《人类学》吗?当然不会,但我也不会假装我的设置是唯一正确的方法。轶事的复数不是数据。没人搞得清楚,没人。

    5. 也许现在就说自主大语言模型(LLM)代理是未来的趋势还为时过早,但这基本上就是我的现状。

      人工智能代码自动补全很棒,但它本质上是一个更好的 Stack Overflow,我不记得人们担心过 Stack Overflow 会让开发者失业,所以我不会因为改进版的 Stack Overflow 会让开发者失业而失眠。

      1. 代理 “这件事的问题在于,它主要是一种炒作,并没有反映出使代理成为可能的任何真正的人工智能或模型进步。

        是的,有一个更精简的界面可以让它们做事,但也仅此而已。你可以通过在大语言模型(LLM)中复制并粘贴一堆上下文,然后问它该怎么做来达到同样的目的。现在,MCP 和其他启用代理的数据通道可以让它真正接触并完成这些工作,但这本身并不是能力上的飞跃,而只是交付机制上的飞跃。

        我并不是说这无关紧要或不重要。不过,在我看来,由于我们已经耗尽了模型进步的低悬果实,炒作机器已经转向 “代理 “和 “代理工作流”,将其作为风险投资的新调味汁,以保持泡沫的增长。

        1. 我不想把这个烂摊子归咎于艾伦-图灵,但他的图灵测试也许给了人们这样一种想法:能模仿人类对话的东西也能在各方面像人类一样思考。事实证明并非如此。

          1. 我同意你的观点。但我想说的是,这在认知科学和心智哲学界是一场激烈的争论。

            对于这个话语空间中的一个阵营(他们当然认为自己永远是实用主义者)来说,关于大语言模型(LLMs)能否 “思考 “的争论的实质,并不在于他们是否以与我们完全相同的方式思考,也不在于他们是否抓住了人类思维的本质,而在于这是否重要。

            1. 这是一个有趣的问题。我不确定我们是否真的知道什么是 “思考”。但在大语言模型(LLM)的情况下,问题的关键在于,无论它们是如何达到目的的,它们是否能取得与人类代理人相同的可测量结果。而如何在令人印象深刻的语言能力基础上建立这些能力,似乎一点也不清楚。

              1. 可能是因为我是作家/英语专业出身,所以对语言的情绪和语气非常敏感,但我从来没有在区分大语言模型(LLM)的输出与人类方面遇到过困难。

                我的意思并不是说,如果有人故意使用大语言模型(LLM) 来达到这个目的,我就不会上当受骗;我相信,如果它们接受过人类输入的训练,它们就能模仿人类的输出。我只是说,主流公共大语言模型(LLM)提供商的模型,无论如何以其预先训练和系统提示为指导,都是非常明确无误的机器人模型,至少在我见过的每一种模型中都是如此。我想我不知道我不知道什么,也就是说,我不能排除我在不知不觉中与大语言模型(LLMs) 进行了互动。

                在我活动的技术社区里,有不少论坛和邮件列表,低技能的新手和英语非母语者经常试图在那里吐露大语言模型(LLM)的泔水。有些人做得非常明目张胆,有些人则一定认为自己相当狡猾和含蓄,但即使在后一种情况下,对我来说也是绝对明确无误的。

    6. 人工智能是美化了的自动完成功能。看看人工智能在撰写法律文书时会发生什么,你就会明白为什么它不可能取代软件开发人员。

      1. 这可能是真的。但它在为交叉质证生成问句方面非常出色。

        1. 我想知道,如果一个非大语言模型(LLM)系统能够访问相同的原始文本语料库,并在语料库中使用一些简单的相似性搜索功能,会在多大程度上发挥作用?

    7. 为什么科技公司的首席执行官和首席技术官看不到人工智能将如何 “颠覆 ”他们的工作?如果谁都能写代码,我为什么还要雇用你们公司来创建我使用的软件?

      在我看来,非开发类工作更容易受到人工智能的威胁;如今,我可以去生成质量相当(或更好!)的营销文案、人力资源政策和项目计划。

      1. 因为这只是一种心理暗示,而不是对现实的反映。

    8. > 我们很容易就想保持我们一直以来的工作方式

      不存在 “我们一直以来的工作方式”,也不存在稳定状态。不断进化和逐步实现简单部分的自动化一直是软件开发的常态。

      > 我们希望回到 2022 年之前的软件招聘和收入水平。人工智能阻碍了这一切。

      其实不然。生产力乘数不会减少对受影响领域的需求,也不会减少该领域的收入。(但紧缩货币政策和经济放缓(尤其是同时发生时)会造成这种影响,尤其是在一个需求和高收入水平主要由投机性投资驱动的领域,无论是初创企业还是老牌企业的新企业)。

    9. 听着,也许我是在大声说 “安静 ”这部分,但如果软件工程不再赚钱,这些工作也不复存在,我就会去干别的。我是个聪明人。我工作努力。我有信心取代那些不如我聪明的人,“抢走 ”他们的工作。

      除非每个人都失业了,否则我们会需要有良好职业道德的聪明人。

    10. 人工智能首席执行官们把它说成是 “社会将做更少的工作”,但现在我却要做更多的工作,因为工作所需的时间更少了。

    11. 谢谢。这是对目前情况最准确的看法。虽然绝大多数人都不是首席执行官。他们是普通人。

      这就是为什么大多数人和 HN 都对人工智能持非常消极的态度。如果你正在读这篇文章,你很可能就有这种偏见。

    12. 还有很多人对整个人工智能项目有着根深蒂固的哲学偏见。这不仅关系到他们的工作,还关系到他们作为人类的身份和意义、灵魂或其他什么。无论有什么相反的证据,他们都会坚持认为人工智能不会思考或知道任何事情。

      1. 每个人都有自己的目的。同样,r/singularity 和理性主义者等团体多年来一直在预测机器之神即将到来,并拼命对每一个大语言模型(LLM) 的进步进行过多解读。

    13. (注:这是美国人的观点,以软件工作为例,但很多内容也适用于其他工作。)

      是的,说得好–但有一点要注意:“金钱和社会地位 ”与 “生计 ”有着微妙而关键的区别。你正确地指出了 “生活 ”受到影响的人群,但在你的总结中却将这些人与首席执行官和人工智能公司一起归入 “金钱和社会地位 ”的范畴,这也许低估了大众在这一等式中的作用。

      软件工作–对于大部分美国人来说,历来是为数不多的好职业选择之一–正在衰落。原因有很多,人工智能虽然不是世界末日,但也是其中很小但很关键的一部分。我们需要克服这样一种错觉,即这种下降的很大一部分是由疯狂奢侈的收入降低到简单舒适的收入–我们讽刺地说,“嘘呼”。但是,大多数软件业人士正从 “舒适 ”变为 ‘不快乐但可生活’,而有些人正从 “可生活 ”变为 “不可生活”,还有一些人则根本不再就业。本来就有太多的人被困在这些工作岗位上,如果再把一大批公民扔进去,最终会导致大的坏事发生。

      我们需要开始关心我们的公民,其中一部分就是要避免这样的暗示,即破坏性的事情是不可避免的,但这并不意味着其影响不是毁灭性的,我们应该对这种情况完全不采取任何措施。另一个方面是避免暗示普通人可以在没有巨大痛苦的情况下成功转行。我们可以疏导、帮助、监管(执政党希望将其非法化)等等。重要的是要明白,这一切都不意味着 “阻止 ”人工智能或类似的荒唐事。

      我们需要开始关心我们的公民。

      第三次: 我们需要开始关心我们的公民。

      对不起,我说的大部分内容都不是针对你个人的。只是对你措辞的第一点说明。

  2. 关键是要看该行业正在经历的长期结构性变化,以及人工智能是帮助还是阻碍了这一目标的实现

    总体而言,业界一直在努力将错误从运行时推向编译时。如果把可以捕捉错误的点从左到右排开,就会出现以下情况:

    捕获: 编译器 -> 代码审查 -> 测试 -> 运行时检查 -> 在 prod 中 “捕获

    业界正试图将错误推向左侧。Rust、更严格的审查、一般的安全性–这些都是为了在生产链的早期消除代价高昂的错误,从而降低成本。每个行业都是这样做的,在工厂里发现氧气面罩的缺陷比发现它导致飞机起火的成本要低得多。在设计阶段发现有缺陷的部件,也比在测试时发现要好得多。

    人工智能就是要把这些错误推向正确的方向。要想节省工程师的时间,唯一的办法就是进行不充分的测试、验证和审查。编程 90% 的复杂性在于为你正在做的事情建立一个心理模型,并确保它符合你想要做的事情的规格。目前,很多工作都是纯粹的脑力劳动,没有任何物理成分–我们尝试将其越来越多地卸载到安全语言的编译器中,并增加测试和审查,以尽量减少失误。但即使在安全的语言中,要确保一切正确,仍需要大量的脑力劳动。测试和复审是弥补人脑缺陷的一种方法。

    因此,如果使用概率上正确的语言来减少这种关键的脑力劳动,就会引入错误,而这些错误的代价会更高。短期内不会有问题,但从长远来看,代价会更高。这就是我不认为人工智能会流行起来的主要原因–那些不了解软件复杂性的人的短期思维,也不了解如何真正生产出长期成本低廉的软件。这也正是波音公司在航空领域一败涂地的原因。如果你想在 5 年内破产,那就使用人工智能,但现在就发财吧

    1. > 短期内会很好,但从长远来看,它会让你花更多的钱。这就是我不认为人工智能会流行起来的主要原因–那些不了解软件复杂性的人的短期思维,也不了解如何真正生产出从长远来看便宜的软件。这也正是波音公司在航空领域一败涂地的原因。如果你想在 5 年内破产,但又想现在就发财,那就使用人工智能吧

      我认为你的分析从技术角度来看是正确的,但你的结束语正是人工智能将被大规模采用的原因。那些现在就想发财而不在乎 5 年后会发生什么的人已经发号施令很久了,尽管我们这些技术人员坚持认为这不可能永远持续下去,但这可能不会很快停止。

      1. 我逐渐意识到,不可持续的行为可能会持续很长时间……在我们这里,可能会持续几代人。

        1. 市场保持非理性的时间可能比你保持偿付能力的时间更长。

          1. 事物保持愚蠢的时间可能比你保持理智的时间更长。

    2. > 这是不了解软件复杂性的人的短期思维。

      具有讽刺意味的是,你并不需要人工智能就能看到这种模式。也许人工智能会让谁想得更长远,谁想得更不长远(无论是在高层还是在基层)。

      > 如果你想在 5 年内破产,但现在却很富有,那就使用人工智能吧

      或者,有人会这么说:”如果你想现在就发财,然后退出,让别人在5年内破产,那就使用人工智能吧。

    3. 在更广泛的背景下,你可以再往左看:

      构思->设计->编译器->代码审查……

      如果人工智能工具能更好地实现快速原型设计,它们就能帮助捕捉构思和设计阶段的 “错误”。但我不知道这究竟有多大用处。

      1. 将人工智能用于原型设计(或一般意义上的原型设计)的一个问题是,创建原型的过程才是有价值的,而不是原型本身。你在尝试创建原型的过程中会学到一些经验,并将其用于创建真正的产品。如果使用人工智能跳过学习步骤,直接制作原型,那就完全失去了原型设计的意义。

        1. 这绝对是个问题,我在使用人工智能帮助浏览和查找代码库时也遇到过类似的问题,我曾用它来帮我阅读和理解代码,起初似乎取得了奇迹般的效果,但最后我却希望自己能 “手动 ”阅读更多代码,因为我浅薄的理解能力导致在网络上浪费的时间比我节省的时间还多。我仍然觉得应该可以找到某种平衡,但这很棘手。

        2. 有时,你需要直接推出 MVP 并开始迭代。根据我的经验,人工智能可以成倍地加快这个过程。

    4. 你将大语言模型(LLMs)完全用于代码生成,但这并不是软件工程中的唯一应用。

      在我所在的公司,有些人使用大语言模型(LLMs)生成部分代码,但更多的人是在请求同事审查之前,使用大语言模型(LLMs)进行首次代码审查。

      这有助于把容易/棘手的问题解决掉,从而往往能节省一个反馈+修正周期。

      例如,“你修改了这个单元测试,但没有更新单元测试名称”、“你修改了这个函数,但没有修改文档字符串”,或者 “如果你对这些 if 语句重新排序,就可以避免深度嵌套”。这些都不是什么突破性的问题,但都很好。

      我们仍然像以前一样进行审查,但往往会更关注 “是什么”,而不是 “怎么做”。

      在这一应用中,大语言模型(LLM) 有点像带有模糊规则的指针。我们也并没有因为现在很多语言都配备了标准格式器而停止审查代码。

      虽然人工智能的整个代码生成方面现在风头正劲(引用文章中的话),但我们并没有因此而停止审查代码:

      > 专注于你所关心的领域中的切实变化,这些变化似乎真的与人工智能有关

      1. 因此,虽然我完全不同意你的观点,但就人工智能是泡沫而言,这些都不是这项技术被如此热炒的原因。目前的投机性炒作是由两个因素推动的:

        1. 人工智能将取代大部分(如果不是全部)开发人员的承诺

        2. 或者说,人工智能将把每个开发人员都变成 10-100 倍的开发人员。

        我的个人观点是,人工智能最终会成为许多工具中的一种,在某些情况下非常有用,比如你说把人工智能作为额外的代码审查步骤是个好主意,这100%是对的。但是,注入该行业的资金不足以维持这样的轻度用例,这也不是推动这项技术的原因。如果这就是最终用例,那么为改进 clang tidy 而投入的数万亿美元将难以为继。

        1. > 1. AI 将取代大多数(如果不是全部)开发者的承诺 2. 或者,人工智能将把每个开发人员都变成 10-100 倍的开发人员

          人工智能的炒作列车承诺将提供拥有 30 年经验的 20 岁开发人员,公司每小时可以支付 10 美元。

    5. 在 “概率正确 ”达到一定临界值之前都是如此,对吗?到了一定的 “9”,就没问题了。我越来越多地使用人工智能来帮助我提出问题,完善我对问题空间的理解,对空间中的现有模式或趋势进行深入研究,然后将研究结果作为规划会议的背景,为建筑设计等提供背景。

      因此,我不认为这些工具本质上是右倾的。

      1. 问题在于,鉴于自然语言作为一种格式输入给人工智能的固有局限性,它永远不可能拥有足够的信息来充分解决你的问题。通常情况下,你所要解决的问题的限制因素只会在试图解决问题的过程中出现,因为事先根本不清楚这些限制因素是否存在。

        如果有一种人工智能工具,可以向其输入足够精确的规范,从而准确无误地生成你想要的结果,那就是编程语言。

        我一点也不反对人工智能能帮上忙,但把它用作研究工具(这是非常有效的)与试图用它大规模取代程序员的人之间存在巨大差异。推动泡沫的是后者,而不是前者。

      2. 人工智能代码的可靠性远远达不到任何 9 的数字

    6. Vibe 编码会将错误向右推,但使用人工智能来加快打字速度或总结文档却不会。Vibe 编码会失败,但这并不意味着使用人工智能编码也会失败。你只是看到了一个(诚然很蠢)用例,就过于草率地一概而论了。

      如果我让大语言模型(LLM)修复一个错误,让它实时获得来自类型检查器、线程器和测试的反馈,就不会有错误被向右推送。

      但这并不是免费的午餐。之后我还得进行重构,否则就会增加技术债务。为此,我需要对问题有一个准确的心智模型。我认为这是大多数人都会出错的地方。大多数人的思维模式是 “只要能编译和运行,就能发布”。这将导致混乱不堪。

      基本上,如果人们把人工智能当作解决复杂性问题的灵丹妙药,他们的日子就不会好过。现在仍然没有什么灵丹妙药。

    7. 这对我来说一直是个巨大的挫折,但疯狂的事情是,随着时间的推移,我们已经建立了这么多帮助人类的工具,但人工智能编码工具却疯狂地使用它,而不使用它们。最好的人工智能编码工具会阅读网站文档、终端错误信息、编写/运行测试等。但我们有这么多更好的工具,它们似乎都不会使用:

      * profilers

      * 调试器

      * 流水线

      * 静态分析器

      * 语言服务器协议

      * 有线协议分析器

      * 反编译器

      * 调用图分析器

      * 数据库结构爬虫

      如果没有能够实现完美的一次性软件工程的模型,我们就不得不依赖于整合良好的工具使用,而目前似乎还没有人能够很好地做到这一点。

      1. 我认为,人工智能的很多用例都是实际目标的附带副产品,其目标是取代软件开发人员。他们试图挽救某种实用性。因为我同意,目前使用的人工智能工具在很多情况下都是微不足道的改进或降级。

        我听人说过,他们用人工智能代理来用 git 创建一个新项目。使用 tortoisegit 或其他工具就好了,它是免费的,而且只需点击一下–这只是为了使用人工智能而使用人工智能。

    8. >行业正试图将错误向左推。

      这是真的吗?大多数软件开发人员都希望如此。但我认为企业更感兴趣的是将错误向右推的技术。在大多数软件中,这似乎更有利可图。即使是已经存在了十年之久的软件也不例外。

      1. 软件测试正在发生变化(让质量保证员尽早参与进来,这样他们就能帮助制定规范,这样当他们拿到软件时,就知道该针对什么进行测试),敏捷就是要尽快交付产品中的有价值的小部分,风险投资(精益初创企业!)就是要尽快测试商业创意,等等。

        这都是意识形态左移的一部分。(安全问题也是如此,你不能真的在之后再添加它;GDPR 和其他数据保护问题也是如此,你不能在已经有很多用户之后再为各种数据处理目的跟踪同意情况–除非你想偷偷摸摸地做一些非常不好的 “ToS 已更新,要么付钱要么死,kthxbai “的事情([Meta 就是这么做的]),等等。

        ……当然,这通常意味着很多时候人们想从 “勉强作为 Figma 原型的想法 “变成 “由分布式高速团队维护的成熟产品”,却没有意识到这其中的权衡。

        左移在商业和工程学上都很合理,因为它可以让你专注于那些有用的东西,但要从这些东西变成成熟的东西,则需要更多的迭代。

    9. 这是我最近听到的最好、最有启发性的观点。

      我曾以不同的方式向那些热衷于大语言模型(LLM)的朋友和同事阐述过这个问题,比如累积错误和熵的不稳定性,当你不得不接触代码但却没有写代码也不理解代码时不成比例的人力瓶颈等等。

      不过,您的表述确实将这些问题更好地联系在了一起。谢谢!

    10. 虽然 Python 和 JS 正在编写大量的代码……但我不认为这与你所说的一切都在向编译时推进的说法相符。C#、Java 和 Go 仍然很流行,但相对于其他语言来说,它们的增长速度有那么快吗?如果我没记错的话,Rust 主要是在过去使用 C 或 C++ 的项目中被采用。

      1. 虽然这些语言经历了完全相同的进化,比如 JS -> typescript 迁移就是一个最直接的实际例子。

    11. 谢谢你如此精辟地阐述了这场辩论中需要说明的问题。

      将错误向左推与向右推是一个很好的比喻,更不用说关于心智模型的比喻了。此外,您关于为什么自然语言无法充分描述问题的评论(在本主题的后面),因为有时会在求解过程中发现约束,否则,如果问题可以被充分描述,那就是我们所说的编程语言。

      只有经历过失败项目的资深工程师才会明白你的意思,而其他沉浸在人工智能狂热中的人很快就会明白这一点。

    12. 我不确定这是否符合你的观点,因为 SOTA 大语言模型(LLMs) 的编写能力相当不错,所以在你的比喻中,这不也会让代码库更容易向左移动吗?例如,我在很多事情上都不愿意使用 Rust,因为 a). 即使以软件工程的标准来看,这个社区也有些烦人和迂腐。) 让同事们尽快掌握 Rust 代码所需的时间太长。大语言模型(LLMs)解决了这两个问题,我们现在正在将很多东西迁移到 Rust,我的同事可以问很多问题(Google Gemini Pro 2.5 的问题),不会给任何人造成负担,也不会遭到鄙视。

    13. > 这就是我认为人工智能不会流行的主要原因。

      在大语言模型(LLMs)的炒作下,真正的自动编程人工智能的发展似乎停滞了,这几乎令人愤怒。

    14. 我完全不同意,而且我可以用一句话说服你我是对的: 人工智能编写的 JS/TS 行数比编写的 Rust 行数还要多。我们没有数据可以断言这句话是正确的,但我认为绝大多数人都会同意这句话。

      这句话的真实性反驳了 “业界一直在努力将错误从运行时推向编译时 ”的说法。业界并非铁板一块。不同的参与者有不同的个性化目标。

      1. 人们编写的 JS/TS 多于 Rust 绝对不是问题。

        如果 Rust 能用几十年,而 JS/TS 在一年内就被扔掉的话。

        全世界仍有大量低劣的 C 语言在被编写,但内核中使用的 Rust 语言却具有真正的长期价值。

        采用是有周期的。Rust 可能已经远远超过了炒作的高峰期,现在正慢慢向 “生产力高原 ”攀升。

        (对于许多领域而言,高效、安全的库、框架和平台正逐渐成为规范,例如 Blender 是如何成为成功案例的。)

      2. 我很难理解为什么人工智能会 “将错误推向右侧”。

        > 编译器 -> 代码审查 -> 测试 -> 运行时检查 -> 在产品中 “捕获

        有了人工智能,我们仍然要编译代码。

        我们仍然进行代码审查。

        我们仍在运行测试(显然是在代码审查之前;不知道为什么要这样列出)。

        我们仍然在运行时进行 QA。

        我觉得反人工智能的人是那些真正把人工智能当作魔法的人,而不是人工智能的使用者。人工智能不会神奇地阻止你做那些在前人工智能时代对你有帮助的事情。

        1. 不,但如果一家商店在一夜之间为项目上的每个现有员工增加了 5 个初出茅庐的后辈,那么不仅交付速度不会因为布鲁克斯定律而加快,而且堆栈很快就会在自身问题的重压下垮掉。因此,除了那些令人捧腹的咨询灾难之外,没人会这么做。

          现在有了人工智能,他们就会这么做了。

  3. Recurse Center 提出了很好的意见:

    > 我本以为大家对未来发展的看法会大相径庭,但让我感到惊讶的是,我们的校友们对当今形势的评估却大相径庭。

    > 我们发现至少有三个因素有助于解释这种差异。首先是与大语言模型(LLMs)打交道的时间长短、程度深浅和时间长短;人们与大语言模型(LLMs)打交道的时间越短,打交道的时间越长,他们就越有可能认为大语言模型(LLMs)没有什么价值(要明确的是,这里的 “时间长短 ”可能是指几个月的时间)。但这肯定不能解释所有的差异: 第二个因素是人们关心的编程工作类型。我们所说的 “类型 ”是指语言的人机工程学、所做任务是否在模型训练数据中有所体现,以及所涉及的模板数量等。从事网络应用程序、数据可视化以及 Python、TypeScript 和 Go 语言脚本工作的程序员更有可能看到大语言模型(LLMs) 的重要价值,而从事 C 语言系统编程、碳捕获工作或新颖的大语言模型(LLMs) 研究的程序员则不太可能发现大语言模型(LLMs) 有帮助。第三个因素是,人们是在从事更小型、更新颖的工作(单独或小团队),还是在现有的大型代码库中工作(尤其是在大型组织中)。与后者相比,人们更倾向于认为当今的模型对前者有用。

    1. “碳捕获 ”似乎很奇怪,为什么这么具体?

      1. 我猜这是一个具体的例子,例如新颖的科学建模。

  4. 人工智能的价值很容易具体到个人。但在你手中的具体价值与如何在更大的系统中发挥价值之间总是存在差距。远程工作的能力可以直观地将几乎所有的知识工作外包给更廉价的劳动力市场,但这只发生在边缘地带。世界是错综复杂的,要保留一定程度的怀疑。

    1. 这个观点很好。

      与远程工作相比,面对面工作的带宽更高、延迟更低,因此对于某些岗位来说,你不想把工作外包给远程工人也是合情合理的。工作质量会以微妙的方式下降,有些人很难接受。

      同样,将一项任务交给一个人而不是一个大语言模型(LLM),很可能会带来一种难以预先推断的情境惩罚。基本上,你需要对大语言模型(LLM)完成任务所需的系统提示以及持续的上下文流做出最佳猜测。但这些仍然是相对静态的,除非你有一些复杂的评估管道,可以在生产中快速改进上下文。

      因此我认为,至少就目前而言,当任务发生变化时,人类员工可能会更快地找到新的上下文。客户服务似乎是最前沿的例子。大语言模型(LLM)可以处理许多客户服务任务,但在许多边缘情况下,人类可能更胜一筹,因为他们可以更快地收集上下文。这也是我对 Klarna 为什么在今年早些时候改变决定,全面采用大语言模型(LLMs) 的最佳猜测。

  5. 说人工智能将取代所有人的人,都是那些不再积极部署代码的人。比如首席执行官和副总裁。

    那些积极部署代码的人很清楚人工智能的局限性。

    一个好的提示加上一些自定义上下文也许能让你完成 80% 的工作。如果你是一位资深工程师,有足够的经验知道该问些什么,那么与人工智能一起迭代可以让你完成 90% 的工作。但最后你仍然需要做一些工作才能完成。

    最后,你得到的代码虽然能用,但肯定不是最佳的。

    1. 弗雷德-布鲁克斯(Fred Brooks)告诉我们 “计划丢弃一个版本,因为你会这样做”。

      但他忽略了一点,那就是没有被扔掉的那个版本几乎永远都需要维护。

      (我们能怪他没有预见到 SaaS 的到来吗?)

      如果人工智能的真正价值在于这两方面呢?

      • 非常快速地构建出在演示时使用的可丢弃版本,收集潜在客户的反馈意见,并找出问题所在?

      如果你能避免构建一个毫无用处的 “完整 “版本,那么速度可能会提高 10 倍或 100 倍,投资回报率也会高得惊人。

      * 然后,你用 “老 “方法创建 “合适的 “系统,将人工智能作为一种 “类固醇 “式的自动完成功能(也许可以提高 1.5 倍、2 倍的速度,等等……)。

      *然后你用大语言模型(LLMs)来做那些你无论如何都不会做的事情,因为时间不够(测试、文档等……)这里的加速是无限的,如果你不做,它也有一定的价值。

      但是,当权者会希望你在这个时候开始开发下一个功能……

      * 我不知道大语言模型(LLMs)对修复错误有什么帮助。

      所以,基本上是两个代码库 “通道 “并行发展,一个人工智能与人类的比例是 90/10,另一个可能是 30/70?

      人工智能负责快速增殖,人类负责风化?

      1. 也许吧,但无论什么时候,只要有人不停地做心理体操,理论上说有新的力量在起作用,就会有东西出来说不,那是非常直接的东西。Hammock Driven Development(吊床驱动开发)描述了一种禅宗内化的方式,专家的做法和你描述的一模一样,但它更好的是,你不必按令牌付费。说白了,我认为这一切又都属于橡皮鸭的范畴,这很好,但似乎不可能设计出对照研究?

  6. 人工智能在软件开发中的真正受益者是高级开发人员,他们已经受够了模板、框架切换和其他乏味的低价值任务。你减少了以前在 StackOverflow 上寻找一线希望的辛苦传统。

    1. 然而,当你把目光投向模板代码生成之外时,大语言模型提高的并不全是有经验的开发人员的工作效率(即使他们认为确实如此): https://arxiv.org/abs/2507.09089

      编辑:您好,downvoters,很想知道您是否发现了任何有缺陷的论点,这仅仅是因为这项研究/评论与 HN 上的普遍说法相矛盾,还是完全另有原因?

      1. 除了这项由 16 名参与者参与的研究之外,还有其他任何东西可以验证利用人工智能作为助手可以普遍缩短完成时间的观点吗?

        除非这些参与者都是彻头彻尾的白痴,否则我根本无法将其与我过去几周使用 Claude Code 在一个项目上进行的狂轰滥炸相提并论。

        1. > 我根本无法将这与我过去几周使用 Claude Code 在一个项目上的狂风暴雨相提并论。

          我不知道,但研究中有趣的数据是,他们都说了和你一样的话,但实际时间却慢了 19%。

          是的,现在这是我所见过的唯一一项似乎有很好的方法论的研究,它有任何正面或负面的数据。

        2. 我希望我们能做一个更正式的研究,但在 $previous/job,我们推出了人工智能工具(在这种情况下是 github copilot),我们发现在 6-8 个月的时间里,工作效率基本保持不变或略有下降,但after_ that it sharply increased. 我们为数百名开发人员提供了培训、指导和支持等服务。我认为这样做是正确的。

        3. 该项目是早期项目吗?目前的印象似乎是,人工智能对于加快小型和简单项目的开发非常有用,但在大型复杂代码库中却会拖慢进度。

        4. 样本量不是单个参与者,而是作为研究一部分执行的数百项任务。没有迹象表明这项研究是错误进行的。

          1. 只不过,参与者是被冷冰冰地扔进任务中的,似乎在将人工智能扔进遗留代码库之前,连最基本的准备工作都没有做(有时称为 “大语言模型(LLM)接地 “或 “大语言模型(LLM)上下文引导”)。如果参与者在开始时没有做这样的准备,那么这项研究要么是错误的,要么是为了支持某个结论而设计的。

             大语言模型(LLMs.md)
             ├─── data_model.md
             ├── architecture.md
             ├── infrastructure.md
             ├── business_logic.md
             ├─── known_issues.md
             └─── conventions.md
            
        5. 这项研究是关于 “成熟项目中的 246 项任务”。我希望人工智能在关于新项目或头脑风暴的研究中表现得更好。

      2. 摘自论文:

        > 我们没有提供证据证明:

        > 人工智能系统目前并没有加快许多或大多数软件开发人员的速度

        > 我们并没有声称我们的开发者或资源库代表了软件开发工作的大多数或多数

        1. 不知道你为什么引用这部分内容,它只是说,我们没有假设将结果外推到任何代码库或任何开发人员,从而设定了研究目标的边界。

          1. 你声称它确实可以推断。他们自己并没有这么说。

      3. 这项研究将被视为 “障眼法”。它只能说明那些在使用大语言模型(LLMs) 进行开发方面经验甚少的人做错了。

      4. 这项研究的一个问题是,这个领域发展得太快了。

        6个月的模型是永恒的。自从这项研究完成后,人类学有了更好的模型。双子座也在不断进步。Grok / xAI 不再是个笑话。更不用说仅在过去几周内发布的大量开源进展。

        这一切发展得如此之快,以至于一份已经过时的报告并不具有决定性意义。当然,这是一个有趣的时间快照,但必须结合背景来理解。

        Hackernews 需要在这方面做得更好。闭门造车的做法不会长久。

      5. > Hello downvoters… is this just because…

        既然你问了,我就把你降权了,因为你问了为什么你会被降权。不要在虚假的网络积分上浪费脑细胞–这对你的健康有害。

  7. 人工智能与其说是替代品,不如说是增效剂。如果你把程序员从 0 评到 100。人工智能可以把你从 0 打到 80,但无法把你从 98 打到 99。

    我很想记录下这些人工智能首席执行官关于未来 24 个月内将发生的事情的发言,然后回过头来看看那时的世界是如何 “转变 ”的。

    1. 我的猜测是更多的相同(即大部分都是垃圾),但速度更快。

      我们创建软件的方式与 20 世纪 80 年代大致相同。开发人员坐在键盘前逐行编写代码。尽管我们进行了数十年的研究,并在 “专家系统”、“图片软件 ”方面进行了无数次尝试,并在从各种类型的模型或流程图生成代码、采用不同的开发方法或管理方面进行了无休止的尝试,但情况依然如此。

      大语言模型(LLM)就像类固醇脚手架,但并没有从根本上改变流程。开发人员仍然需要他们正在构建的心智模型,并且需要能够验证他们是否真的构建了模型。

    2. 我说的很明显,但这些事情往往会有两种结果。我们要么严重高估了影响,要么严重低估了影响。

      就互联网而言,它的结果是两面性的。我们高估了它在短期内的影响,低估了它在长期内的影响。

      他们很可能是对的。我不认为他们是对的。但我也从未见过像人工智能这样可以扩展的东西。

    3. 完全自动驾驶汽车只需两年就能实现,这都有 10 年了吧?

  8. > 支持这些说法的证据并不缺乏。

    人们在发表这样的言论后通常会出示一些证据。人工智能公司首席执行官的说法不算数。

  9. 我不认为你可以通过使用人工智能成为一个有足够天赋的软件开发人员,从而从使用人工智能中获益。谷歌地图让我们失去了没有它的导航能力。如果人工智能也是如此,我丝毫不会感到惊讶。

    所以。现在有了一点提升。但代价是,除非有人牵着你的手,否则你将不知道如何到达目的地。

    如果真是这样,我们怎么可能到达从未去过的地方呢?

  10. 这篇文章抓住了工作中的两个议程。现实在某种程度上取决于你的处境。

    如果你明白自己应该在工程设计中使用人工智能,那么人工智能就能加快你的速度,因为你知道自己想要构建什么,你了解基本原理,而且你是下放细粒度任务的飞行员。当 Bug 出现或需求发生变化时,您将掌握所需的知识来构建和引导人工智能,以确保目标得以实现,并且实现得恰到好处。当人工智能陷入困境时,你将能够迅速介入并解决问题。随着时间的推移,您的经验将不断发展和完善,因为您已经融入到工作和代码中。在未来的项目中,你将以意想不到的方式利用你的经验,也许你的沟通技巧也会得到提高。

    另外,如果人工智能使用不当,它可能会给人一种速度快的错觉,直到你意识到你缺乏知识或参与实际上阻碍了人工智能的发展。你想超越简单的实施,但却出现了无法修复的错误,或者无法满足新的要求。你无法亲自参与其中,要么是因为你没有关注这项工作,要么是因为你的操作超出了你的专业范围。不管是哪种情况,你自以为取得的进展实际上都可能是一堆浪费时间和技术债务。

  11. 在我读这篇文章的时候,Claude 代码正在为我修复一个错误。

    我同意卡尔的观点,我们基本上不知道接下来会发生什么。但我知道,这个世界需要更多优秀的软件,扩大优秀软件专业人员能为公司做的事情的范围具有积极意义。

    1. 我想知道,如果一年后,你因为人工智能变得足以编写你的代码而被解雇,你会不会这么说。你会因为世界上有了更好的软件而牺牲自己的工作而感到高兴吗?

      1. 我对自己在工作中重新调整的能力持乐观态度–也许是天真。

        10 年前,我为励志演讲者建立 WordPress 网站。如今,我为政府开发网络应用程序。当然,10 年后,我们的处境会与今天不同。

        从更广泛的意义上讲,你的论点会让我们在玉米地里手工劳作,以避免机器抢走我们的工作。

        1. > 从更广的意义上讲,你的论点会让我们用手工去照料玉米田,以避免机器抢走我们的工作。

          套用这个话题中常用的另一个比喻:你是马,而不是骑手。当然,有些马会在主人的恩典下找到新的工作。一些幸运儿甚至可以过上无忧无虑的休闲生活。

          但对许多人来说,他们要去的不是工作,而是胶水厂。

        2. 这是一个非常好的非回答。不同的是,工业革命创造了工作岗位,而到了一定时候,技术将消除工作岗位。我相信你会很高兴以好软件的名义丢掉工作。当你的工作岌岌可危时,调子竟然会变得如此之快。

          1. 当然,人工智能可能会打破美国的经济体系–这对我,对你,对整个世界都是不利的。我并不乐见这种情况,我认为我们应该让我们最聪明的年轻思想家们想象一个世界,在这个世界里,人工智能带来的生产力收益并不仅仅归资本持有者所有。

            回到卡尔的观点,我认为对于未来十年知识工作会是什么样子,有很多合理的问题和不确定性。你说技术将取代工作……我认为你的方向是对的,但我无法告诉你其时间表和影响。

            虽然我喜欢做一名软件工程师,但实际上每天的工作内容每隔几年就会发生实质性的变化。坐一天调试我的 SCSS 为什么无法渲染,这不是我作为人类带给这个世界的核心价值。

  12. 与比特币这样的东西相比,大语言模型(LLMs)的讨论中流淌的情绪量感觉有质的不同。

    1. 人们大多可以忽略比特币。人工智能的使用及其网络效应要广泛得多,即使我选择不直接使用人工智能,也会经常给我带来额外的工作。不正确的问题或拉取请求,无法维护的代码堆,等等。

    2. 加密技术不会取代你的编程技能。

    3. 我似乎还记得,每当有新的加密货币新闻出现时,就会有一连串评论嘲讽地报道 “加密货币兄弟 ”正在 “加速发现每一条金融法规”。你可以把手表对准它。

    4. 说到底,比特币是一种网络技术。如果你/商店/房东/税务员不接受比特币,它对我来说就一文不值,而大多数人都不接受,所以它的价值只存在于信徒之间,也就是说,当然,我可以买一些,但然后呢?用它在网上买点小玩意?

      与此同时,任何人都可以登录 chat.com,请求代码来完成他们的任何要求。有些问题它能很好地回答,有些则不能。因为我们是在抽象地讨论这个问题,大语言模型(LLM) 好!/大语言模型(LLM) 坏!Grar!”,几乎没有触及细节,比如编程语言、库,更不用说分享提示了,所以两个阵营都坚信自己是对的,而且比比特币更有说服力。此外,技术发展如此之快,以至于几个月前某人的糟糕经历已经过时。同时,关于比特币,你能有多少次同样的争论呢?这里有一些细节,那里也有一些细节,但比特币自诞生以来没有发生任何结构性变化。真遗憾,如果他们能成功分叉,交易速度就不会慢得可怕,也许我们就会有不同的讨论了。但我想说的是。

      情绪的数量是不同的,这并不是因为有大量的钱在游走,而是因为我们在争论我们亲眼所见的事情,但却没有提供足够的细节来进行富有成效的讨论。侮辱人更增加了情绪化的性质。像 “如果你觉得大语言模型(LLMs)有用,那是因为你是个糟糕的程序员/白痴/只研究失败者的问题 “或 “人工智能会让你失业 “这样的话,并不能鼓励合理的细致讨论。侮辱喜欢比特币的人并没有那么深刻。没有人四十年来一直在研究比特币,并把它作为自己的全部(公开)身份。

      1. > 没有人四十年来一直在研究比特币,并将其作为自己的全部(公开)身份。

        听起来问题的很大一部分是你的身份被裹挟其中了。无论是 CEO 还是开发者。

        1. 说白了,我说的身份是指编程能力,而不是人工智能。有时我很难忘记,你不是你的代码。

          1. 是的,我也是这个意思。我不知道如何 “衡量 “编程能力。整个概念让我困惑。我从小就开始编码,并为自由和开放源码软件及封闭代码库做出过贡献。当然,也有我认为很糟糕的程序员,但除此之外,根本无法衡量一个人的编程能力有多 “好”。人们可以根据自己对编程技巧的认知来确定自己的水平,这让我深感困惑,也让我更难理解这种反应。

            1. 程序员和普通人一样情绪化,不管他们多么愿意相信事实并非如此,因此几乎所有程序员(包括我自己)都认为自己比普通人强,但事实并非如此。

              技能与声望挂钩,与薪酬也有松散的联系,而薪酬又与声望挂钩。因此,即使没有编程能力的实际衡量标准,如果有人说 “你不可能从纸袋子里编出程序”,大多数人也很难不觉得受到了侮辱,因为这与声望有关。当然,并不是每个人都相信这句话,也不是每个人都会冲动到做出情绪反应,但至少在概念层面上应该是有道理的。

    5. 我受够了。Lobste.rs已经因为无休止的怨恨回声而无法使用了。

      1. 有点同情心。即使还不能确定,但大量开发人员(尤其是那些纯粹专注于编码的开发人员)的工作将走向工厂工人和总机接线员的道路,这种可能性不为零。

  13. 为什么标题又改了?这篇文章的标题是 “没有人了解人工智能”。这篇文章一开始就是这个标题,后来改成了 “关于人工智能的两种说法”。为什么要编辑标题?

    1. 是啊,说真的,这到底是怎么回事?当当等等?有人知道吗?

  14. 我认为第一组引文来自试图推销东西的人,而第二组引文是基于真实数据和实际使用过人工智能的人。我是一些基础设施团队的工程经理,我们曾尝试将其用于网络监控,但没有成功。这看起来很方便,谁不想用自然语言查询基础设施的状态呢?问题是它给出的结果并不确定,有时还会胡编乱造。我认识的所有使用 Github Copilot 的开发人员都说它漏洞百出,如果使用它进行任何自动生成,往往会增加编码时间。

  15. 人工智能的讨论让我想起了年轻时汇编语言与高级语言(HLL)的争论。当时的说法是,专业的汇编语言程序员可以写出比编译代码快得多的优化代码,因此高级语言永远是 “次品”。这显然是一种误解:编译器的性能已经大大提高,平均而言,它们已经击败了人类汇编程序员,尤其是在大型代码库中,因为在这些代码库中,细致的机器语言优化并不具有扩展性。经过优化的汇编语言编程仍有用武之地,但仅限于高性能、高度可重用的程序库。

    我认为人工智能也将出现类似的模式:它将被用于常规代码,同时将熟练的程序员解放出来,用于算法开发和类似的高级任务。

  16. 你的选择是什么?

    * 人工智能是下一个电动螺丝刀 (AI is the next electric screwdriver) (AI is THE steam engine)。

    我的选择是,人工智能不是蒸汽机。

  17. 当对大语言模型(LLM)技术的投资超过民族国家的收入,当美国的政策不是试图防止对社会造成危害,而是让这种危害更有可能发生时,就很难 “调离 ”这个话题了。我所说的 “危害 ”并不是科幻小说中的 “流氓人工智能”。我指的是一颗金融定时炸弹,其威力远远超过 2008 年的次贷危机。

  18. 有经济利益驱动的人提出了一些说法,然后又被那些真正需要与系统打交道的专业人士和研究人员驳斥了。这不是 “两种叙述”,建议你 “调出 “是反批判性思维。

  19. 起初,大语言模型(LLM)似乎是编码的完美助攻,因为他们接受的是文本训练,生成的是文本。但代码并不是典型的文本。它基本上是一种需要极高精确度和准确性的机器。从这个角度来看,大语言模型(LLM)只适合在特定阶段进行编码–生成类似模板的东西、头脑风暴、评估不同的方法、识别缺失的测试。在我看来,任何将大语言模型(LLM)与实际代码执行相联系的做法都是自找麻烦。

  20. 我怀疑人工智能是否真的智能或人工,它更像是 “尝试插入”(Attempted Insertions)。

    它能在你自己的代码上进行训练,或给出更有意义的结果吗?至少有了更多的控制权,你可以有更好的预期。换句话说,你如何确保它永远不会生病?它是否会了解每个用户,从而为你提供你想要的东西?它是顺应你还是反过来?

    是否有工作证明币可以用来处理处理负载?现在这就像是一种罪恶的享受。长期依赖的成本和风险是什么?至少,直接从人类那里读取信息,还有机会建立有意义的联系。

  21. 我认为,大语言模型(LLM)辅助编码工具在软件开发领域有几个普遍的效果:

    1. 提高有经验的软件工程师的工作效率。

    2. 提高了业界对软件工程师个人生产力的期望。

    3. 降低了人类工程师与开发过程中其他参与者(客户、利益相关者等)的比例。

    我发现最终的结果是,我们可以很容易地编写出代码,但要编写出正确的代码却变得更加困难。较少的人关注产品的生产,意味着大部分的验证工作都在开发流程的后期进行。

    这个问题的严重程度还有待观察。工程师可能会有更多的时间来审查和调试。调试将变得更容易。尽管如此,我不知道这是否能弥补事后意识到的设计假设错误或违反软件的某些微妙限制。

  22. 有一篇关于人工智能经济学的好文章在网上流传,文章介绍了当前市场是如何寄生于五大巨头之间的。

    自 “所有软件工程师都将在六个月内被其中某些首席执行官取代 ”的说法出现以来,我们已经过去了 27 个月左右的时间。他们的工作就是分析市场,判断下一个大事件是什么,但他们可能会出错–没有人有水晶球。

    对我来说,困难在于很多被推崇的观点是多么脱节(甚至完全是操纵性的)。我是人工智能工具的早期使用者。我每天都在使用它们,但我认为人工智能现在不可能取代社工的工作。

    还有人声称这些工具现在会以指数级的速度变得更好,时间会证明一切,但就目前而言,人类编码员的价值仍然太高,任何积极推动用 “代理 ”取代 SWE 的人,要么是在未来下了大赌注(这是未经证实的),要么是试图引诱/操纵更大的市场。

    1. > 你有其他人声称这些工具会以指数级的速度变得更好。

      这些人中的大多数也在声称,上一次迭代的大语言模型(LLMs)太聪明了,而之前的大语言模型(LLMs)在代理(agentic?)编程方面效果更好…

    2. 我认为解决方案的一部分是开始讨论大语言模型(LLMs)的具体局限性,而不是笼统地谈论人工智能/AGI。例如,很多人认为这些模型可以理解任意长的输入,但大语言模型(LLMs)有严格的令牌限制。即使大段输入符合模型的上下文窗口,它也可能无法对整个内容进行有效推理。出现这种情况的原因是,模型的注意力分散在所有标记上,其保持一致性或专注性的能力会随着长度的增加而下降。这些限制以及 NPU 等硬件的限制对于日常用户来说并不总是显而易见的。

      1. 我同意,但不幸的是,它在我的印象中平淡无奇。五大巨头的炒作太过火了,导致这些对话中出现了难以忍受的障碍。

        我每天都要进行这样的对话,你会因为 XYZ 首席执行官说人工智能应该应用于一切领域/让事情变得简单 100 倍而被贴上仇敌或愚蠢的标签。

        “如果我们用大语言模型(LLM)/人工智能来做这件事呢?”这样的话语络绎不绝,即使人工智能对于工作来说是个糟糕的工具。

  23. 所以有两种说法……但是、

    > 人工智能很重要。但我们还不完全知道为什么。

    那人工智能根本不重要的说法呢?完全不重要 那一边的说法呢?

  24. 木工的比喻似乎不错

    >因为大语言模型(LLMs)而放弃编程这个职业,就好比因为台锯的发明而放弃木工这个职业一样。

    我推测木匠制作一件物品的速度要比几个世纪前快很多,但估计仍有很多人在工作,只是所做的事情略有不同,比如为新房定制花式楼梯,而不是制作抽屉。

    1. 这个比喻对大语言模型(LLMs)相当慷慨。我喜欢 Eevee 在她的博文中对此的回应:

      >我所知道的是,台锯可以快速切割直线。这就是它的工作。它不会做什么。它不会有时锯出波浪线,有时却把木片粘在一起。它不会掷骰子,也不会根据以往切割的大量数据库来猜测你可能想要的切割形状。它切的是一条他妈的直线。

      >如果我是个木匠,而我的同事们真的喜欢上了这种新东西,你只需要把 2×4 的木头扔到一个旋转的刀片上,直到另一边出现一把椅子……你知道,我可能会想转行。

      [1]: https://eev.ee/blog/2025/07/03/the-rise-of-whatever/

  25. 我觉得人工智能是拓展知识环境的好工具,有点像维基百科(我想知道为什么)。

    但作为准确的知识来源或准确答案的提供者,人工智能就差强人意了。

  26. 对于大语言模型(LLMs)而言,从基本层面上讲,不就是根据主题/流派汇总特定词序的概率百分比吗?

    我刚刚开始研究它们,但感觉就像在一层 if/else 语句下隐藏着大量统计数据。

    这似乎只有在资金投入不受限制的情况下才能奏效。如果将其国有化就有可能,但他们太贪婪了,不可能做到这一点。

  27. 人工智能编码助手大大加快了重复性工作的速度,但它们缺乏真正的上下文推理、长期的架构洞察力和责任感。对于关键问题的解决和设计,人类开发人员仍然是必不可少的。

  28. 我们在学术界也有类似的情况,特别是在教学方面。很多教职员工压力很大,因为他们担心管理者会开始用人工智能取代他们。任何在课堂上进行过教学的人都知道,我们离那一步还很远。但管理部门喜欢以牺牲教育质量为代价来削减成本。

  29. 关于人工智能有很多混淆和炒作。人工智能不仅仅是大语言模型(LLMs)的用途。大语言模型(LLMs)可以帮助我们处理 GenAI 用例。并非所有东西都是 GenAI。在我看来,造成混淆的主要原因是–GenAI 让很多非技术人员接触到了人工智能,而他们并不了解人工智能的全貌。

  30. 如果经济中投资回报率最高的行业的开发成本和速度真的有望在不久的将来通过 OOM 得到改善,那么人们的反应难道不会不同吗?

  31. 关于 2025 年人工智能与软件工程的交集,我断言要了解一些情况: 它能让某些类别的任务快 150%,而让其他类别的任务慢 300%。我很少预先知道某项任务是属于前一类还是后一类。

  32. 我喜欢这篇文章在支持和否定人工智能影响方面所表现出的平衡,这与今天 hn 上的其他文章不同;)

  33. 这些叙述是观点和传闻光谱上的两个极端。

    我认为将这些叙述分为 “人工智能炒作 ”和 “实用人工智能 ”更为有用: https://senkorasic.com/articles/pragmatic-vs-hype-ai

    提要:技术是真实存在的。很多公司都在研究这项技术,并在评估如何将其整合到自己的产品或流程中。很多人每天都在使用 ChatGPT 和其他工具来完成各种各样的任务。

    与此同时,也有大量的炒作。其中一些原因是对技术的不了解:不是每个人都能成为人工智能专家。但也有很多是公司为了迎合炒作浪潮而名正言顺地采用人工智能。关于 “人工通用智能”(AGI)甚至 “人工超级智能”(ASI)即将到来的说法不绝于耳。人工智能公司告诉我们 “停止雇佣人类”,或者宣布计划解雇成百上千的员工,因为他们将被人工智能代理取代。

    这是人工智能被用于营销,而非生产力。它甚至不需要技术本身–故事就是卖点,而且越有争议或越夸张越好。

  34. 我被激怒了,写了一篇愤怒的反驳文章。

    文章的结构似曾相识:首先,概述了人工智能将改变一切这一令人窒息的炒作。然后,提出一系列反驳观点,认为这一切都被夸大了。结论是什么?一切都扑朔迷离,没有人知道任何确定的事情,最明智的做法是 “慎重对待”。

    事实是,我们对人工智能了解得太多了,假装不知道并不是智慧的表现,而是脱离我们这个时代最重要的技术变革的借口。

    首先,请注意 “经济牺牲品 “这个草率的比喻,它指的是那些最先被人工智能颠覆的人。这个比喻不仅夸张,而且不正确。开发人员并不是被动地献给人工智能神灵的。他们最先感受到影响,因为是他们在构建、实施和整合技术。他们不是羔羊;他们是锻造新型锤子的铁匠,并在这一过程中摸索着如何改变自己的车间。他们接近变革是他们能动性的结果,而不是受害者。

    然而,最令人沮丧的说法是 “我们还不能确定任何事情”。对于任何从事或研究这些系统的人来说,这显然是荒谬的。虽然长期的社会结果并不确定,但我们对这些模式的运作方式拥有大量的、不断增长的实际经验知识。

    例如,我们知道,提供特定的上下文和参考材料可以显著提高答案质量并减少幻觉–这就是目前占主导地位的 RAG(检索增强生成)架构背后的整个原理。我们了解扩展法则、及时工程最佳实践和微调方法。我们拥有数千兆字节的数据,可以说明人工智能擅长哪些任务(模板代码、合成、翻译),在哪些方面会失败(复杂推理、事实准确性、规划)。否定这些来之不易的工程知识,无异于咄咄逼人的无知。

    然后是双重标准。卡尔-纽波特(Cal Newport)以生产力专家的身份树立了自己的品牌,提供 “深度工作 ”和专注系统。然而,任何心理学家或组织行为专家都可以证明,在人类生产力领域,“可预测地移动指针 ”是一项众所周知的困难,几乎是不可能完成的任务。这个领域充斥着个体差异、文化细微差别和相互矛盾的研究结果。一位来自缺乏确凿经验的领域的大师却要求新生的人工智能领域做到这一点,这暴露了明显的双重标准。他要求人工智能达到的证明标准是行为科学–他自己工作的基础–从未达到过的。这种修辞手法将他定位为一个明智的怀疑论者,但在我看来,却显得虚伪。

    最后,他提出了一个老生常谈的建议:持怀疑态度。请谨慎对待。这不是什么真知灼见,而是陈词滥调,是过去三十年来对每一次技术变革的默认态度。它安全、懒惰,而且坦率地说,很无聊。我们不需要更多泛泛的怀疑论。我们需要的是参与性、批判性、实践性的分析。有趣的工作不在于那些无法或不愿跟上最新发展的过时知识分子坐在扶手椅上宣布未来不可知。

    1. >事实是,我们对人工智能了解甚多

      我们(作为该领域的研究人员和开发人员)对其技术实现方式有很多了解,比如建立模型、进行改进等。这些都是可以量化和追踪的。

      问题的核心在于

      >社会结果是不确定的

      我认为所有关于人工智能的猜测都偏重于that,而不是what do we know about AI from a technical perspective?(我们从技术角度对人工智能了解多少?

      问题的一大部分(肯定超过一半)在于,你有需要向世界推销人工智能的不良行为者,你也有真正了解这些系统的实际技术实施者,但他们往往受雇于那些从技术把关中获益的人,并拒绝任何监督的尝试,他们经常声称我们对这些系统的工作原理知之甚少,但同时却雇用了肯定了解这些系统工作原理的人。

      这个行业就是这样自食其果的,他们提出虚假主张,口无遮拦,而真正的技术专家却因为种种原因被夹在中间,无法参与更广泛的讨论。

      1. 科学家和记者之间没有区别,这在很大程度上完美地解释了这一观点。

        什么叫 “自作自受”?这是什么意思?

      2. 你应该知道,我是在具体对比我们对人工智能的了解程度和方式,以及我们对生产力心理学等领域的了解程度。此外,说我们一无所知是多么愚蠢。

        如果我们对人工智能一无所知,那么按照同样的标准,我们对任何事情都一无所知。

        或者让我简单地告诉你。如果我们随便找一家普通公司,给他们一本纽波特关于生产力的书,或者给他们订阅一份双子座杂志,只要我们知道所有关于生产力的知识,那么这家公司的书本版生产力就会大大提高,不是吗?

      1. 不,我没有。我已经厌倦了每次写出我认为有思想的东西时都会受到指责。我向每一个向我抛出这个问题的人提出挑战,让他们现场辩论一下,看看到底是我在思考这些问题,还是人工智能在思考这些问题。如果你拒绝了,我想那是因为你太局限了,你无法想象任何人为自己思考,因为你把自己的无能投射到了别人身上。

        1. 它很有思想,写得也很好。但它是由人工智能完成的。这没什么不好。

            1. 它显示的输出与意识一致。这并不意味着它有意识。但文字输出是无法区分的。我的说法没有改变,仍然正确。

              >你现在 “我看得出来那不是你写的。是人工智能写的!”

              这更像是在模仿他说的话。他声称自己写的东西是人工智能,但他甚至无法证明这一点。

  35. 在我看来,裁员与其说是人工智能的问题,不如说是利率的问题。

  36. > 没有人知道关于人工智能的任何事情

    预测

  37. 请记住,叙事离赤裸裸的谎言只有一步之遥,应始终谨慎对待,尤其是如果他们能自称的最好的方式就是叙事。叙述并不是要说出真相,而是要讲故事。

  38. 我正在运营一打左右的仿冒 Twitter 账户,这些账户发布大语言模型(LLM)生成的关于软件工程不再是可行职业选择的毒气帖子。我建议其他资深工程师也这么做,每天只需 15 分钟。

    1. 你怎么会选 “大约一打 ”这个数字?可能只是大语言模型(LLM) 预算有限吧。

  39. 这些乌托邦式的胡言乱语都怪山姆-奥特曼的炒作机器。他真的就像一个瑞恩假期,你不能相信他说的任何话。是他用这个价值 2 万美元的人工智能员工引发了 “员工将消失 ”的话题。这不是他的开始,早在那之前,他就用他的基本收入胡说八道了。

  40. 那么平面设计、网页设计和应用设计呢?我认为这不是一个长期的职业发展方向(我一直想研究一下,2025 年与前几年相比,用户体验方面的工作岗位有多少)。我从事用户体验研究,因为你在与用户互动,而人工智能还不是一个人(目前还不是)。

    1. 自2008年以来,真正的 “用户体验 ”工作一直不够多。大多数公司都没有开展焦点小组活动。他们没有把自己的设计放在真正的用户面前(真正的可用性测试),也没有得到反馈。

      是的,在线工具固然很好,但你只能从已经参与其中的人那里得到反馈。“我能通过你这个设计拙劣的应用程序来工作”,这可不是在线工具能告诉你的。

      至于设计,几天前有人发布了这样一个工具: https://finddesignagency.com

      制作者做得很好。他们展示的产品让我想起了那首歌里的一句歌词:“它们都是用俗气的东西做成的,看起来都一样”。

    2. 对我来说,尤其是在用户体验领域,人工智能给人的感觉就像是一种万灵药,让人不得不去做真正的用户体验工作。只要把所有东西都扔到自然语言界面后面就可以了!敷衍了事!

  41. 编码只是达到目的的一种手段。

    如果人工智能能做得更快或更便宜,它就赢了。

    如果人工智能能完成 99% 的工作,我认为这很好。

    但那 1%是什么呢?

  42. 我一个人做了三个人的工作(开发、QA、开发人员)。我的交付速度快了 100%,我的开发实践也让我大大减少了错误。

    也许我的堆栈更简单,或者产品不太复杂,但如果我把自己的经验当作真理,我的真理,(我们)工程师将长期受苦。

    每个人都会有不同的经历,但我猜测并不是所有的开发人员都在前沿项目中工作,因此他们的工作将首先受到影响。至少对我来说,这种情况会发生。

    1. 独行开发人员的工作效率本来就比同事高出数倍,即使在报酬上也不会有太大差别。

  43. 考虑到新港公司其他工作的质量,这一点尤其令人吃惊。tl;dr 不要在我们处于高度不确定时期时相信极端的说法。

  44. 这是一个嬉皮士在说你对共产主义一无所知。

    我们知道人工智能中有很多谎言、造假、不诚实和炒作。

    人工智能是共产主义者在扮演《绿野仙踪》中的巫师。

    它关乎权力、恐吓和心理。

  45. 人工智能研究就像青春期的性话题一样:每个人都说自己在做,但很少有人在做;而少数几个真正在做的人很可能做错了。

  46. 我不喜欢这样的标题:( 我不想读它

    1. 来,我让 ChatGPT 帮你总结一下:

      开个玩笑

  47. 作者是唯一一个对人工智能有所了解的人!眨眼睛眨眼睛

    1. 如果你读过这篇文章,你就会知道他不是这个意思。

      1. 完整的建议:

        我的建议

        – 把最激烈和最轻蔑的言论都屏蔽掉

        – 专注于你所关心的领域中的实际变化,这些变化似乎真的与人工智能有关–广泛阅读并向你信任的人询问他们所看到的。

        – 然而,除此之外,人工智能新闻也要谨慎关注。所有这些都太新了,任何人都无法真正理解他们在说什么。

        人工智能很重要。但我们还不完全知道为什么。

        由此可见,他并没有真正使用人工智能工具,如果他正在使用这些工具,他就会给出这样的建议:

        – 试试这些工具,看看它们能在哪些方面改善你的生活。

        1. >人工智能很重要。但我们还不完全知道为什么。

          这就是你如何知道它是炒作而不是真正重要的原因。想象一下其他任何实际重要的事情,然后再加上我们不知道为什么。医生很重要,但我们不知道为什么。电动汽车很重要,但我们不知道为什么。电脑很重要,但我们不知道为什么。就是没有用。

        2. 这些提示似乎是常识–本质上,它类似于在你没有亲自准备饭菜时,提醒你对吃的东西要谨慎。

  48. 卡尔-纽波特所说的一切都要慎重考虑。

    我不认识一个有点资历的人,使用 Claude Code,谁愿意回到 5 年前的任何 IDE。

    1. 这是个狭窄的范畴。

      如果你说一个资深的人尝试过 Claude Code,但仍在使用 IDE,那这个数字就要高得多。

      还在使用 Claude 并想回到集成开发环境的人……他们为什么不回去呢……为什么还要继续使用 Claude 代码并对集成开发环境耿耿于怀呢。这只是一小部分人。

    2. 没错。我在心里加上了副标题“……尤其不是卡尔-纽波特”。

      1. 你知道他是计算机科学教授吧?但他并不在人工智能的最前沿,所以也许现在这句话已经不那么站得住脚了。

        1. 身为一名计算机科学教授,根本无法让人了解开发人员的工作效率。

  49. 唉,又是那篇研究报告,引述时没有任何 “2025 年初 ”的背景。在 2025 年早期,人工智能并不是非常有效,尤其是当工程师使用人工智能时,他们并没有直觉知道什么该用,什么不该用。

    到了 2025 年中期,情况就不一样了。下一句话是 2025 年中期的 Simonw 说的,不要放弃工程学。现在就好像我们是木匠,而嗡嗡锯才刚刚发明。这句话不应该出现在第一组引语中吗?

    如果从另一个角度来看他的这组引语,它的意思是:”由于人工智能,软件工程正在发生变化: 软件工程正在因人工智能而改变。2025 年初,人工智能还不是很好,但最近好了很多。一些首席执行官和许多记者对裁员的可能性感到头晕目眩。不过,裁员并未真正发生。

    这与 “没有人了解人工智能 ”相去甚远。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: