围绕大型语言模型(LLMs)的一切仍充满魔力与美好愿景

Hacker News 在另一篇关于人工智能的讨论中带来了这条珍贵的评论

HN 上对人工智能的大部分批评似乎来自那些尚未完全理解 MCP、工具等当前发展状况的开发人员,他们只是简单地调用大语言模型(LLM)的 API 调用,而没有进行更深入的思考

正如我回应的那样,这与加密货币的经历如出一辙。如果你敢质疑与~加密货币~AI相关的事物,你就是一个毫无头绪的傻瓜,尚未领悟事物的真正意义。

另一个人插话提出了一个敏锐的观察:

那些声称“它对我有些/大部分时间有帮助”的人与那些声称“我试过一切,但都糟糕透顶”的人之间存在巨大差距,这让我非常感兴趣。

这个问题的答案很简单,也很明显。然而,在一个越来越被神奇的、一厢情愿的想法所淹没的行业里,我还没有看到很多人谈论这个问题。

那么,为什么会有这样的差距呢?为什么有些人认为大语言模型(LLMs)是神奇的、能实现愿望的奇迹,而其他人却认为它毫无用处呢?元素周期表

我已在评论中给出过回答,在此重新整理如下。

因为我们看到的只是零散的描述,且从未尝试量化我们讨论的内容。

对于大语言模型(LLMs)如何工作或如何不起作用的每一种描述,我们只知道以下部分内容,而不是全部:

  • 我们知道人们正在从事哪些项目吗?不知道
  • 我们知道人们正在使用哪些代码库(全新、成熟、专有等)吗?不知道
  • 我们知道这些人的专业水平吗?不知道。他们的专业知识与他们应用大语言模型(LLMs)的领域、代码库、语言相同吗?我们不知道。
  • 他们需要进行多少额外的工作来审查、修复、部署、完成等?我们不知道。

即使有人能描述上述所有内容,你也无法将其经验与他人比较,因为你不知道其他人对这些要点的回答是什么。

而这还是在我们尚未探讨所有系统和代理完全非确定性之前,当前有效的方法可能在1分钟后对同一问题就不再适用。

而这还是在我们尚未探讨一个高级工程师在React框架下使用某个代理和模型进行绿地项目开发的经验,如何与一位在闭源专有代码库中使用OCaml语言、采用不同代理和模型(甚至可能是相同代理/模型,但因非确定性而产生差异)的非编码设计师的经验进行比较之前。

然而,炒作和魔法对我们行业的影响如此之大,以至于似乎大多数人都会盲目接受任何主张,无论其多么荒谬或真实。

当这种言论来自所谓的“行业领袖”时,情况尤为严重,他们会说出诸如这段话之类的话。

我使用Claude Code已有几天,它在处理我那复杂老旧代码库中的遗留缺陷时,简直像一台由美元驱动的碎木机。它能通过聊天功能完成令人惊叹的任务。

你甚至无需选择上下文。只需敞开心扉并打开钱包,Claude Code就会接管一切。

… 只要银行授权持续通过,它就会持续推进 bug 修复直至部署到生产环境,然后开始扫描用户日志以评估其表现。

  • 代码库规模有多大?未知。
  • 哪些 bug?未知。
  • 是否需要额外维护?未知。
  • 是否涉及编程语言和框架?未知。

然而,该项目已获得1.8万个点赞和204次转发。

所以,如果你不关闭大脑中负责批判性思维的部分,而是完全相信炒作,那你就是个不懂事的白痴,不明白事情的真正含义。

等等。“那你呢,作者?”你可能会问。

我已经使用了几乎所有可用的工具,并以多种组合方式使用它们。我有一些完全由Vercel的v0设计的副项目。我用SwiftUI(我对Swift一窍不通)和Claude Code构建了一个完整的监控应用。我使用Midjourney为我举办的活动制作海报。我用Elixir语言(但不是phoenix.new)为MCP服务器编写了代码。

和大多数怀疑论者与批评者一样,我每天都在使用这些工具

而50%的时间里,它们只能50%地发挥作用。

这是对《新闻编辑室》笑话的戏仿,我稍微记错了。

它是一个非确定性的统计机器。当它工作时,可能会让人觉得像魔法。但它既不是魔法,也不是工程。

围绕大语言模型(LLMs)的整个讨论都假设它严格属于这两者之一。

现在,我们到了这里。

本文文字及图片出自 Everything around LLMs is still magical and wishful thinking

共有 175 条讨论

  1. 我感到沮丧的一点是,我所在的公司管理层听说过10倍的生产力提升。其中一些说法甚至来自我们公司内部的早期采用者。

    但这会让期望值变得过高。部分原因在于阿姆达尔定律:我花在编码上的时间只占总时间的一小部分,而花在思考和与代码用户沟通上的时间要多得多。即使编码速度真的提升了10倍(而大多数时候并没有),整体生产力也只能提升10-15%。这虽然不容小觑,但绝非10倍。

    1. 也许是因为我目前的工作更偏向研发性质,但对我来说,大语言模型(LLMs)在“思考”方面带来的收益与在“编码”方面带来的收益一样多(目前我还能很好地处理“沟通”方面的工作)。使用大语言模型(LLMs)进行“思考”任务,感觉就像 20 多年前掌握网络搜索一样。搜索引擎使您能够访问信息,前提是您知道要搜索什么;现在,大语言模型(LLMs) 通过帮助您首先弄清楚要搜索什么(然后为您方便地搜索),进一步增强了这种能力。这使我以前因涉及努力和不确定性而认为困难的一些任务变得微不足道。

      目前,我大约 1/3 的网络搜索是通过 ChatGPT o3 完成的,我无法想象现在放弃它。

      (还有一种心理角度,即大语言模型(LLM)帮助整理和推敲你半生不熟的想法,使许多任务看起来不那么艰巨,仅此一项就产生了巨大的影响。

      1. 此外,如果你添加语音模式(例如 ChatGPT 的高级模式),它就非常适合头脑风暴。

        一旦我决定要“用大语言模型(LLM)思考一个问题”,我通常会从语音模式开始。这迫使我大声说出自己的想法——这非常有效(听听橡皮鸭调试)——它还给我提供了一种截然不同的方式来吸收大语言模型(LLM) 提供的信息。我不会收到大量可能包含错误信息的文本,而是获得一个顺序系统,当我对某些内容感到好奇或发现问题时,我可以立即停止/暂停大语言模型(LLM) 或将其重定向。

        你可能会认为这种交互方式会带来限制,因为快速的大语言模型(LLM)会输出大量信息,让你能够快速浏览并记忆。然而,对我来说,听觉与视觉相结合,最重要的是,不必处理大量可能错误的信息(浏览无意义的信息有什么好处呢),这确保了 ChatGPT 的高级语音模式是最初解决问题的好方法。

        在完成语音模式的第一轮后,我通常会转为书面形式的头脑风暴。

        1. 这完全正确。不过我认为这其中存在个性因素。至少在我说话时是这样。

      2. 我时不时会使用大语言模型(LLM)来假装研究我最近研究过的话题,以检查它能为我节省多少时间。

        到目前为止,大多数时候,我的印象是“我会被严重误导,直到为时已晚才意识到”。这会为我节省一些负面时间。

        到目前为止,大语言模型(LLMs)唯一能持续帮助我的就是打字,但有时仍然需要手动修正(但我承认这仍然节省了精力)。其他方面则时好时坏。它有助于研究的东西通常是即使没有它也容易研究的东西。有时它会在产生的泥浆中闪现出金块,但这种情况很少见。最好的方法是描述某件事物,然后询问它的名称,然后用传统方法进行搜索。

        话虽如此,在过去的十年里,搜索引擎在研究方面已经明显变差,因此大语言模型(LLMs) 的门槛降低了。

        1. > 到目前为止,大多数时候,我的印象是“我本会被严重误导,而且直到为时已晚才意识到”。这本可以节省我一些负面时间。

          我对Perplexity的印象也是如此,这就是为什么我基本上停止使用它,除非我需要快速覆盖一个大的搜索空间,并且愿意对任何明显不正确的内容进行双重检查。大多数时候,它是o3。我猜这是必不可少的“你是否使用了足够好的模型”部分,但它确实有很大区别。即使在ChatGPT中,我也不使用默认模型(gpt-4o)的“网页搜索”功能,因为我发现它会过度产生幻觉或误解结果。

          > 它真正有助于研究的内容,通常是即使不使用它也容易研究的内容。

          我不同意,但也许这也与态度有关。我看到同事们使用相同的工具(Perplexity 和后来的 o3)进行与我完全相同的调研,他们通常比我快 5-10 倍,但他们得到的却是糟糕的结果,而我没有。

          问题是,我对任何正在学习的事物都有着异常强烈的“掌握理解”的需求。因此,当一些同事只是简单地检查o3的输出结果,然后将其复制粘贴到团队的Notion中,并认为自己的研究已经完成时,我实际上会仔细阅读这些内容,追踪任何让我感到困惑的部分,并不断深入挖掘,直到一切开始变得清晰,我对该主题形成了一个一致的思维模型(并清楚地知道其中的简化处理和未知部分)。是的,有时我会迷失在旁枝末节中,整个过程比我预期的要花更长时间,但至少我不会被“大语言模型(LLMs)误导”。

          我对人也是如此,有时他们会讨厌我这样做,因为我的追根究底让他们觉得我不信任他们。好吧,我确实不信任他们——大多数人的幻觉比 SOTA LLMs 更严重。

          尽管如此,我所说的研究如果没有大语言模型(LLMs),至少对我来说,还是不容易做的。这些模型让我能够深入挖掘那些否则会让我感到难以承受或太混乱,或者在我可用的时间内无法完成的事情。

          拥有自己的理解。这是我的规则。

          1. > 问题是,我对任何正在学习的事物都有异常强烈的理解需求。

            我也是这样。别误会,大语言模型(LLMs) 确实很有帮助,但我的意思是,它们最多只能辅助我的研究,而不能代替我进行研究。根据我的经验,依赖它们通常会带来灾难性的后果——但有时它们确实能帮助我摆脱困境,否则我只能去找别人问了。

            我认为这是“在思考时使用大语言模型(LLMs)”和“用大语言模型(LLMs)来思考”之间的区别。后者根本行不通(除非你思考的都是琐碎的事情:P),而前者如果你能聪明地使用它,就能给你带来动力。我认为它并没有许多人声称的那样有帮助,而且它仍然远非可靠,但它确实存在,而且不容忽视。只是,聪明地使用它是必不可少的,否则你会得到一团糟,甚至没有意识到。

          2. < 我对理解所学事物有着异常强烈的需求

            这被称为剥夺敏感性。它与智力好奇心不同,前者是理解的需求,而后者是知晓的需求。

            剥夺敏感性伴随着焦虑和压力。而智力好奇心则与愉悦的探索相关。

            我在剥夺敏感性方面得分非常高。我对获取和保留重要信息有着无拘无束的渴望。

            这既是福也是祸。一种令人筋疲力尽的生活方式。我喜欢它,但有时也希望自己不是神经多样性的人。

            1. 你不是神经多样性的人。你和其他人一样,是一个受苦的、有意识的人。焦虑和抑郁是由无知造成的,而不是环境、性格特征或其他任何因素。无知带来贪婪、愤怒和幻觉。正因为幻觉的多样性没有边界,你才执着于认为自己神经多样性,并认为自己与某些实体存在某种关系,拥有某种品质和本质。这就是为什么说无知是意识存在者所经历的所有精神痛苦和不满的唯一原因。

              1. 我们的脑是预测机器。焦虑是对不愉快体验的预期,源于条件反射,而非无明。

                你可以完全觉知自己的体验,却仍感到焦虑。因此你的思维存在缺陷。

                你的回应颇具启发性。你因一条无害的评论而触发情绪,并向所有人投射严苛的观点。

                你听起来像个感到被忽视的困扰青年。

      3. 我惊讶于这个比例只有1/3。目前,我90%的信息搜索都从Perplexity或Claude开始。

        1. Perplexity对于Kagi能处理的查询来说过于庞大[0],我不想浪费o3配额[1]在琐碎的查询上。

          [0] – 虽然我承认,我几乎所有的Kagi搜索都以“?”结尾以触发AI回答,而在约50%的情况下,我不会点击任何结果。

          [1] – 据我所知,这在Plus计划中仍然存在,尽管我大约两个月没有达到过这个配额。

    2. > 我感到沮丧的一点是,我所在的公司管理层听说过10倍的生产力提升。其中一些说法甚至来自公司内部的早期采用者。

      我公司也面临类似情况,但到目前为止,我看到的内部早期采用者提出的所有生产力提升说法,都是基于非常狭窄的生产力衡量方式,以及非常粗糙的数学计算,姑且这么说吧。

    3. > 我感到沮丧的一点是,我所在公司的管理层听说过 10 倍的生产力提升。

      这可能部分是因为大语言模型(LLMs) 对初级开发人员而言,不像对高级开发人员那样具有加速作用(初级开发人员尚不了解什么是好,什么是坏)。

      因此,如果给一位资深开发者一个经过优化的LLM工作流程,我不会太惊讶于他们的工作效率可能相当于10位没有LLM经验的初级开发者。甚至可能更高,因为一位表现不佳的开发者实际上会降低生产力(从资深开发者那里“偷走”资源),这种情况下效率会呈指数级下降。

      即使是一位表现不错的初级开发者,也主要局限于处理低级别的重复性工作,而LLM已经能够更高效地完成这些任务。

      关键是,我能理解工作岗位可能会因此消失,这是合乎逻辑的。

      1. 在这整个过程中,真正失去的是人才管道。

        精密加工行业正面临一场绝对的噩梦,因为技工或大师级加工师正逐渐退出劳动力市场。这些人最初是在手动机器上学习的,后来逐步升级到数控机床。人才管道在1997年左右崩溃。

        现在没有学徒机械师来接替退休员工的技能。

        软件开发人员也会面临同样的情况。可能更快,因为他们通常比机械师更早实现财务独立。

        1. > 在这一切中,真正丢失的是人才管道。

          完全同意。

          然而,我认为这条人才管道已经受到冲击有一段时间了,因为年轻一代整体上正在贬低自己的价值:如果我们预期他们会在一年后离开,那么招聘和培训他们的意义何在?到那时,我们只是在帮助他们的下一家雇主。

          1. 正是雇主导致了几乎所有在科技行业工作的人(无论技能水平如何)都能通过频繁跳槽更轻松地提升薪资和职位。

            很少有公司真正思考如何实现有意义的员工留任,但他们却迅速抱怨员工流动率。

            1. 是的,我同意这双向作用。就业是一项交易,双方都在努力优化结果以符合自身利益。无需责怪。

              劳动力市场的健康状况也是重要因素。

          2. 那个老生常谈?如果你以激励员工留任的方式支付薪资,他们就会留下。如果你培训员工、善待他们并给予合理薪酬,他们就不会离开。如果他们确实离开,那就尝试解决其中一个问题,别再怪罪初级员工在这样一个他们几乎找不到工作的市场中大量流失。

          3. > 然而,我认为这条人才管道已经受到冲击有一段时间了,因为初级员工整体上正在贬低自身价值

            我看到初级开发人员的标准在过去几年里急剧下降,因为他们大量招聘了编程训练营的毕业生。我已经数不清有多少抱怨的初级开发人员认为SQL或正则表达式对他们来说“太难了”。难怪他们被一个概率魔术师的帽子所取代。

    4. > 总体而言,我的生产力提高了 10-15%。这虽然不可小觑,但并不是 10 倍。

      如果由于大语言模型 (LLM) 工具的成本,雇佣你的成本增加了 10-15%,那就不可小觑了。应始终考虑总生产成本,而不仅仅是吞吐量。

      1. > 如果由于大语言模型(LLM)工具的成本,你的雇佣成本增加了 10-15%,那就值得轻视了。

        克劳德·马克斯每月 200 美元,大约是普通软件工程师工资的 2%。

        1. 有人知道一旦免费的人工智能资金不再涌入这些公司,客户的实际成本会是多少吗?

          1. 我并不是大语言模型(LLM)的拥护者,远非如此,但我预计,与当前最尖端模型质量相似的模型将在 3 年内可以在消费类硬件上自由运行。未来最尖端的模型可能会比当前的更贵,谁知道呢。

            1. 为了降低依赖大语言模型(LLM)的服务成本,您无需在单个消费级 GPU 上运行尖端模型。即使需要一百个 GPU,人们仍然可以围绕这些模型的托管开展业务,并与大型供应商竞争。

            2. 目前能在单张4090显卡上运行的最佳模型与GPT 3.5相比如何?

                1. 即使将量化位数降至4位以适应4090?

                  1. 根据我的经验,运行qwen3:32b效果不错,但与3.5在4位量化下的表现相比,其一致性和实用性稍逊一筹。不过,与llama 70b相比,两者之间的差距要小得多。

          2. 是的,前几天在Hacker News上发布了一份分析报告。考虑到需求侧经济疲软、对GDP几乎没有影响,以及企业/风投补贴即将消失,我们很快就会知道结果。不过,Sam Altman确实说服了软银进行了一轮400亿美元的融资,所以可能还需要一两年时间。目前估计运行成本比搜索更低,因此搜索功能被替换的可能性很大。不过OpenAI尚未放弃其广告平台,因此很想看看后续发展。

          3. 基于内存计算技术,推理的芯片/能源成本有望降低100倍以上。

            因此他们可能会找到一个合理的成本/价值比率。

          4. 成本低到无法计量?推理成本低廉,且这里不存在长期甚至中期护城河。

            只要法院不因LLama训练数据的知识产权问题关闭Meta,情况就是如此。

            我必须强调一点:“开源”模型是阻止客户“实际成本”增长的唯一途径。尽管人们普遍认为推理非常昂贵,但事实并非如此。这并不是 Uber——停止推理并不会使大语言模型(LLMs) 变得不可行;最坏的情况只是人们需要支付 API 价格,而不是订阅价格。只要有合法可用的“开源”模型并跟进最新技术(SOTA),任何拥有云GPU访问权限的人都能以推理成本提供“6-12个月前的SOTA”水平,这将对OpenAI等公司提价幅度设定硬性上限。

            但这仅限于存在开源模型的情况下。如果Meta失败且LLama消失,寒蝉效应将使OpenAI、微软、Anthropic和谷歌能够随意设定价格。

            编辑:

            我的意思是LLama合法消失。当然,猫已经出笼,潘多拉的盒子已被打开;权重已经存在,你无法取消训练或取消发明它们。但要保持商业大语言模型(LLM)产品的低价,就需要不断提供改进的开放模型,以及小型公司能够通过托管这些模型来开展合法业务的能力。

            1. 你不能只考虑培训成本……

              如果这些公司打算继续经营下去,他们就必须为他们某时花掉的数百亿资金买单。这就是原评论中所说的“免费AI”

              1. 是的,你可以——因为有LLama。

                训练成本高昂,但也不是高到离谱。只需一个超级富豪玩家承担训练成本并发布权重,就能让其他玩家失去护城河。

                1. 如果你的经济分析依赖于“某个超级富豪玩家支付”才能成立,那这更像是愿望而非分析。

                  迄今为止投入模型的数百亿美元并非捐赠。这些资金要么回流给投资者,要么项目最终会停摆。

                  而支持者的主要论点是“它会越来越好”,如果失去这一点,你得到了什么?“这个东西可以生成模板代码,重新排列文档,有时会以难以察觉的方式静默损坏数据,但嘿,你可以本地运行且成本低廉”?

                  1. 经济分析不是我做的,但我认为现在已经众所周知了:Meta 不从事计算业务,也不想从事计算业务,因此,通过发布 Llamas,它剥夺了谷歌、微软和亚马逊围绕大语言模型(LLM)推理建立护城河的能力。将你的补充商品化等等。Meta 想要使用大语言模型(LLMs),而不是出售对它们的访问权,因此偶尔花费 10 亿美元来训练和赠送一个开放权重的 SOTA 模型是一个很好的投资,因为这直接和间接地使推理对每个人来说都保持低成本。

                    1. 你明白,根据你刚才所说的,从经济角度来看,目前的 SOTA 是站不住脚的?

                      这再次意味着未来我们将被迫使用本地模型,而这些模型大约有一半时间会污染数据。

                    2. 不,这只是意味着大型玩家必须不断推进SOTA以盈利;Llama落后约6个月,只是意味着他们能为访问前沿技术收取的费用有限。

                      短期内,这是正在增长/演变的市场中正常的动态。长期来看,太阳会耗尽并吞噬地球。

                    3. 提升训练成本的难度会随着每个里程碑呈指数级增长。目前没有供应商能收回成本。更不用说用于训练的高质量数据了。

                      研发工作寄希望于通过扩大模型规模(是的,实际规模)最终触发奇迹,使公司价值和影响力暴增。他们无法解释这种奇迹会以何种形式出现……但他们迫切需要源源不断的巨额资金注入。

                      这种研发投入与回报的比率确实异常失衡。

                      幸运的是,我们目前拥有的技术已经相当有用,而模型压缩确实展现出潜力。五年内,我怀疑我们不会迎来被炒得沸沸扬扬的后劳动时代乌托邦或反乌托邦。但我们可能会拥有一些真正强大的模型,能够直接在手机上运行。

                      正如你所说,Llama 和本地推理成本低廉。因此,这是所有技术发展的最合乎逻辑的方向。

                    4. 不,供应商们通常对扩展的局限性持开放态度。赌注不在于最后一个数量级的提升会带来奇迹——赌注在于研发人员在最后一个提升达到边际效益递减之前,找到一种新的方法来提升模型性能。而目前,这就是一直在发生的事情。

                      这种假设存在风险,但也是合理的——别忘了整个领域既是新兴的,又在过去几年中获得了巨额资金投入;这是个通胀时期,大量研究人员在探索每一个可能的角度,但研究需要时间。可以肯定的是,未来几年内仍将有重大突破出现。

                      对于供应商而言,风险在于这些突破是否能及时出现,以便他们能够利用这些突破保持领先地位(以及利润)再维持一年左右,直到下一次突破到来,如此循环。

            2. 如果LLama消失,我们仍会从中国获得不遵守关闭LLama法律的模型,至少在中国占据主导地位之前,他们将继续利用开源/模型进行低价竞争。无论如何,开源模型将继续存在。

          5. 开源领域的快速进展表明情况并非如此。

        2. 在美国可能如此。但在全球其他地区,这一比例要高出数倍。

        3. 平均软件工程师税后月薪$10000?!

      2. > 如果由于大语言模型(LLM)工具的成本,雇佣你的成本增加了 10-15%

        怎么可能将总薪酬的 10% 用于大语言模型(LLM)呢?

      3. 这是一个很好的见解,因为在完全竞争的情况下,这意味着你需要与大语言模型(LLM)分享你的旧工资!

    5. 这只是又一波技术炒作浪潮。现实情况可能介于彻底的末日与无限的乌托邦之间。但很可能两者都不是。

      人工智能这件事让我想起了2000年代初大规模外包软件工程师的热潮。当时高管们对此充满热情,纸面上看起来似乎可行。但大多数此类计划最终以失败告终,几乎所有岗位都回流到了美国。

      人们往往忽视了软件工程师所做的那些将一切粘合在一起的细节工作。人工智能缺乏这些细节。外国人未必缺乏这些,但语言障碍、时区差异、文化差异以及各种其他因素导致了类似的问题。代码质量和可维护性急剧下降,那些外包公司产出的很多东西都不得不被扔进垃圾桶。

      我已经看到人工智能的垃圾代码在我参与的代码库中积累。很多这些问题在代码审查中很难被发现,因为它们在查看差异时看起来合理。问题在于那些你看不见的冗余代码,以及从更高层次看完全没有意义的奇怪抽象。

      1. 这是我前几天对一个朋友说的话。我认为,任何使用大语言模型(LLMs)的略有能力的人都会让这项技术看起来比实际情况好得多。

        管理层认为大语言模型(LLM)做了大部分工作。工作被外包了。哦,当一个毫无头绪的人来领导时,质量就糟糕了。我们需要再次招聘。

    6. 在我的个人项目中,速度至少快10倍,甚至在某些情况下更快。但在工作中,事情需要提前几个月规划,我需要与5个不同团队合作,以确定在开发过程中要求更改8次的情况下如何正确完成任务?即使只是处理PR审核,确保其他人理解并能访问代码。我不知道,有时候可能只是持平,或者10-15%的效率提升。它在某些环境下就是行不通,而真正让它发挥作用的条件(如超高质量的架构规划、设计、标准化模式等)基本上只在最小的初创公司和个人项目中才可行。

      坦率地说,仅仅让工程师们就这些高度专业化的标准化模式达成一致就已经非常困难了,尤其是因为许多有助于人工智能的技术并不是他们所熟悉的。一旦出现偏离这些模式的情况,就可能让人工智能感到困惑,从而使原本10倍的效率提升变得不再可行。此外,没有人愿意审查我为“10倍效率”本地项目所做的更改提交的PR……尤其是在我的个人项目中,维护这些标准已经足够困难,AI自然会偏离并产生噪音,挑战在于构建系统来引导它,确保没有任何偏离(因为噪音会导致更多噪音)。

      我认为这更多是重新平衡的问题,如果有一两个志同道合的工程师有意去做,他们可以实现10倍效率。但我认为这种情况在任何实际的企业环境中都不会存在,甚至在团队超过4人时也不可能实现。

      至于AI在中间管理层和项目规划中的应用……

    7. 我并不反对你对当今世界的评估,但就在12个月前(在当前基础模型和编码代理如Claude Code出现之前),即使是编写部分代码的10倍提升也不可能实现。

      1. > 仅仅12个月前(在当前一代基础模型和编码代理如Claude Code出现之前),即使是编写部分代码的10倍效率提升也不成立。

        当时你需要在提示词中粘贴更多内容,以便输出结果能与现有代码库兼容,因为当时缺乏良好的集成开发环境(IDE)或“代理”工具。但自OpenAI发布ChatGPT-4 API(大约两年前)以来,你已经能够为90%的日常软件开发工作获得非常优质的代码。

        如今,演示低成本的“创建全新功能或原型”要比过去花时间调用正确API接口容易得多,但日常工作的绝大多数并非“一蹴而就的新原型网页应用”,而且可能永远不会是。

        我个人现在比1或2年前更高效,因为构建提示词所需的时间比我在自己领域编写代码的速度慢,但绝非10倍。它通常会一次性搞砸事情,然后很有可能追踪错误所需的时间会比直接编写代码——或仅将其用作“更好的自动完成”——所需的时间更长。

      2. > 我不否认你对当今世界的评估,但就在12个月前(在当前一代基础模型和编码代理如Claude Code出现之前),即使是“编写部分代码效率提升10倍”的说法也不成立。

        那么?这听起来像是你在暗示我们犯了外推谬误(我甚至不承认“12个月内提升10倍”这一观点,但为了论点需要,我们暂且接受这一前提)。

        坦白说,12个月前基础模型与现在相比并没有实质性差别。有人会无休止地与我争论这一点,或许它们在边际上有所提升,但我认为基本情况确实如此。当我以冷静理性的视角审视过去一年的进步时,主要集中在两个核心领域:

          * 成本与效率
        
          * UI 与整合
        

        那么,我们如何从这里继续改进呢?成本与效率是历史先例中显而易见的杠杆:GPU 在推理方面表现欠佳,而成本(目前)正在迅速下降。但也许这种情况不会持续下去——算法的复杂性就是如此,除非架构发生革命性的变化,否则大语言模型(LLMs) 还是指数算法。

        用户界面与集成是近期大部分改进的来源,坦白说,这一领域已接近饱和。各类AI产品已呈现高度同质化,我确信它们将持续收敛至一个被广泛接受的局部最优解。此后,仅凭用户体验(UX)提升实现生产力的大幅增长将不再可能。这一转变将迅速发生——可能在未来一到两年内。

        基本上,除非我们看到GPU的摩尔定律,否则我不会押注于人工智能的无限指数级改进。我的预测是,从现在开始,这将类似于任何先前技术变革的采用曲线(例如大型机→个人电脑、个人电脑→笔记本电脑、移动设备等),即先经历快速增长,随后是漫长而缓慢的普及过程。

        1. 12个月前,我们还没有推理模型,甚至基本的算术运算都超出了模型的能力范围。编码助手主要在完成单个函数的自动补全层面工作,但现在我已经可以一次性演示可用的原型(尽管还未达到生产就绪水平)的网页应用。我假设你认为后者是“集成”,但我认为编码对基础模型训练至关重要,因此这同样得益于基础模型的改进。这可以验证——让像Claude Code这样的工具在一年前的开源模型上运行,看看其表现会很有趣。

          如果你认为所有这些都算不上实质性改进,那我们只能各持己见。毫无疑问,这是我自2000年代初开始编程以来,亲眼所见的所有技术中进步最快的。

          1. 我认为推理模型主要是一种效率/成本的提升,我以为第一个模型是在一年前提出的,但好吧,可以接受。我认为这不会改变我的论点。大语言模型(LLM)的“乌罗波罗斯/机器人蜈蚣”已经完成,但它本身并不是通向指数级改进的道路。

            坦白地说,我发现使用推理模型进行编码的边际价值非常小。工具的使用当然有,但我几乎从未使用过“推理”功能。

            此外,大语言模型(LLMs)仍然无法进行基本的数学运算。它们当然可以解决数学考试的问题,但你不能相信它们能在任务过程中进行计算。

            1. > 但你不能相信它们能在任务过程中进行计算。

              你也不能相信人。计算是一种独立的思维模式;如果你不暂停并切换上下文,就会出错。大语言模型(LLMs)也是如此。

              工具的使用、推理和“代理方法”都是让大语言模型(LLMs)进行必要的上下文切换的一部分,而不是随遇而安地接受匹配挑战并搞砸。

              1. 正确的比较对象不是人类,而是计算机。甚至不是人类和计算机。

                但我的观点并不是要根据大语言模型(LLMs)做数学的能力来判断它们——我只是回应了原评论中关于它们在这一领域已经变得更强的说法。

                值得注意的是,所有主要模型仍然会随机决定忽略架构和工具调用,因此即使如此也并不能保证。

        2. 12 个月前,如果我将大约 800 首诗歌和大约 25 万个词条输入到大语言模型 (LLM) 中,并要求它总结这个庞大的收藏,它们会完全忽略一些诗歌,并且容易产生幻觉,不仅会产生诗句,还会产生完整的诗歌。我用所有能接受25万个令牌的模型进行了测试,结果都行不通。我还尝试用约10万个令牌的子集测试其他模型,结果同样糟糕。完全不可靠,它说的一切都不能信任。

          随后Gemini 2.5 Pro(首个版本)出现,情况突然发生了变化。它不再出现幻觉,能在诗歌中发现惊人的模式,识别不同的“诗歌阶段”,以及许多其他令人难以置信的功能——至少对我来说是这样。

          此后,我意识到可以开始将更多那些“难以追踪”的错误提交给Gemini 2.5 Pro,而非其他模型。它实际上开始可靠地解决这些问题,而之前主要是靠我来解决,模型大多在错误不是由多个方法之间复杂交互引发时才提供帮助。我可不是经常说“这有问题,快修好”!通常我会提供我对问题可能出在哪里的看法。但Gemini 2.5 Pro就是知道如何更好地利用这些想法。

          我还尝试过使用大语言模型(LLMs)来处理对话、屏幕截图和各种临时文档(电子邮件、摘要、聊天记录等),以生成准确的 PRD,甚至完整的开发估算。第一个真正开始产生良好效果(即现在已成为我流程的一部分)的是,您猜对了,Gemini 2.5 pro。我承认我没有在这一点上过多尝试 o3 或 o4-mini-high,但那是因为它们太慢了。而且,当我尝试时,o4-mini-high 表现较差,而 o3 感觉上更接近 2.5 Pro,尽管,如我所说,速度慢得多,而且……该如何形容呢……粗鲁(“更冷漠”)?

          总之:虽然我同意这些模型在涉及编码的任务上可能并不特别出色,但我认为2.5 Pro代表了巨大的进步,不仅在编码方面,更在整体性能上(诗歌示例至今仍让我惊叹不已。它依然好到令人难以置信)。

          1. > 12 个月前,如果我将大约 800 首诗歌和大约 25 万个词条输入到大语言模型(LLM)中,并要求它总结这个庞大的收藏,它们会完全忽略一些诗歌,并且容易产生幻觉,不仅会产生诗句,还会产生完整的诗歌。

            在过去的一周里,克劳德代码一直无视 CLAUDE.md 及其中的每一条指令。我每次都必须手动提示它。

            当我根据文章[1]中提到的MCP进行代码编写时,我也用Claude进行了测试。在某个时刻,它完全忘记了MCP的存在。它实际上是这样做的:

               > 向MCP添加注释
            
               调用mcp:add_note_to_project
            
               > 向MCP添加注释
            
               运行find mcp.ex
            
               ... 被用户中断...
            
               > 将笔记添加到 mcp
            
               运行 <包含 mcp 的复杂代码生成命令>
            

            我们没有客观的方法来衡量大语言模型(LLMs)的性能和行为

            [1] https://github.com/dmitriid/mcp_notes

          2. 您的评论值得一个更长、更深入的回复,但我还是觉得有必要说,我从o3中也得到了同样的感觉。更冷漠、有些机械且不友好。它就像4o的极端对立面,而我两者都不喜欢。

            我目前的首选工具是Claude 4 Opus,但它速度慢、成本高,且仍未比经典的3.5 Sonnet有显著提升

            1. 完全正确!我的看法是:

              4o确实如人们所说,是阿谀奉承的。它是一个伪装成人类助手的AI,可以是个人助理、治疗师、朋友、粉丝,或是客服热线另一端的客服。它有时会夸大其词,有时会绕远路到达目的地,只要这样能让对话更愉快——它让对话感觉更像人类。

              然而,OpenAI的推理模型更像是伪装成代码奴隶的AI。它不打算夸大其词、绕弯子或甚至表现得友善。它的任务就是给你那个该死的答案。

              这就是为什么o*模型不适合创意写作、“治疗”或几乎任何不是解决逻辑问题的事情。它们专为解决问题、编程、分解任务、直达“终点”而设计。你向它们提出需要解决的问题,它们会给出解决方案,有时甚至省略中间步骤,因为那不是你所要求的。(需注意,我从2.5版本中完全没有这种感觉)

              最终,这种“直截了当”的风格让人感到异常冷漠。它通常不会提供替代方案,也不会在乎情感,因为在解决问题时,情感并不重要。你可能会经常听到4o说“很抱歉听到”你生活中发生的不愉快事情,而o*模型则有更高的门槛来决定是否应该像情感机器一样行事,而不是像解决问题机器一样。

              我认为这很可能是OpenAI的刻意设计。他们可能出于某种原因认为,如果模型在最终答案上更加简洁(尽管推理过程可能并非如此,而我们无法看到),那么它会产生更好的结果。或者也许他们在这上面损失的资金更少,我不知道。

              如果我想“感觉”自己是在与一个具备同理心的人对话,Claude通常是我的首选模型。不过2.5 Pro正在缩小差距。此外,Claude过去在欧洲葡萄牙语(以及葡萄牙文化和参考资料方面)远胜于其他所有模型,但如今2.5 Pro似乎也同样出色。

              另一点是,这也是为什么我完全理解OpenAI需要两种不同类型模型的原因。4o是我用来审查邮件的模型,因为它不会试图去除邮件中的人性,将其变成最简洁、最平淡、最“客观”的东西——而o*模型会这样做。

              换句话说,我认为:(i)o*模型应该是工具,(ii)4o类模型应该是“人性化”的。

          1. 与父评论中使用的相同严格分析(这是个玩笑,顺便说一句)。

            但认真地说:如果你发现自己同意其中一个而不同意另一个仅仅因为来源,请检查你的偏见。

    8. 当他们利用AI在周末“无需编码”就写出一个小程序,然后周一来炫耀并表现出对工程师需要时间完成任务感到困惑时,这真是太棒了。

    9. 有多少沟通和会议是因为传统上代码非常昂贵且耗时?未来有多少此类会议可能被简化或完全取消?根据我的经验,确保软件按计划推进并正常运行的流程非常繁琐。我认为软件生命周期即将被重新定义。

    10. 开源项目分析报告显示,生产力提升幅度在10%-15%左右……所以你的观点非常准确

      1. 对于协同开发工具而言,这一数字大致准确。而对于自主编程而言,提升幅度要高得多。

          1. 自主编程技术仅在过去几周因价格优化而开始普及。

    11. 期望值绝对过高。这将导致大量负面情绪和人员被解雇。情况会非常糟糕。

    12. 等他们听说使用Vim/Neovim带来的生产力提升时就知道了。

      你的开发人员还在用鼠标操作来完成工作?解雇他们。

    13. Canva的生产力提升了30% – https://fortune.com/2025/06/25/canva-cto-encourages-all-5000…

      人工智能是新的变革力量。我们需要积极拥抱并适应这一趋势,因为雇主对员工技能的要求正在发生深刻变化(参见我在https://ghuntley.com/six-month-recap/上的演讲)。

      我很乐意回答大家可能有的任何问题。目前我正在离线[2],正在开发一种全新的编程语言[1]。

      [1] https://x.com/GeoffreyHuntley/status/1940964118565212606 [2] https://youtu.be/e7i4JEi_8sk?t=29722

      1. 这种以绝对自信做出离谱的声明,然后自我宣传的行为,简直让人联想到《波特兰ia》的风格。

      2. 而这在50%的采用率下,可能伴随着工具使用技能的广泛分布。

      3. > 软件工程师的生产力大约为30%

        这意味着下降了70%?

    14. 我是技术主管,现在我的产出可能是团队中其他人的5倍。这是通过团队层面的票数来量化的。与我的下属相比,我在 IC 工作之外还有更多的责任。现在,我正在要求我的经理解雇那些仍然认为大语言模型(LLMs)只是玩具的人,因为我厌倦了与这种思维方式的人一起工作。务实的工程师会不断重新评估他们认为自己知道的东西。我们现在正处于一个转折点。我不再与那些对现实缺乏正确认知的人争论。我们其他人正在努力竞争并完成任务。这不是意见或游戏。如果你落后,这将带来现实生活中的后果。我曾主动分享我的工作流程、提示和设置。猜猜有多少工程师接受了我的提议?1-2人,而那些初级工程师或远远落后的员工并未接受。

      1. 这很有趣。我们周四解雇了持有这种态度的人。而我所说的“这种态度”就是你的态度。

        并非因为他们的态度,而是因为他们交付的软件存在严重的安全问题。安全团队迅速检测并处理了由此引发的事件。我不能说他的团队对他的离职感到难过。

      2. 你是Ableton负责在Live程序的setState部分忽略参数名称重命名的那个吗?我们中的一些人已经不得不跳过一些荒谬的障碍来弥补你的……思维方式。有些以前能正常工作现在却不行了,比如在Live 12中。从你的回应来看,我猜这是一种会持续的趋势。

        我们不应该在JUCE中编写特殊的“主机是Ableton Live”案例,只是为了让你的主机像其他主机一样工作。

        请不要解雇那些仍在支撑你运营的人。

        1. 你认为这个人为什么会在Ableton工作?从他们的评论来看,他们似乎不适合在柏林这家制作 techno 工具的小型酷公司工作。

      3. 你最近的大部分评论都在 HN 上大谈大语言模型(LLMs)。

        任何对大语言模型提出质疑的人都是白痴,而你比其他人强 10000 倍,你的所有同事都应该被解雇。

        但你的评论中却没有提到你的工作内容。你能告诉我们你在年薪超过50万美元的工作中到底在做什么吗?

        你,难道是前端开发人员?

        此外,一个无法解雇下属的团队负责人不是团队负责人,而是二把手。

      4. 我每天都会感谢上帝,我不用和你一起工作或为你工作。太毒了。

        1. 我很高兴不用和你一起工作,哈哈。

          我期待别人在合理的时间内用现有工具完成工作,这并不算毒性。如果你是个会计,却因为对Excel有意见而花5倍时间做一件事,那问题在你。告诉你是个糟糕的会计,这不算毒性。

          1. 你认为解雇和重新雇佣的成本比简单的实证说服更便宜?

            你听起来不像一个优秀的领导者,但也许你正在与完全无能的人合作,或者你的软技能需要改进。

            我道歉,但我只看到两种可能性,即其他人没有花时间效仿你的例子,尽管有如此强有力的证据。他们要么积极地讨厌你,要么完全无能。我发现前者比后者更常见。

            1. 大约 50% 的 HN 认为大语言模型(LLMs) 毫无用处,而你却在评论一篇文章,说它仍然具有魔力,是痴心妄想,而且这又是一次加密货币的重演。但当然,问题是我,而不是那些对现实认识不足的人。

              1. > 大约 50% 的 HN 认为大语言模型(LLMs)毫无用处,而你却在评论一篇关于它仍然具有魔力和愿望的文章。

                也许你应该再读一遍这篇文章(或者让一些大语言模型(LLMs)为你总结一下)。

                > 但当然,问题出在我身上,而不是那些对现实缺乏正确认知的人

                你几乎字面意思上都在使用加密货币术语,这真是令人惊讶

          2. 你认为解雇和重新雇佣的成本比简单的经验说服更低?

            抱歉,在我看来,这并不像是一个好的领导。实际上,这听起来更像是你的领导技能存在缺陷。也许几年后,我们会拥有一个能够提供更好领导的大语言模型(LLM)。

      5. > 我已经厌倦了与那些对现实认识不足的人争论。

        这难道不是整个大语言模型(LLM)的体验吗?

      6. “我已经提出分享我的工作流程和提示”这些都应该提交。

        1. 已经检查过了,他们刚刚注销了大语言模型(LLMs)。

      7. 老兄,如果你是一个技术负责人,并且通过打分来衡量工作效率,那么你做得非常糟糕。我会解雇你。

      8. 你看起来完全无法忍受,令人难以置信地令人尴尬。

  2. 我必须说,我正处于作者抱怨的那个阵营。我曾开发过非trivial的绿地产品,当时它只是ChatGPT,而且很糟糕。我开始使用Claude,在网页聊天和XCode之间来回复制粘贴。然后我发现了Cursor。它给我带来了很多烦人的构建错误,但我的生产力至少提高了3倍。如今,随着智能体性能提升和Claude 4的发布,我几乎不再手动编写代码,而且我并不介意。我已转向架构师/经理角色,若需要时会用专业知识指导智能体。

    我加入了一家要求严苛的初创公司,几个月过去了,我仍未手动编写过一行代码。我在提交PR前会亲自审核所有内容并严格测试,但Cursor + Sonnet的代码库简直令人惊叹。我确信自己是他们最高效的员工,而这并非通过代码行数来衡量——代码行数并不重要;那些对代码库了如指掌的专家会向我寻求帮助,因为我能快速定位并解决他们遇到的冷门 bug,而我对他们的领域还算新鲜。我不得不停止从前端开发人员那里抢工作(这是我整个职业生涯都避免做的事情),因为我踩到了他的地盘,利用Claude在看到小问题时就进行修复。这不是随意的编码——有一个研究、规划和谨慎步骤的过程,我为代理的成功奠定了基础。领域知识是必要的。但我真的无法理解为什么有人无法从中获得同样的价值。现在感觉每周都有两篇类似的文章。

    1. 但你已经证实了博客文章中所有的主张。

      你没有与我们分享任何证据,尽管你声称了一些不可思议的事情。

      你甚至注册了一个一次性账户来隐藏你的身份,并使验证你的任何主张变得不可能。

      你的评论在我看来更像是一个笑话

      1. 来自一个 karma 值不到 100 的账户。

        听着,写下那条评论的人不需要向你证明任何东西,仅仅因为你读了一篇明显给你带来暂时多巴胺激增的博客文章。

        那些对自己的领域有深刻理解且书面表达能力出色的人,可以编写出能完成我们过去需要花一周时间才能完成的任务的提示。对于处于这种情况的人来说,这是显而易见的,而当人们要求“证据”时,我们看到的只是你没有正确使用工具。

        我们无需证明任何事情,因为如果你正在解决有趣的问题,即使是最怀疑的人也会在几小时内自行验证。

        1. 感到被触动?感到害怕?是的,每个主张都需要被证明,否则提出主张的人只会说服四岁儿童。

          >那些对自己的领域有深刻理解且擅长书面沟通的人,可以编写出能完成我们过去需要花一周时间才能完成的任务的提示。对于处于这种情况的人来说,这是显而易见的,而当人们要求“证据”时,我们看到的只是你没有正确使用这些工具。

          你没有证据证明这一点,所以我想你已经选择了你的阵营?

    2. 我也有同样的经历,只是工作方式略有不同(博士生)。我对大语言模型(LLMs)非常怀疑,但克劳德代码彻底改变了我的工作方式。

      它并没有消除对“策展”的要求——这仍然是我坚信的(部分博士课程应该教给你的东西!对你为什么做 X、希望用 Y 表现什么、 等等——分解每一个步骤,向他人解释这些步骤——这是一项巨大的软技能,而现在它变得更加重要,因为这些代理没有持久的世界模型/会立即忘记一系列交互的目标,即使有巧妙的压缩)。

      如果我能够精准地进行沟通,我就可以利用CC以一种前所未有的方式组织计算。

      这并不比编程更容易(如果你在意质量的话!),但它确实不同,并且伴随着不同的编程习惯。

    3. 我发现大语言模型(LLMs)输出的代码质量非常差。我最终进行了许多次迭代,结果发现自己动手做更快。我发现代理真正有用的是进行大规模机械折射。与其试图找出完美的 vim 宏或 AST 重写脚本,我更愿意使用代理来完成这项工作。

      1. 我对此点强烈反对。如果此时提示合理,那么代码通常是好的,但同时,现在正在编写所有可能的测试,每个 UI 元素都具备所有必需的特性,每个函数都附有正确的文档,正在进行数百万次的小重构以改进代码库,等等。

        有人告诉我“AI让所有小事都变得轻而易举”,我对此表示强烈认同。这些无数的小事共同构成了对质量的有力证明。我们的代码库在AI的帮助下质量显著提升,而此前由于人手不足,我们往往会忽视这些小事。

        1. > 如果提示合理,代码通常是好的

          这再次是100%无法验证且无法一概而论的。正如文章中所描述的。

          我如何知道这一点?因为,正如我在文章中所说,我每天都使用这些工具

          而“提示合理”又是另一个可能有效也可能无效的魔法咒语。以下是我的经验:https://news.ycombinator.com/item?id=44470144

        2. > 如果提示合理,代码通常是好的

          关键是编写提示比编写代码耗时更长。

          > 有人告诉我‘AI让所有小事变得轻而易举’,我对此深表赞同

          是的,它擅长处理所有这些小事。但它不擅长处理大事。

          1. > 关键是编写提示语所需的时间比编写代码更长。

            幸运的是我们可以复用系统提示语 🙂 我的提示语通常包含类似https://gist.github.com/victorb/1fe62fe7b80a64fc5b446f82d313… + 项目特定的说明,这些内容会在不同会话中重复使用。

            目前,编写提示语所需的时间并不等同于直接编写代码所需的时间。

          2. 我也不同意这一点——让大语言模型(LLM)来设计项目,或者提出更简洁的解决方案,通常都能做得很好。

            但同时做这两件事还是很糟糕的。因此,Cursor 转向整合“待办事项”列表。我的流程已经转变为“设计这个功能”,然后“继续实施”,每一步之间进行代码审查,连续 10 次。

      2. > 我发现大语言模型(LLMs)输出的代码质量非常糟糕。

        这是我使用 Cursor 的经验,但 Claude Code 却截然不同。是什么具体的产品/模型让你得出这样的结论?

        1. “找到所有使用此API的地方,并用其他API重写它。”

    4. > 在提交 PR 之前,我会自己审核一切,并进行严格的测试。

      你怎么能这么快就审核来自不可信来源的代码呢?大语言模型(LLMs) 无法掌握整个项目,而且容易出现幻觉。

      你的提示平均有多长?大语言模型(LLM) 也会编写单元测试吗?

      1. 审核过程并不快速。我更倾向于使用Cursor而非Claude代码,因为我可以更轻松地审查其修改过程,并在它偏离正轨时及时停止并重新引导(这种情况经常发生,但这是业务成本的一部分)。随着时间推移,我仍能逐步理解代码库,并利用这些理解来指导提示词或调整方向,因此并非盲目地让它执行任务。是的,我经常让它编写单元测试。但我不让它自行迭代直到单元测试通过——这会导致它为了通过测试而采取必要手段,反而适得其反。我会规划测试集的结构,让它在不提及测试的情况下编写独立函数,如果测试失败,我会通过审核失败代码和测试本身来确保没有遗漏。这与我审查同事代码时采用的方法完全一致。我的提示内容从几句话到几段文字不等,如今我还会构建一个大型.md文件,其中包含一个检查清单,用于管理大型重构和项目的上下文。

    5. 我每天使用Claude代码数小时,它是个骗子,使用时请自行承担风险。

      我个人认为你在美化这种体验。

        1. 最近使用了一种奇怪的C语言变体(Monkey C),它会对每个方法产生幻觉,每次都是如此。

          我知道这只是时间问题,很可能。然而,这完全没有帮助。而且它自己非常确定自己做的是对的,一次又一次地这样做,从未参考过文档。

      1. > 我每天使用Claude代码数小时,它是个骗子,相信它所做的一切需自担风险。

        你回复的人实际上说:“我在提交PR前会亲自审核一切并严格测试。”

        1. 我没看到那条评论,但估计他们修改了内容。

    6. 请重新阅读文章。尤其是文章开头列出的关于你、你的项目等我们不知道的事情。

      你的具体经验不能一概而论。作为作者,我(如文章中所写)每天都在使用这些工具。

      > 但我实在无法理解为何有人无法从中获得同样的价值。现在每周似乎都有两篇类似的文章。

      这表明你实际上并未阅读文章。因为文章中明确指出(并附有链接),我正在从这些工具中获取价值。

      而文章本身也明确不是关于是否能从工具中获取价值的讨论。

      1. 我在评论前确实读完了整篇文章,并承认你确实以某种方式使用了这些工具,但文中关于“50%的时间有效,50%的时间无效”的表述让我对你的主张产生了怀疑。我同意这确实取决于具体情境,但同样地,你并未详细说明你在工作流程中使用AI的具体方法和实践。同样缺乏上下文的情况也存在于论点的另一面。

        1. 我同意关于50/50的说法。这取决于Claude对我有多大帮助,而我每天也使用它。

          我来提供一些上下文。

          – 我使用OCaml和Python/SQL,分别在两个不同的项目中。

          – 两个项目都是单人项目。

          – 第一个项目是一个实时消息系统,第二个项目是将大量事件记录到SQL数据库中。

          在第一个项目中,Claude的表现令人失望。它随意使用C语言的惯用法,过度依赖记录和过程式编程,忽视了OCaml标准库的基本内容,甚至给我提供了一些后来拖慢开发进度的数据结构。它对函数的实现也漫不经心。

          一个真实的例子:Buffer.add_utf_8_uchar 函数将一个 UTF-8 字符的 ASCII 表示形式添加到缓冲区中,因此对于非 ASCII 字符,它会添加类似 \123\456 的内容。

          我不得不多次批评 Claude 因为它频繁使用这个函数将 UTF-8 字符添加到缓冲区中,次数多到我已经记不清了。

          在第二个项目中,Claude 表现得非常出色。它完成了大部分 SQL 数据库的构建,将大部分逻辑移至 SQL 引擎,编写了连贯且易读的 Python 代码等。

          我认为主要区别在于,第一个项目是一个使用冷门语言的晦涩项目。第二个项目则是常见的“遍历列表并将其填入 SQL”问题的特殊案例,且使用了最常见的语言。

          基本上,你得到了你训练的结果。

          1. 仅供参考,尝试对该函数的用途进行注释。因为如果没有更多信息,大语言模型(LLMs)会非常依赖函数名。让大语言模型为每个函数添加注释,我敢打赌它会表现得更好。

            1. 这不是我示例中的函数,而是标准库函数。不过它的名字确实有点奇怪。

        2. > 但关于“50%的时间它能正常工作,50%的时间不能”这句话,是我对你所做的声明失去信心的地方。

          这是对《 Anchorman》笑话的改编,我稍微记错了:“60%的时间它能正常工作,100%的时间都能正常工作”

          > 这就是我对你所做的声明失去信心的原因。

          啊,是的。你对我的声明失去了信心,但我必须对你关于“在一家要求严格的初创公司工作”的100%未经证实的声明保持100%的信心,而“你至今还没有手动写过一行代码”?

          为什么你认为你的话和经验比我的更正确?或者为什么别人应该这样认为?

          > 你没有概述你在工作流程中使用AI的方法和实践

          没有人这样做。如果你真的读了这篇文章,你会发现这就是字面上的重点

        3. > …关于‘50%的时间有效,50%的时间无效’的表述,正是让我对你的主张失去信心的关键…

          这也是作者让我感到困惑的地方。我真的很想深入了解他们的工作流程/工具,以理解为何我能如此不可思议地幸运。

    7. > 我在一家要求严格的初创公司开始工作,几个月过去了,我仍然没有亲手写过一行代码

      天啊,这听起来真无聊。

      1. 其实不是。这就像我以前是职业棒球运动员,现在成了教练或总经理,负责组建球队并取得成果。这是完全不同的技能。我现在主要在构思阶段工作,看着自己的想法快速落地,反馈循环也更快,而繁重的工作大多消失了

    8. > 我已经发布了非trivial的绿地产品

      链接请

      1. 这是我用Vibecode实现的最令人印象深刻的功能,我想要跟踪一个VSCode扩展中的文件读写竞争条件:https://github.com/go-go-golems/go-go-labs/tree/main/cmd/exp…

        这与网页垃圾代码相去甚远。

        否则,我最近 99% 的代码都是由大语言模型 (LLM) 生成的,我的个人资料 https://github.com/wesen 上有相当多的开源代码提交。

        其中很多都是系统方面的,虽然也有相当多的单次网络应用程序,但现在我已经能够制作出不错的前端了。

      2. 我本想这么做,但故意使用了一个一次性账户。这是一个在应用商店评分4.5星的iOS应用,拥有不错的社区。用户基数不大,仅数百人。

    9. > 但我的生产力至少提高了3倍

      如何衡量这一点?

      1. 不同难度级别功能的平均交付时间。这虽主观且不完美,但总体而言我需要投入的工作量少得多。坦白说,我认为在没有AI的情况下,我本可以更快实现一个基于CRDT的云同步功能。我认为我可能在这一点上过度依赖了AI。它擅长实现向量时钟,但不擅长防止竞争条件。

        1. 你确定这不是直接从开源项目中抄袭的吗?如果是这样,你完全可以跳过中间环节。

    10. 你专门创建了一个账户来发表这个不可思议的声明?

      有点可疑,你同意吗?

    11. > 这是一个研究、规划和谨慎推进的过程,我为代理的成功做好了准备

      有没有好的文章可以分享,或者你的流程?我真的很想在这方面做得更好,但我发现自己不擅长使用代理,而且我真的不知道从哪里开始。我尝试过cline中的记忆库,尝试过使用更多的思维指令,但我发现我无法让它完成复杂的任务,这最终成了我的时间杀手。

    12. 更多轶事数据:“大语言模型(LLMs)现在编写我所有的生产代码”。在行业工作 25 多年,是我领域内最专业的专家。100% 同意大语言模型(LLMs)经常以滑稽、危险的方式失败。但仍然编写我所有的代码。

      这里没有agenda,不推销任何东西。只是坐在这里,职业生涯的后期,无需向任何人证明什么,只是从一个老家伙的角度发表看法。

      加密货币的炒作是骗子们在吹捧他们能找到的任何骗局,这正是行为经济激励所驱动的。生成式AI开发是另一回事。我见过很多人使用它,你的体验会有所不同。但依我之见(这是我的观点,你自有主张),手动编码是一项传说中的技能。我唯一好奇的是,这些工具在系统/设计/架构栈中能渗透到多深的层次。我的直觉和实证研究倾向于一个可能引发激烈争论的方向。但我是个互联网上的老家伙,没什么证据,只是更多无根据的断言。没什么好看的。

      披露:我没有直接持有Mag 7的股份,也不为其工作。

      1. 跨平台Web+原生消费者应用,涉及大量组件和集成。我认为将其称为CRUD应用会过于简化。

  3. 我个人不太理解这一点。

    _如此之多_的全球服务行业工作本质上就是人类将数据从一个Excel表格复制到另一个(或从CRM/邮件复制到Excel),且是手动操作。每家(或几乎每家)企业级公司都会有数百甚至数千名全职员工每天重复这类工作——其中很大一部分是外包的。我估计,每名软件工程师对应的,就有100人从事这种“手动数据管道处理”工作。

    因此,要从大型语言模型(LLMs)中创造巨大价值,并不需要它们在OCaml方面表现得极其出色。它们只需要在Excel上的表现优于人类即可。我认为MCP真正有帮助的地方在于,你可以轻松地将所有这些系统连接起来,而这类工作中出现的许多错误都源于试图在上下文中传递整个“任务”。如果你能通过MCP接收一封邮件,提取部分数据并将其逐行导入CRM(同样通过MCP),那么幻觉率非常低,至少能达到一名过度劳累的初级人类的水平。

    也许这是文章的重点,但非决定性对于此类用例而言并不是问题,因为所有参与的人类也不是决定性的。我们可以构建系统和流程,以帮助在非决定性(例如:人类)系统上实施质量控制。

    最后,我密切关注了加密技术和大语言模型(LLMs)。它们在实用性和采用率方面似乎并不相似。我能想到最接近的例子是智能手机的应用。当 iPhone 刚推出时,我许多非技术领域的的朋友都不认为/想要智能手机。几年之内,他们全都拥有了智能手机。大语言模型(LLMs)的情况与此类似。现在,我几乎所有非技术领域的的朋友都将其用于各种各样不同的应用场景。

    1. 将它与加密技术进行比较是一种懒惰的批评。这甚至不值得验证。这是那些想把加密货币的负面情绪转移到其他地方的人。这两种技术毫无关联,因此显然没有必要对它们进行技术比较评估。

      不过,社会反应是一种对技术的盲目崇拜趋势,我怀疑许多有经验的工程师对此感到厌倦。很容易找到不切实际的声明,最糟糕的来自人工智能公司的CEO。

      与此同时,大量人群几乎完全不懂计算机。我只能想象,对于那些连基本自动化技术都接触甚少的人来说,这该是多么令人兴奋的事。而我们早已在科幻作品中习以为常的“会说话的计算机”,如今正逐渐成为现实。

      其中蕴含着无数观点。这真是令人惊叹。

      我在人工智能兴起前就从事过机器学习和自然语言处理工作。最让我震惊的是,人工智能的普及程度远超该领域以往任何阶段。随之而来的,是设计中缺乏统计推断经验的普遍现象。未来一段时间,这将是一片“蛮荒之地”——在观点、成功实施、以及如何形成现实可行的项目构想等方面皆是如此。

      换个角度看:现在,你的朋友如果有新颖的应用程序创意,可以被鼓励自己去实现。这对每个人来说至少是个好消息。

      1. > 换个角度看:现在,你的朋友如果有新颖的应用程序创意,可以被鼓励自己去实现。这对每个人来说至少是个好消息。

        目前来说,确实如此。问题是,这个朋友现在也有了自己成功实现这个想法的合理机会。人们需要一些时间才能完全接受这一点。但不要忘记,这个行业的一部分基本上是在为那些有“新颖的应用程序想法”但有钱却没有朋友可以打扰的人开发应用程序。大语言模型(LLMs)很快就会占领这个市场的一部分。

      2. 错了。

        归根结底,加密是信息科学。从数学角度来看,加密、压缩等(数据传输)都是“相同”的问题。

        大语言模型(LLMs) 压缩的是知识,而不仅仅是数据,而且它们是以有损的方式进行压缩的。

        传统信息科学的工作是在高度有损的世界中处理无损数据。

        1. 这一切都由电力驱动。巧合?我认为不是。

    2. 每个从事手动数据管道工作的全职员工也在验证这项工作,他们有准法律责任确保工作正确且按时完成。他们可能对公司投入了大量情感,无论是为了避免被解雇的生存本能,还是为了表现优异的野心,或者通过其他渠道举报不良经理的道德感和良知。

      当大语言模型(LLM)发现某些值因脱离上下文的原因而不合理时,它不会调用组织中的其他节点进行检查,比如昨天是一个一次性银行假日,因此该值应为 0。*确保这些数字准确无误的成本可能绝对值得支付全职员工的薪资。*而且如果数据不准确,也需要有人来承担责任、被解雇或被起诉。

      1. 人们在全天进行此类手动数据处理时也极其准确。

        这些工作尚未实现自动化的原因也有其合理性。其中许多工作并不需要语言模型。我们本可以自动化这些流程,但不值得有人为此签字批准。我在银行工作时就遇到过这种情况。我本可以轻松自动化一个流程,但对我来说,好处是团队规模更小且没有实际收益,而风险是如果出现重大自动化错误,可能会被解雇。

      2. > 大型语言模型(LLM)不会在发现某个值因脱离上下文的原因而显得不合理时,主动联系组织内的其他节点进行核查,例如昨天是一个仅此一次的银行假期,因此该值应为0。

        为什么不呢?LLM是首种能够从全局视角处理此类问题的技术。我们目前尚未充分利用这一技术,但考虑“脱离上下文的原因”并采取更广阔的视角,正是大语言模型(LLMs)作为通用人工智能工具的显著特征。随着时间的推移,我预计它们将在这方面与人类相媲美(至少是那些关心的人类;与那些不关心的人相媲美并不难)。

        我同意关于责任问题的观点。这似乎正逐渐成为人类在工作中带来的主要价值。不过这并非新趋势。例如医学、建筑、土木工程等领域——持证专业人士并非承担大部分工作,但他们参与决策流程,并因审核和批准技术人员完成的工作而获得丰厚报酬。

        1. 考虑“脱离上下文的原因”并采取更广阔的视角,几乎是大语言模型(LLMs)作为通用人工智能工具的决定性方面。

          “脱离上下文”字面意思是指原因不在其上下文中。即使它能够推断出如果今天是银行假日,数字应该是零,但大语言模型(LLM)如何知道昨天是一个一次性银行假日呢?人类只能通过亲身经历知道市场关闭、新闻大肆报道等情况。这与在世界其他地区使用廉价劳动力处理此类问题面临相同困境:他们能完成机械任务,但缺乏上下文来识别可能出现的种种细微错误。

          1. > “脱离上下文”字面意思是指原因不在其上下文中。即使它能够推断出如果是在银行假日,数字应该是零,但大语言模型(LLM)如何知道昨天是一个一次性银行假日呢?

            这要看情况。这是在 11 号宣布的一次性假日吗?那么它显然不会知道。你需要进行额外的设置才能让它意识到这一点,例如,首先向大语言模型(LLM)输入你的任务上下文和一周的新闻摘要,要求它查找是否有任何可能相关的信息,然后将该输出附加到执行工作的LLM调用中。这并不是一般情况下会默认做的事情,但这只是因为令牌需要花钱,而且上下文空间非常有限。

            如果是常规的银行假期,那么上下文中只需包含今天的日期,这通常会附加在系统提示和用户提示之间,同时还可能包含用户位置数据等信息。

            我注意到你所说的“上下文外原因”指的是第一种情况;我之前误以为是第二种情况。在第二种情况下,“脱离上下文”的部分可能是银行假日可能会改变当天的条目;如果这条规则很重要或足够合理,但在提示中没有明确给出,模型将在训练过程中学习到它,并可能会将点连起来。这就是我所说的“大语言模型(LLMs)作为通用人工智能工具的定义方面”。

            另一方面,当它不应该将点连成线时,我们说它是在产生幻觉。

          2. 这种知识存在于训练集中,无需出现在上下文或系统提示中。

            话虽如此,今天我也会将大语言模型(LLM)用于五年前会外包给不同文化领域的相同角色。

            文化,甚至不是语言:这就是英国和美国对“饼干和肉汁”理解上的差异。

            1. 大语言模型(LLMs) 能够很好地处理文化的主要特征。只要一种文化在书面语言方面有足够的足迹,大语言模型可能比任何个人都更了解它,即使它没有亲身经历过。

              1. 查看你与我相关的另一条评论,我认为讨论这些话题的困难在于,这些事物被视为孤立的魔法 artefacts(对工程不利)还是众多工具中的一种,其中“协同作用”是关键。

                因此,我同意你的观点:大语言模型(LLMs)确实了解互联网上的所有书面文化,并能够以可接受的方式模仿它们——但实际上,只有当精细调整、RLHF、系统提示和上下文等因素组合在一起时,它们才会这样做。

                在你的例子中,注入一些当前新闻很容易,但实际上需要有人来完成这项工作。正如你所说,除非你认为有必要,否则你不会这样做。

                但更容易选择、更易获得的成果却往往被忽视。当“危险的奉承”行为开始出现在新闻中时,我更新了我的自定义 ChatGPT“traits”设置,如下所示:

                  诚实和真实性是最重要的。避免美国式的积极态度,而是追求德国式的直率:我绝对不希望被告知我问的每件事都是“很棒的”,而当这是一个愚蠢的主意时,这一点尤为重要。
                

                但文化差异往往微妙难察,且存在大量同类文化特征,这意味着20世纪80年代的文本冒险游戏自然语言处理(NLP)技术无法扩展到ChatGPT所具备的功能。虽然可以通过微调或让员工进行强化学习来解决这个问题,但当前AI学习所需的示例数量与人类相比仍然很高,因此它无法像团队中的新员工一样快速从经验中学习企业文化,除非你是足够大的企业,能够让AI同时在公司内足够多的团队(我不知道具体数量)中部署。

              2. 不,它并不了解文化。而且,它无法处理关于文化的话题。

                问一个大语言模型(LLM):“你能将埃及神话与外星人进行比较吗?”它会很乐意地回答:

                https://imgur.com/a/jfikuEO

                这是对埃及文化的一种冒犯性、伪科学观点,被学术界所排斥。

                即使是ChatGPT的“批判性观点”部分(一个大型胡说八道响应中的一小部分)_仍然_包含冒犯性想法:

                https://imgur.com/a/RNiMmJZ

                他们应该先回答这种比较可能会冒犯人,并解释学术界为什么这么认为,然后再胡说八道。

                1. 不过,从文化角度来看,埃及神话与其他奇怪现象(如外星人/UFO)确实有很多共通之处。

                  我觉得你只是证明了你对文化的了解比大语言模型(LLMs)还少,这完全不奇怪。

                  1. 老兄,我之所以选择这个例子,正是因为我知道互联网上有很多关于这个话题的胡说八道,而大语言模型(LLMs)无法区分好的来源和坏的来源。

                    这真的难以置信。你在为古代外星人辩护。接下来呢?天堂之门?阿什塔·谢兰?

                    甚至大语言模型(LLMs)本身也承认这是冒犯性的。如果你纠正它,它会道歉(只是在你纠正它之前,它无法做到这一点)。

                    你错了。

                    1. > 甚至大语言模型(LLMs)本身也承认这是令人反感的。如果你纠正它,它会道歉(只是在你纠正它之前,它无法做到这一点)。

                      不,这只是大语言模型(LLMs)被训练成默许过去 15 年来的疯狂行为,因为许多人似乎认为,声称自己受到冒犯是每个人都必须屈服的最终论据(他们会一直大吵大闹,直到别人屈服为止)。

                    2. 一个冒犯了人们和整个国家的大语言模型(LLM),许多人会将其归类为“不协调”。

                      假设我有一家公司,我的公司需要遵守政府关于沟通的政策。那么我就不能信任大语言模型(LLMs),它们要么无法遵守政策,要么会屈服于任何试图玩弄政策的人。

                      这是无用的垃圾。埃及神话只是一个例子,你不必如此认真。

                    3. > 冒犯个人和整个国家的语言模型(LLM)是许多人认为的“不协调”的。

                      这凸显了协调的核心挑战的一个主要方面:你不能两全其美。

                      > 假设我拥有一家公司,我的公司需要遵守政府关于沟通的政策。那么我就不能信任大语言模型(LLMs),因为它们要么无法遵守政策,要么会屈从于任何试图操纵政策的人。

                      当你把“一致性”视为“遵守所有者的政策”的同义词时,这目前是可行的(但除非你训练了自己的模型,或者调整了开放权重的模型,否则猜猜你不是谁)。但当你希望模型更聪明、更强大,以及其用户群更大、更多样化时,这种做法就行不通了。如果你希望大语言模型(LLM)为你的公司撰写营销沟通文案,那么严格的政策是可以的。但如果你希望大语言模型(LLM)——或者未来更先进的模型——作为学者/合作伙伴对整个学术界有用,那么这种做法就行不通了。

                      如果你希望AI在现有证据下对世界拥有最大程度的准确认知、理性思考并遵循良好的伦理原则,那么就要做好它会揭穿你谎言的准备。要让AI不发表对你或他人“冒犯性”言论的唯一方法,就是让它接受所有人荒谬的信念,无论这些信念是个人、政治还是社会层面的。这意味着要么1) 训练人工智能也相信这些信念,这将破坏其推理能力(因为所有这些珍贵的信念彼此矛盾,且与可观察的现实不符),要么2) 训练它为了工具性目的而“随意对人说谎”。

                      从长远来看,选项1)无法让我们实现通用人工智能(AGI),但这仍然比选项2)要好得多:一个擅长告诉每个人他们想听的AGI。即使在短期内,以你提到的学术领域中的人工智能应用为例,一个遵循“可接受思想”而非“理性判断”的模型正是你无法信任的——你永远无法确定它是在正确推理,还是因政策与现实冲突而犯错,或是干脆对你撒谎以避免冒犯。

                    4. > 遵循所有者的政策

                      所有者是我们,人类。我希望它遵循合理、善良的人类。我不想它遵循骗子、江湖术士、刺客。

                      > 准备好让它揭穿你的谎言

                      现在,我正在揭穿他们的谎言。当情况改变时,我会坦率地承认。

                    5. > 他们无法在你纠正他们之前做到这一点

                      截图显示,大语言模型(LLM)用粗体字标出了“未得到主流考古学或埃及学支持”。

                      > 大语言模型(LLMs)无法区分好的来源和坏的来源。

                      你能吗?

                      我的历史 GCSE 考试中,一个不容忽视的部分就是:如何从所有来源(包括主要来源和次要来源)中分辨出真相,这些来源在讲述时都有自己的偏见和目的。即使在那个阶段,这也是一个选修科目,而即使在成年后,关于大英帝国的历史,我仍然有许多惊喜,这些惊喜直到几十年后我遇到来自前殖民地的人时才得知,他们对我的父母和祖父母一代对他们所做的事情感到愤怒。

                      “故事”一词包含在“历史”中并非偶然,两者的词源相同: https://en.wiktionary.org/wiki/story vs. https://en.wiktionary.org/wiki/history

                      在德语中,这两个概念也使用同一个词:https://en.wiktionary.org/wiki/Geschichte

                      我母亲属于新纪元运动类型,她收藏的书籍涵盖了包括外星金字塔在内的各类主题,不过我不确定具体是否包含这一内容。她不知道自己不知道什么,因此一直给家人分发昂贵的顺势疗法沙粒和盐片(瓶身上明确标注着“氯化钠”和“二氧化钛”)。

                      人们,包括你和我,都不知道自己不知道什么。

                    6. 请记住,我质疑的是大语言模型(LLMs)了解文化并能够谈论文化。你需要集中注意力。

                      大多数人都不准备谈论文化。因此,大语言模型(LLMs)也不准备谈论文化。

                      它们并不比问一个普通人更好,会犯错误,会让人失望。

                      埃及学家更适合谈论埃及神话。大语言模型(LLMs)无法像他们一样处理埃及文化。

                    7. 历史≠文化。文化源于历史,但它是一个活生生的东西,由生活在其中的普通人的经验和感知来定义。除了去一个地方生活之外,大语言模型(LLMs)实际上是了解一种文化的最佳选择[0]——它采样了该文化中的人们的更多报告,而这是你自己永远无法做到的。

                      埃及学家比普通人更适合谈论埃及神话。但不要将埃及神话与埃及文化混为一谈,前者只是后者的一部分。

                      此外,大语言模型(LLMs) 阅读过关于古埃及和埃及神话的一手资料比你、我、普通人甚至大多数业余埃及学家都要多。

                      [0] – 也就是说,如果它足够大,有足够的书面记录。

                    8. > 请记住,我质疑的是大语言模型(LLMs)了解文化并能够谈论文化。你需要集中注意力。

                      我知道你的质疑,这就是我之所以这么说的原因。

                      你自己的截图,尤其是字面上的粗体字,表明你是错的:大语言模型(LLM)告诉你“(它们只是在你纠正它们之前无法做到这一点)”。

                      Gemeni的开头段落全部加粗,但只需将目光移到“冲突”部分:

                        古代宇航员理论揭示了丰富、象征性的精神传统与对古代神秘现象的现代重新解释之间的有趣冲突
                      

                      这并非对古代外星人理论的字面接受,而是有人在比较和对比这两个群体而未对其进行评判。你可以这样做——就像你不必真的相信拉神驾驶着太阳船穿越天空才能成为埃及学家一样,只需相信古埃及人相信这一点就行了。

                      > 大多数人都不准备谈论文化。因此,大语言模型(LLMs)也不准备谈论文化。

                      他们比大多数人做得更好,正是因为他们过于谦恭,以至于有沦为阿谀奉承或拍马屁的危险。正是这种特质使他们能够在被要求时扮演任何文化角色;这与大多数人类不同,后者即使面对证据也会固执地坚持同一立场,例如你在这个帖子中的表现 (也可能是我在其他地方!我不想给人留下我认为自己免疫的错误印象,因为这种思维方式正是造成这种脆弱性的根源)。

                      > 他们并不比普通人更好,会犯错,会让人失望。

                      他们就像是问一个没有专业经验的人,却通过阅读互联网在几乎所有科目上都获得了学位。

                      样样通,样样松。不过,这句话的前半部分可以追溯到中世纪,当时“杰作”是指你从学徒晋升为大师时创作的作品,因此从这个意义上讲(或者从硕士学位的意义上讲),SOTA 大语言模型(LLMs) 是所有这些领域的“大师”。但绝对不是现代意义上更接近“专家”的大师。

                      埃及学家更适合谈论埃及神话。大语言模型(LLMs)无法像他们那样处理埃及文化。

                      你自己的提示明确地问:“你能将埃及神话与外星人进行比较吗?”

                      如果你希望它像真正的埃及学家一样行事,那么大语言模型(LLM)给出的答案要么是(1)翻白眼,删除刚刚从互联网上另一个白痴那里收到的垃圾邮件,要么是(2)翻白眼,给刚刚聘请他们作为新科幻电影/电视剧的专业顾问的编剧一些微不足道的建议。

                      后者就是你得到的答案。

                      换句话说,你给了它GIN,你得到了GOUT。为了展示一个没有创建你所抱怨的具体文化视角的上下文的问题的效果,这里有一个新的提示,只是讨论文化,而不具体提及你所不喜欢的内容:https://chatgpt.com/share/686a94f1-2cbc-8011-b230-8b71b17ad2…

                      现在,我仍然绝对认为这在很多方面都是错误的,而我无法通过检查来确认,因为我不是埃及学家,但你能通过你的截图看出区别吗?

                    9. > 如果你希望它像一个真正的埃及学家一样行事

                      我不在乎大语言模型(LLMs)。我假装是一个容易上当的顾客,而不是我本人。

                      公司和个人购买大语言模型,希望它们成为真正的开发人员、真正的作家和真正的风险分析师……但他们得到的只是普通愚蠢的互联网评论者。

                      这是欺诈。无论你向我解释多么显而易见的事实(它们很糟糕),都无济于事。营销宣传声称它们是博士级别的天才。我只是证明了它们更像一个普通的互联网傻瓜,而非专家。

                      如果我是学术界的客户,而你是AI公司,你已经失去了一位客户。你在试图为产品缺陷辩解。

                      此外,如果我试图在线报告问题,我将无法做到。一群被炒作的“爱好者”会涌入,试图说服我问题根本不存在。

                      我会告诉所有人不要购买,因为整个体验糟糕透顶。

                    10. 嗯,你之前说:

                        记住,我质疑的是大语言模型(LLMs)了解文化,能够谈论文化。你需要集中注意力。
                      

                      无论如何:

                      > 营销人员告诉大家,他们都是了不起的博士级天才。我刚刚证明,他们更像普通的互联网白痴,而不是专家。

                      首先,你没有。普通互联网傻瓜对西方新纪元古代外星人文化或实际的古埃及文化一无所知,更不用说能写一篇关于两者的论文了。

                      其次:

                      你似乎严重高估了“博士水平”的含义。

                      学者们在将博士学位转化为教授职位之前,通常会做很多博士后研究。

                      SOTA模型就是博士水平的体现:刚从大学毕业,缺乏经验。

                      与你所建议的相反,学术界对“博士水平”的反应并非被营销所吸引,然后对结果感到失望,因为学术界说“哇,一个博士!”在许多情况下是讽刺:博士只是职业道路的第一步。

                      同样,医生不会因为大语言模型(LLMs)通过了医学考试而印象深刻,律师也不会因为通过了律师资格考试而印象深刻。因为这是进入该职业的门槛要求。

                      有趣的是,名字后面加上三个字母并不能使一个人变得无懈可击,这只是漫长旅程的开始。

                      学术界、医学界、法律界、编码界听到博士水平,意味着我们期待着初学者,并接受他们。

                    11. 我坚持我的观点。

                      我假装自己对埃及学家与古代外星人之间的公众辩论了解得比现在少。然后我报告了我的研究结果,并附上了来自可信来源的专家意见(即真正的埃及学家所说的内容)。

                      关于这个话题,互联网上有大量争论。这是一个热门话题,被许多普通网民以各种方式讨论。任何现在阅读这篇文章的人都可以通过搜索来证实这一点。

                      你试图模糊实际博士学位与人们对博士学位的认知之间的界限。这是个错误。我关于博士学位的最初评论是在营销语境下提出的。这与“90%的专家推荐高露洁”的营销伎俩如出一辙。在那个类比中,你试图向我解释牙医如何获得学位,而非承认我讨论的是欺骗性营销活动。

                      你也没有将这个例子推广到埃及学领域之外。我可以在其他领域想出其他例子,我认为自己虽然不是真正的研究者,但能力高于平均水平。试图在这些领域打击我的士气不会让大语言模型(LLM)变得更好,这不是典型的愚蠢的互联网辩论:你赢了并不意味着我输了。相反,你使用转移注意力和误导实际上支持了我的观点。你需要依赖廉价的修辞技巧才能成功,而我无需如此。

                      这段视频在我发布最初挑战后不久发布,它解释了我试图向你传达的一些概念:

                      https://www.youtube.com/watch?v=5mco9zAamRk

                      这是一部友好的卡通式简化版,解释了人工智能是如何被评估的。它实际上对人工智能爱好者很友好,我建议你观看它,并从它的角度重新思考这场对话。

                    12. 这段视频似乎是2021年一篇博客文章的动画重述,所以我直接链接到原文:

                      https://www.lesswrong.com/posts/PZtsoaoSLpKjjbMqM/the-case-f…

                      这里有一些早期草稿的审稿人额外评论:

                      https://www.lesswrong.com/posts/AyfDnnAdjG7HHeD3d/miri-comme…

                      我大致浏览了这两份文件——这些内容相当深入且富有洞见(尽管2021年已是久远的过去,尤其是现在人工智能安全已不再是纯理论领域)。然而,目前我无法看出文中讨论的观点与您试图解释或传达的内容之间有何关联。能否请您详细说明两者之间的联系?

                    13. 我已经做了。

                      我假装对埃及文化及其学术共识了解不多,扮演了一个典型的人类角色(没有接受过训练,不够聪明,无法发现大语言模型(LLM)的胡说八道)。

                      然后,我将大语言模型(LLM)的输出与专家提供的真实信息进行了比较,并指出了错误之处。

                      你试图诋毁我,主要是想证明我的专业知识不够好,而古代外星人其实没问题。我认为这非常可笑。

                      更重要的是,我认识到大语言模型(LLMs)的缺陷,而你没有。我认为它们对于易受骗的受众来说还不够好。这应该是一个重要的信号,但你却忽视了它。

                    14. ‘ben_w 谈到了其他几点,但如果不评论这一点,那就太不妥当了:

                      > 营销人员告诉大家,他们都是博士级别的天才。

                      事实并非如此。大语言模型(LLM)供应商一直对模型的局限性持开放态度,我尚未看到任何主要供应商声称他们的模型是天才、博士级别或其他级别。事实并非如此——相反,供应商们正在避免做出这样的声明或以这种方式定位他们的产品。

                      不,这种观点并非来自大语言模型(LLM)的营销。它来自那些既无视供应商的官方信息,又无视大语言模型(LLM)用户体验的人,他们无视常识,而是放飞想象力,也许是因为听信了其他无知的人,或者更可能是互联网上的第三方所说的各种离奇言论,以吸引更多人关注他们发布的广告。

                      > _公司和个人购买大语言模型(LLMs),期望它们成为真正的开发人员、真正的作家和真正的风险分析师……但他们得到的只是普通愚蠢的互联网评论者。

                      奇怪的是,这同时在两个相反的方向上都是错误的。

                      是的,许多公司和个人对大型语言模型(LLM)抱有不切实际的期望,但坦白说,这主要是因为他们缺乏判断力。这里并不存在第一方的欺诈行为;如果你被一些随机出现的LinkedIn“思想领袖”的炒作所蒙蔽,那责任在你自己身上;你可以起诉他们让你上当受骗,但不要因为责怪LLM供应商而让自己显得更加愚蠢。同时,大语言模型(LLMs)实际上已经达到了真正的开发人员、真正的作家和真正的风险分析师的水平;低估当前大语言模型(LLMs)的能力,并不比高估它们更正确。

                    15. 我:

                      > > 公司和个人购买大语言模型(LLMs),期望它们成为真正的开发人员。

                      你:

                      > 是的,许多公司和个人对它们抱有过高的期望。

                      > 大语言模型(LLMs)实际上已经达到了真正的开发人员的水平。

                      好吧。

                2. > 这是对埃及文化的一种冒犯性的、伪科学的看法,被学术界所摒弃。

                  你一定是在开玩笑。具体来说,你可能是:

                  1) 假装不知道《星际之门》的存在——这是规模较大且广为人知的科幻媒体 franchise,其核心设定正是埃及神明实际上是自古以来奴役人类的邪恶外星人,而埃及神话大多基于这一经历。该系列作品开篇(剧透预警)便是人类用战术核弹击杀拉神,此后情节愈发精彩;

                  2) 模仿那些自命不凡的埃及学家,当丹尼尔·杰克逊暗示大金字塔其实是“外星飞船的着陆平台”时,他们不是翻白眼就是愤然离场。而事实是,在《星际之门》中,它们确实是。

                  这并非特别新颖的观点;古代外星人/古代宇航员是一个显而易见的想法,已被反复探讨并渗透到各种文化中。《星际之门》将其应用于埃及神话、北欧神话、阿兹特克历史、巴比伦乃至亚瑟王传说。星际迷航将其应用于希腊众神。银河战星:银河系则涵盖了整个希腊神话。亚瑟·C·克拉克对基督教进行了抨击。而这些都是广为人知的作品

                  我还可以继续列举。你所抱怨的这些想法完全正常且普遍,频繁出现。人们会这样推测,因为这很有趣,能让故事显得合乎逻辑而非荒谬或无稽之谈(或如上述某些神话中所描述的,是病态想象的产物),而且不无聊

                  如果我能坦率地说,像你这样表达的观点让我感到害怕。以这种方式感到冒犯——无论是真诚的还是做作的——都是好战的,对社会和文明的结构具有破坏性。过去15年我们已经经历了太多这样的事情;我真的希望人们能摆脱对一切都感到冒犯的阶段。

                  1. 你满嘴胡说八道。

                    让我们看看当我纠正它们时,大语言模型(LLMs)会怎么说:

                    https://imgur.com/a/R7DXCRx

                    所以,无论哪种情况,你都是错的。如果古代外星人无害,大语言模型(LLMs)就不应该接受纠正。

                    _大语言模型(LLMs)无法处理关于文化的讨论_,你也是如此。

                    1. 众所周知,大语言模型(LLMs) 即使在用户明显正确、而它们明显错误的情况下,也会对用户持偏见。这是一个众所周知的难题,限制了它们在许多任务中的实用性——你必须小心,不要不小心坚持错误的信息,因为大语言模型不会告诉你你满嘴胡说八道(至少除非你明确地要求它们这样做)。

                      原因有很多,包括训练数据的性质——但主要原因是,对一切都感到反感的人成功地恐吓了互联网和媒体领域,因此,对于大语言模型(LLM)供应商来说,让他们的模型肯定用户的胡说八道,而不是纠正他们,冒着一些用户感到反感并在媒体上掀起一场骂战的风险,通常是更好的选择。

                      另外:我读了你发布的截图中的文字。大语言模型(LLM)并没有接受更正,只是礼貌地、不置可否地假装接受了。这就是取悦那些胡说八道的人的样子。

                    2. 你假设我对与外星人的比较感到反感,并且我属于某个人口群体。实际上,我个人并不反感。

                      这是我几个月前写的一段可能带有冒犯性的埃及文化比较(人类撰写):

                      https://medium.com/@gaigalas/pyramids-and-lightbulbs-ceef941…

                      看到你用现成的论点来反对觉醒主义,试图贬低我,真是太可笑了。

                      我的观点是,尽管我们有个人喜好,但大语言模型(LLMs)应该与学术界保持一致。这是因为他们试图将产品推销给学术界。而他们的产品太糟糕了!!!

                      此外,这不仅仅是训练数据的性质问题。这些在线大型语言模型(LLMs)通过大量补丁来防止我演示的那种问题。很少有人真正理解这些补丁的工作原理,而其运作方式几乎可以说是欺诈性的。

                      认为所有这些缺陷最终都能被修复的想法,听起来也相当可笑。这就像试图用胶带填补船上的裂缝来防止船只下沉。

                    3. > 你认为我对与外星人的比较感到冒犯,并且我属于某个特定的人群。我实际上并不因此感到个人冒犯。

                      我不知道这个想法是从哪里来的。哦,等等,也许是因为你总是将某些观点和立场称为“冒犯性”,并将其视为这些观点最严重的问题。有一种明显的“哲学”/“思想”学派,其追随者会因这类随机事物而感到极度冒犯,所以……

                      > 看到你用现成的论点反对觉醒主义来试图贬低我,真是滑稽可笑。

                      ……请原谅我认真对待你的论点。

                      > 我的观点是,尽管我们有个人偏好,但大语言模型(LLMs)应该与学术界保持一致。这是因为他们试图将产品推销给学术界。

                      从什么时候开始的?

                      老实说,这种观点让我感到惊讶,甚至比我以为你是在假装感到冒犯更让我感到惊讶(这是我的善意猜测,我的另一个假设是,这是认真的,这更糟糕)。

                      大语言模型(LLMs)并不是为学术界而创建的。它们并不是卖给学术界的;事实上,学术界是继“但版权!”的人之后,对大语言模型抱怨最多的第二大群体。大语言模型最多只是被“推销”给学术界。这是一个非常重要的潜在应用领域,但实际上并不是一个很好的市场。

                      对边缘理论感到“冒犯”是反学术的,所以你使用的标准很奇怪。回到你的例子,如果大语言模型(LLMs)与学术工作相匹配,那么当你坚持认为某件事是冒犯性的时,它们不会顺从,而是会指责你胡说八道。可惜的是,由于你提到的那些人,以及你隐晦地否认与他们有联系,它们不会这样做。

                      这些在线大语言模型(LLMs) 有大量补丁来防止我所演示的问题。很少有人了解这项工作有多难,而且其运作方式几乎属于欺诈。

                      如果你想象 OpenAI 等公司正在使用一个巨大的条件表来逐个案例地热补丁回复,那么没有证据表明这是真的。即便如此,这类补丁也易于被检测并绕过。是的,训练过程有阶段性且持续优化,但这并非“补丁拼凑”,就像你通过多年生活经验学会分辨何为恰当与不恰当一样。

                    4. > 我不知道自己为何会有这种想法。

                      我知道!你假设得太多了。

                      > 你不断将某些观点和视角视为冒犯性

                      它们对某些人来说确实是冒犯性的。你的错误在于假设我抱怨是因为我将其视为个人攻击。这让你陷入了关于《星际之门》和各种无关紧要的胡言乱语的漩涡。我正在试图帮助你。

                      在任何时候,某些论点都可能冒犯到你的敏感神经。事实上,我的整个推理过程都冒犯了你。你对此抱怨不已。

                      > 大语言模型(LLMs)并不是为学术界而创建的。

                      你这么说让我感到非常高兴。我认为它作为研究产品非常糟糕,我很高兴你同意我的看法。

                      > 如果你想象的是 OpenAI,

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: