大语言模型(LLM) 膨胀

计算领域的一项重大成就是数据压缩1:我们接收数据,在保留所有信息的同时将其缩小(“无损”压缩),进行传输,然后在另一端将其解压缩回原始状态。

多年来,压缩是完成工作的绝对要求:存储设备对于我们要存储的数据来说太小,网络太慢,无法以可接受的速度传输我们想要的内容。

如今,压缩已不再是绝对必要,但它仍能显著提升我们的生活质量。例如,你正在阅读的这篇文章,几乎可以肯定是以压缩形式传送给你的。我花时间优化这一过程是值得的,因为我的网站现在能在你的屏幕上更快显示,且服务器负载也得以减轻。

所有这些都让我感到颇为有趣的是,到了2025年,我们有时竟在做完全相反的事情。

以下是一个简单例子。鲍勃需要一台新电脑来完成工作。为了获得一台新工作电脑,他必须撰写一篇 4 段的商业案例,解释新电脑如何提高他的工作效率。对于我们大多数人来说,撰写必要的散文是一件痛苦的事情,因此鲍勃启动了大语言模型(LLM),输入“请为我的经理撰写一篇 4 段的商业案例,解释我为什么需要更换旧的、速度慢的电脑”,然后将结果复制到他的电子邮件中。

元素周期表

鲍勃的经理收到了 4 段冗长的文字,从第一行就意识到他必须仔细阅读全文才能弄清楚鲍勃的要求和原因。相反,他将电子邮件复制到大语言模型(LLM)中,并在开头输入“请用一句话总结这封电子邮件”。这四段文字被总结为:“发件人需要一台新电脑,因为他的旧电脑又老又慢,影响了他的工作效率。”经理批准了这一请求。

我开始将这种模式称为“大语言模型(LLM)膨胀”,我已经在非常不同的背景下多次看到这种情况。使用大语言模型(LLM)将简短、简单的内容变成冗长且看似深刻的内容非常容易,而使用大语言模型(LLM)将冗长且看似深刻的内容变成简短且简单的内容也非常容易。

我们使用大语言模型(LLM)进行膨胀,这并不应被视为对这些出色工具的批评。然而,这可能会让我们思考为什么我们会膨胀内容。最好的情况是,我们是在隐晦地奖励混淆视听和浪费时间;最坏的情况是,我们是在掩盖缺乏清晰思维的问题。我认为我们都知道这是事实,但大语言模型(LLMs)让我们能够亲眼看到问题的严重性。也许这会鼓励我们做出改变!

本文文字及图片出自 LLM Inflation

共有 150 条讨论

  1. > 鲍勃需要一台新电脑来完成工作……为了获得一台新的工作电脑,他必须撰写一份包含四个段落的商业案例,解释为什么新电脑能提升他的工作效率。

    > 鲍勃的经理收到了 4 段冗长的文字,从第一行就意识到他必须仔细阅读全文才能弄清楚鲍勃的要求以及原因。相反,他将电子邮件复制到大语言模型(LLM)中…… 4 段文字被总结为“发件人需要一台新电脑,因为他的电脑已经老旧且运行缓慢,影响他的工作效率。”经理批准了请求。

    “大语言模型(LLM)膨胀”作为一件“坏事”,往往反映了一个“坏”系统。

    在上述案例中,这个坏系统是指人们必须撰写 4 段商业案例,或者更可能通过撰写商业案例获得有利的结果。由于鲍勃为了填满 4 段文字而夸大其词,而经理为了总结而缩减了文字,显然,4 段文字的期望/激励是这里“坏”的事情。

    将“坏”事情的原因归咎于大语言模型(LLMs) 的现象非常普遍。

    事实上,可以说大语言模型(LLM) 是在优化系统要求:绕过这个坏框架要容易得多。

    1. 4段商业案例对于制造摩擦非常有用,这意味着,如果你懒得写4段文字,那么你很可能根本不需要升级计算机。

      这可能是一个真正有用的系统,但大语言模型(LLMs)的出现打破了这种平衡。

      1. 唯一确定不可再生的资源是时间。时间常被视为一种货币,其货币工具是某种衡量时间流逝的 tangible 代理。冗长性曾是优秀的代理,至少在生成式 AI 出现之前是如此。正如你所说,鲍勃需要写四段文字来获得新电脑,是为了证明他为这台电脑花费了必要的时间,从而表明他对此请求是认真的。这与管理咨询顾问和投资银行家每周花费80多个小时制作巨型幻灯片演示文稿的原因相同——这些演示文稿最终只会让客户快速浏览——因为这证明了公司为客户花费了时间,从而表明公司对该案例/交易是认真的。这也是为什么简短的感谢信“感谢邀请!我们玩得很开心!”或简短的慰问信“对您的损失深表遗憾”比几段冗长的文字描述活动有多精彩或逝者将被多么怀念更不受欢迎,即使这些额外文字除了核心情感外毫无意义。(当然,最好的信件会利用这些额外文字传达超越“感谢”或“抱歉”的个人意义。)

        生成式人工智能完全消除了无意义冗长作为投入时间的替代指标。有趣的是,随着“时间即货币”这一观念深深植根于人类社交互动的本质,我们将看到什么新的替代指标浮现。

        1. 这里存在一个重要不对称性:编织复杂图案需要大量时间,但评估甚至欣赏它所需的时间要少得多。发送者/追求者支付的成本远高于接收者/决策者。

          压缩和密码学中存在一些类似现象,但关联性较为牵强。

        2. 直接在贺卡里塞点现金,而不是用时间作为燃烧证明。

        3. 基于时间消耗的加密货币是目前我能想到的唯一出路。

          1. 我认为要求面对面物理互动的可能性更高

      2. 这就是我最讨厌的职场哲学。员工不是孩子。他们不需要在自己需要的东西和批准者之间设置人为的障碍,批准者只需要真正关注问题。

        如果有人想要一台新电脑,他们只需要说明原因。如果理由正当,就给他们。如果不合理,就不要给。管理者必须管理。他们必须做好自己的工作。我是一名管理者,我通过倾听我管理的人来做好我的工作。我不会让他们经历羞辱性的仪式来获得新设备。

        1. 听起来你并没有付出太多努力。

          人们想要新电脑,只是因为新员工彼得得到了新电脑。

          人们想要新电脑,因为他们刚和在另一家公司工作的朋友共进午餐,而那位朋友刚得到新电脑,他们下次午餐时想比他更胜一筹。

          这就是为什么我不会仅仅因为他们要求就给他们电脑。最糟糕的哭闹者会回来,因为他们“把咖啡洒在”一台完好无损的两年旧笔记本电脑上。

          1. 哇,我以前以为这就是经理的工作方式,觉得……这是不可避免的。现在我终于成为经理了,真是太好了,因为事实并非如此。你不会因为有人打翻了咖啡(你自己从未打翻过东西吗?)就叫他们“爱哭鬼”。这是个糟糕的经理。

            1. 我不会那样称呼他们,这只是为了让评论更有趣。

              你从网上看到的东西并不一定完全符合现实生活 😉

          2. 重新读一下你回复的评论,因为我认为你没有读完。特别是这一部分:

            >如果有人想要一台新电脑,他们只需要说明原因。如果理由充分,就给他们。如果不充分,就不要给。

            1. 人们会编造理由,没有人会直接说“彼得有一台新笔记本电脑,我也想要一台”。

              1. 是的,作为管理者,你的工作是判断理由是否合理。如果要求对方用一句话解释而不是四段文字,判断起来会更容易。

          3. 四段式作文无法解决彼得拥有更好电脑的问题。有竞争意识的人会写出来并编造理由。

            如果你是根据三段式作文来发放电脑,那么你有一个极其低效的流程,它奖励的是创意写作而非工作。

            这就是为什么在真实公司中不会发生这种情况,除非那是某个注定要失败的初创公司。

            1. 我可以告诉你,当我想要将我的办公桌从一个地方搬到另一个地方时,我不得不撰写“商业理由”(我已经在两个办公室轮流工作,而且至今仍在这样做,这只是纸面上的变化)

              所以我确信大型企业会对一切事情都这样做。可能是那些你不需要向经理申请,而是需要向财务或IT部门申请的企业

      3. 问题是,我是一个喜欢长篇大论的写作者,可以轻松写出4段文字——而另一个人会感到困难。摩擦点瞄准了错误的领域:对我来说这是15分钟的休息,而对我那位有阅读障碍的同事来说,这是长达一小时的噩梦。

        社交媒体会让你明白,当事情出错时,喜欢写4段文字的人是什么样的人;你真的想鼓励这种行为吗?

      4. 我的意思是,这完全取决于雇主是否希望员工高效工作。

        如果他们不在乎,他们就不关心。他们本来就是付钱给我们时间,而不是我们取得的成果。

    2. 我喜欢这篇文章的思考方式,也喜欢你的回应。

      我注意到政治领域也存在类似动态,互联网的集体行动/智慧摧毁了政客们曾依赖的所有旧信号。邮件不再像信件那样有意义。就连电话也已自动化。你的言论和经验在统计大数据层面更具价值,而非个体层面。

      这让我进入了一个科幻世界,我想知道这种荒谬的延伸会是什么样子……也许只是证明时间投资被浪费了。因此,在一个想象的世界里,大语言模型(LLMs)可以通过神经植入作为思维的延伸提供给所有人,除非你证明你的头脑在任意一段时间内什么也没做(即浪费了时间),否则即使是最简单的直接陈述也不会被认真对待。所以,如果你坐在角落里,记录下2小时的无聊状态,并将这一不可撤销的证明附在文字上,那么人们就会认真对待你的观点,因为你花费了(尽管不是“给予”)有限的注意力/时间来回应这一请求,且持续了相当长的时间。

      1. 政治是原生缺陷的系统。

        因为政客们实际上制定了系统的规则,因此极难防止滥用、不良激励和低效。

        美国制度中最根本的缺陷之一是:

        1. 政客通过选举维持权力。

        2. 公民无需强制投票,且投票本身存在成本(时间、交通、费用),因此并非所有人都会投票。

        3. 政客只需获得实际投票人群中的一部分支持,即可忽视未投票者。

        1. 我们可以通过区块链投票实现直接民主,解决这些问题,并创造一些新问题。

          想要解决人们随意投票的问题吗?提出一个关于他们投票的政策的随机(大语言模型(LLM)?)生成的问题,如果他们回答正确,表明对政策有基本的了解,就可以投票。

        2. 政客只是统治阶级的延伸。在资本主义下,那就是大资本家。

          对你来说可能看起来像滥用和不良激励,对他们来说却是完全一致的目标。

    3. 这里的问题是,鲍勃每周花费$10,000,却在追求一台每周只需$100的新电脑。

      1. 这一部分我一直觉得很有趣。以雇佣他们的成本的一小部分显著提高团队的生产力?绝对不可能。

        1. 我是一名顾问,从事这一行已有20年(除了有两年时间作为员工工作,以获得福利和搬迁补助,将我的家人从得克萨斯州搬到纽约市)。

          在纽约市的雇员工作中,我作为软件开发人员,每两年进行一次设备升级。只需使用当年戴尔公司提供的笔记本电脑即可。无需采购程序,IT部门每两年更换一次设备,我们的笔记本电脑在重新映像后会分配给非IT员工。

          作为咨询顾问,我通常自带设备,我的笔记本电脑通常性能远超公司配置,因为我会为每个客户单独搭建虚拟机——这样在合同结束后删除客户数据非常方便。但曾有一家客户不允许自带设备,所有计费工作必须在他们的硬件上完成。这本来没问题,但他们给我的台式机是一台12年前的双核非超线程处理器,即使在当时也不是为开发人员设计的。我恳求了6个月,希望他们要么让我带自己的设备(他们可以现在重新映像并在合同结束时擦除),要么请他们为我购买一台本世纪的电脑。

          花了3年时间才获得批准购买一台$2000的台式机,这相当于15小时的工资。最终促使此事解决的导火索是,我的电脑无法同时运行Teams和Visual Studio,而经理无法接受他无法监督我编程的事实。

          所有这些都表明,我怀疑这些非数据驱动型组织做出这些决策时,除了微观管理外,没有任何其他依据。与衡量或假设的生产力无关,与成本无关,所以我只能认为他们必须在所有方面都充当“决策者”。

        2. 我从未明白为什么我工作过的公司不能雇一个人专门管理厨房,而是要给工程师们开出高薪让他们争论如何卸载洗碗机。

      2. 如果鲍勃的工作和我的一样,鲍勃的新电脑可能需要一周时间才能设置好

        1. 听起来贵公司需要花些时间完善入职流程。这可能比单纯希望没人需要新电脑更有效。

        2. 我以前对笔记本电脑更新日很期待,但现在如果我的设备运行正常,我会选择忽略这些更新,以免麻烦。

        3. 这是我申请工作电脑时最大的阻碍。

      3. 无论是每周额外增加$100的底薪,还是每周$100的运营成本,鲍勃总是会要求再增加$100,无论他目前的成本是多少。如果鲍勃想直接管理运营成本(大多数人不会这样做),比如薪资成本,那么他可能更希望获得一个承包商类型的职位。

        至于信件的内容,这四个段落应该是“这些是我认为被忽视的原因,以及为什么不纠正它们会导致更高成本”,而不仅仅是“我花时间写了四个段落”的摩擦。

        作为一家IT公司内部IT经理的短暂经历……令人惊讶的是,有多少非标准/非周期性的笔记本电脑请求实际上要么是基本用户错误(即使是最优秀的技術员工),要么是基本IT系统问题(例如,未经充分测试的管理/安全工具更改在某些配置下会消耗性能/电池寿命),而新笔记本电脑实际上无法解决这些问题。例如,有人报告“我的电池在2小时内耗尽,即时通讯软件运行缓慢”,但他们使用的是M1/M2 MacBook Pro,即使换回M1或M4 MacBook,他们可能也不会注意到问题,因为问题根本不在于硬件。当有人通过邮件或工单解释为何他们的使用场景未被考虑时,通常很明显他们确实需要不同的解决方案。

    4. > 鲍勃的经理收到了一封 4 段密密麻麻的邮件,从第一行就意识到他必须仔细阅读全文才能弄清楚对方的要求和原因。相反,他将电子邮件复制到大语言模型(LLM)中……这 4 段内容被总结为“发件人需要一台新电脑,因为他的电脑已经很旧、很慢,影响他的工作效率。”经理批准了这一请求。

      鲍勃的经理是个懒人,或者是个白痴。

      可能两者都是。

    5. > 事实上,可以说大语言模型(LLM)是在优化系统要求:绕过这个糟糕的框架要容易得多。

      当然,只要我们完全无视为实现这个目标而浪费的水、电和硅。

    1. 关键在于,由于能源成本和扩展及压缩原始数据所需的额外硬件,GDP现在有所增长。想想这些新麻烦带来的经济增长吧!

      1. 下一个创新:从两侧压缩AI翻译层。我觉得可能能达到一个难以置信的Weissman分数!

  2. 探讨我们为何可能需要文本膨胀:

    1. 用于教育或解释目的。例如,如果我写:

    > ∀x∈R,x^2≥0

    我用了10个字符来表达

    > 对于每一个实数x,它的平方大于或等于零

    对于数学家来说,第一个就足够了。对于学习者来说,第二个可能更好(并且可能需要扩展“实数”或“平方”是“乘以自身”)。

    1. 确保所有内容都明确说明。 “他终于做了x” 暗示某件事已被预料或准备了一段时间,但 “经过一段时间的预料后他做了x” 则更清晰。这还涉及谁在预料的问题,也可明确说明。

    作为一名经常将规格转换为代码(并向非技术人员解释技术问题)的人,未明说的假设非常普遍。有时人们对未明言的假设存在不同理解(例如,有些人可能认为没有人进行过预估,只是实际耗时比预期更长)。

    因此,更长的文本看似只是简单扩展,但实际上增加了细节。

    我完全同意作者的观点,我只是想指出,拥有文本扩展工具并非像“为我生成垃圾内容”那样毫无用处。

    1. 如果输入文本中没有相关内容,生成器能否实现类似2的功能?

      1. 模糊性通过提供的上下文解决,但正如对话一样,这种上下文可能严重不明确。

      2. 是的,因为生成器在令牌级别进行生成,而令牌的大小在技术上小于单个单词。它们可以轻松生成独特的句子,例如,迁移学习使它们能够将从其他训练数据中获得的知识应用于新领域。

        认为生成器只是某种鹦鹉的观点已经非常过时。2021年提出“随机鹦鹉”这一术语的论文在发表时就已经错误了。

        1. > 是的,因为生成器是在令牌级别进行生成的,而令牌的大小在技术上小于单个单词。它们可以轻松生成独特的句子,例如,迁移学习使它们能够将从其他训练数据中获得的知识应用到新领域。

          当然。但它们能否读取原作者的意图,从而生成正确表达实际意图的独特句子?

        2. 当然可以,但在没有提供上下文的情况下,“他终于做了 X”这句话,大语言模型(LLM)如何判断是扩展为“这是一个非常期待的变化”,还是作者对花费的时间感到沮丧?如果输入上下文中没有细微的含义。

          显然,它可以生成更长的信息,但它会自动查找句子所指的内容并推断出额外的含义吗?

    2. 如果我需要扩展,我可以自己将其放入我的大语言模型(LLM)中。

  3. 随着年龄的增长,我发现自己越来越简洁(这并不是说我实际上很简洁,我的评论历史可以证明这一点),但大语言模型(LLM)确实让我深刻地意识到日常交流中涉及多少“噪音”。如此多的填充文本。

    当我看到非技术爱好者对大语言模型(LLMs)起草几乎无用的副本、电子邮件或其他东西感到兴奋时,我仍然感到惊讶。如此多的垃圾文本,没有人阅读,但出于某种原因必须写出来。这很奇怪。

    1. “我写这封邮件稍长一些,因为我没有时间写短一些”——某位名人

      当我写一些希望别人阅读的内容时,我总会在最后花时间将其缩短——删除分散注意力的句子、多余的形容词和其他冗余内容。这对团队沟通真的很有帮助。

      1. >当我写一些希望别人阅读的内容时,我总会在最后花时间将其缩短——删除分散注意力的句子、多余的形容词和其他冗余内容。

        这是一个很好的建议。在说话时该如何做到呢?我经常说太多却没什么内容,过程中常常失去听众的注意力。

        1. 就像减肥一样,从减少说话开始。

          沉默胜过无用的噪音。

    2. 我以撰写指南为生,我的受众主要是非母语人士。我以简洁明了的风格写作,多次有人告诉我,我的写作风格会渗透到我的博客文章、评论和短信中。

      你说得对!大型语言模型(LLMs)会产生大量冗余信息。如果你要求它们简洁,它们往往难以精简内容,输出结果常显得模糊或具有误导性。我每次让它生成不同版本的句子时,都会看到这种情况。

      我猜这就像艺术家对AI艺术的感受。乍一看似乎不错,但你能看出其中没有思考或工艺。

    3. 一方面,有人使用大语言模型(LLMs)将句子填充到文章中。另一方面,接收者只需按下一个按钮,人工智能就会将文章总结成一句话。

      真是令人难以置信的技术。

  4. 大语言模型(LLM)实际上是其输入数据的压缩模型。

    推断则是解压缩阶段,它根据输入提示和压缩模型生成文本。

    现在,使用大语言模型(LLMs)对文本进行压缩和解压缩已经变得非常简单,我们人类应该专注于——至少在商业领域——只传达我们想要表达的核心内容。

    如果购买新键盘的理由是:“我喜欢它”,那么这应该就足够了,因为夸张的版本很容易产生。

    1. 我讨厌的是,新颖有趣的想法往往需要额外的空间来定义和阐述,而由于其新颖性,大语言模型(LLMs)在正确概括它方面会遇到更大的困难。但听起来我们似乎正在走向一个中期阶段,人们愤世嫉俗地认为任何长篇电子邮件都一定是LLM生成的废话,因此要求LLM进行概括并不会有什么损失。

      真是可怕的技术。

      1. 我并不是要过分讽刺,但我可以想象,几乎每个写长篇累牍、冗长乏味的电子邮件的人都会认为自己有新颖有趣的想法,确实需要额外的空间来阐述。此外,大多数新颖的想法都是由平凡的事情组成的,大语言模型(LLMs)可以轻松地对其进行充分的总结。

        也许你可以提供一个这种情况会发生的例子,以及你认为这种情况会发生的频率。

        1. 对于AI生成的科学研究摘要而言,这似乎是个大问题,因为表现最佳的AI有25%的时间会忽略关键细节,且情况往往更糟。问题正是我所说的:研究中包含的新想法(出于必要性)不会出现在预训练数据中,因此AI会忽略或错误陈述它。我并不期待这个问题能在短期内得到解决,因为它本质上与2020年代的人工神经网络工作原理密切相关。

          https://royalsocietypublishing.org/doi/10.1098/rsos.241776

          编辑:我一直在思考“过于刻薄”这个问题,不禁想起了山姆·班克曼-弗里德:

            我永远不会读一本书。我认为,如果你写了一本书,你就搞砸了,它本应该是一篇六段的博客文章。
          

          问题不在于刻薄,而在于傲慢的愤世嫉俗导致的愚蠢。

    2. > 如果购买新键盘的理由是:“我喜欢它”,那么这应该就足够了。

      根据你的说法,这似乎正是大语言模型(LLMs)应该擅长的,那么为什么它们不先对数据进行近无损压缩,然后再进行训练呢?

      此外,如果它们如此擅长这一点,那么为什么它们的答案往往冗长乏味,需要仔细阅读才能找到我想要的内容呢?

      我对大语言模型(LLMs)被准确描述为“近无损压缩/解压缩引擎”持怀疑态度。

      如果你改变温度设置,它们会变得非常有创造力。

      它们是算法,在输入上运行,大致上可以描述为一种压缩形式,但与我们所认为的主要压缩形式不同——至少看起来具有我们不习惯的新兴解压缩特性。

      如果你提高 JPEG 的失真度,你不会得到有创意的输出。也许你会偶然得到,也许你只能用大语言模型(LLMs)得到——但成功率要高得多。

      无论发生什么,似乎都不是人们通常认为的简单的解压缩。

      从理论上讲,你可以对大语言模型(LLM)进行所有物理学的训练,除了少数几件事,它可以通过推理发现缺失的部分。

      是的,也许JPEG也可以,但这种可能性似乎低得离谱。

      1. 如果你没有设计出可以进一步压缩数据的压缩器,那么压缩率就会降低。

        如果你找到一种压缩文本的方法,既不会消耗大量计算资源,又能使压缩后的文本进一步通过大语言模型(LLMs)进行压缩——即可用于训练/推理?那么你基本上就发明了一个更好的分词器。

        业内很多人都在渴望一个更好的分词器,所以欢迎尝试。

    3. 与此相反的是“AI 循环性”,即我们通过循环膨胀和收缩信息(例如在电子邮件中,或在 AI 代码中,代码先膨胀再被压缩或总结)来消耗计算资源。这常常也会导致奇怪的通信结果,比如将一张 JPG 图片以 85% 的质量保存十几次。

      1. 每次循环都会引入错误,就像电话游戏一样

        1. 如果没有治理措施(比如发动机调速器),就会出现级联故障。

      2. 一篇关于大语言模型(LLMs)的早期文章正是出于这些原因将其称为“网络上的模糊 jpeg”。这是一篇值得一读的文章。

  5. 在商业环境中,那些被摘要处理且大多未被阅读的长篇文档,是特定且普遍存在的信任与问责水平的副产品:人们不相信某人已进行足够的批判性思考或对提案有充分的理由,除非这些内容被写在纸面上;但一旦内容确实被写在纸面上,人们便假设其确实代表了批判性思考和合法的理由。

    如果信任度更高,那么较短的文件会更受欢迎。如果信任度较低,或者问责制较强,那么摘要的使用就会更加谨慎。

    大语言模型(LLMs)在这方面并没有改变什么,只是让人们更容易在特定层面上滥用信任。从长远来看,信任度会普遍下降,人们最终会更加谨慎地使用摘要。我认为,不久之后,用于商业场景的产品化人工智能将被预训练/微调以执行基本的人工智能内容检测,或在进行摘要时默认包含信息密度定性衡量标准。

    1. 公平地说,收件人可能也不会读。他们只会看到摘要。大语言模型(LLMs)给其他大语言模型(LLMs)带来了更多工作。

  6. 我们使用大语言模型(LLMs)进行内容膨胀,这并不应该被视为对这些优秀工具的批评。然而,这可能会让我们思考为什么我们会进行内容膨胀。最好的情况是,我们是在隐晦地奖励混淆视听和浪费时间;最坏的情况是,我们是在掩盖缺乏清晰思维的问题。我认为我们都知道这是事实,但大语言模型(LLMs)让我们能够亲眼看到问题的严重性。也许这会鼓励我们做出改变!

    是的,这就是问题所在。财富分配在20世纪末某时停止了正常运作,我们开始为竞争优势相互争斗。这就是这一现象的核心。

    没有人需要装满婴儿尺码左脚鞋的容器,但必须展示工作证明。因此皮革必须被切割,鞋子必须被缝制,最终却被遗弃在后院不断堆积的废料堆中。这有点不对劲。

  7. 嗯,这篇文章与我的预期不同!即使在读完前两段之后也是如此!

    有一种想法认为,智能与压缩相辅相成:识别模式可以更好地预测,从而更好地压缩数据。

    然而,在大语言模型(LLMs)内部,通常会发生相反的情况:标记化和向量化会增加输入信号的比特率。思维链技术会添加大量额外的文本,进一步增加比特率。

  8. 我的项目经理说,他们昨天早上为一个尚未完全明确范围的项目写了一堆工单。我感到很惊喜,因为如果他们能提前行动并开始搭建工单框架,我没什么好抱怨的。

    当然,当我去阅读这些工单时,它们完全是一团糟。最搞笑的要求是为没有进度条的操作添加进度条。即使假设这些需求不是垃圾,每个工单至少需要15个点。

    但也许有了这些新工具,我们可以尝试实现这些疯狂的要求。真正的问题是本文讨论的内容。每个工单都有500到700个单词。一些可以简化为单个if语句的需求,却用长篇大论来描述。虽然这很搞笑,但问题是这样会让它们更难理解。

    我试图解释这一点,他们只是说“好吧,那就重写吧”。我大概花了15分钟就完成了,因为实际上没什么好写的。

    到这个地步,我实在不知道该如何与那些坚信这些东西能节省时间的人合作,因为他们只看输出量的多少。

    1. 向大语言模型(LLM)询问项目计划,他们会很高兴地给出每个步骤的日期,尽管他们不可能知道这需要多长时间。

      但项目计划的日期一直都是虚构的。更快地达到目标是一种效率上的胜利。

      话虽如此,我发现LLMs在作为提问者时表现不错。如果用来引导对话、调研背景信息,然后明确要求其简要概述某事的步骤,我取得了非常好的效果。

      1. 计划中的日期/周估算尤其有趣,当你与代理合作时,它会直接吐出这些内容。“第 1 周,建立结构”——呃,不,我们 10 分钟就能完成。

    2. 软件需求阶段对开发生命周期越来越重要,这种趋势还将继续。我开始写非常简短的票证,让 claude 代码将其膨胀,然后我进行润色。我经常在这个时候加入一些负面的提示,比如 claude 可能加入了“为 xyz 添加进度条”,而我只是在那些没有意义的东西前面加上“不要”。结果非常不错。

    3. > 此时,我甚至不知道如何与那些因为看到输出量而坚信这些东西能节省时间的人合作。

      同样地,想必过去也曾与那些会说“看看这个模板系统为我们生成了多少代码!”的人合作过,而且是认真的。

    4. 听到有人因实现“进度条”这类功能而获得六位数薪资,令人沮丧。

      1. 为什么?作为软件的频繁使用者,我喜欢进度条,我知道很多人也喜欢。你是对别人拿高薪感到生气,还是对进度条本身感到生气?还是两者都有?

        1. 如果进度条确实显示了我想要的信息,比如操作还剩多少时间,那它们很棒!但我怀疑大多数都是垃圾。

    5. 对于明显的人工智能垃圾内容——除非它显然经过了大量审查和更新——唯一的可接受回应是将其重新输入人工智能,并要求它提供一段摘要,然后以此为基础进行工作。

  9. > 我的服务器负载减少了

    这不是相反的吗?启用压缩会增加服务器负载,因为你需要更多CPU来压缩/解压缩数据。

    1. 正如Koffiepoeder所建议的,由于我网站上绝大多数内容是静态的,我只需在构建网站时压缩一次文件,无论后来有多少人下载它。[我网站上少量动态内容未被压缩,原因如你所说。]

      1. 这是个好点子,之前不知道它会被缓存。

    2. 这取决于压缩的效率吧。如果传输X字节的数据需要N时间,而传输过程中每个N的片段需要Y个CPU周期,那么你的压缩算法需要使用多少个Y,以及需要将N降低到多低,才能从CPU利用率的角度更高效?假设从CPU使用率的角度存在一个转折点,也许是一个难以实现的点?我只是在随口说说。

      1. 或者你的服务器可以缓存压缩后的内容(毕竟这是一个静态页面)。

    3. 不一定。例如,你可以先对文件进行一次预压缩,然后由客户端在接收时进行解压缩。

    4. 这取决于瓶颈所在。如果瓶颈在网络包大小上,这将有助于服务更多客户端。但需要更多CPU来解码/编码数据。如果你在处理大文件且硬件有余量,这完全正常。

  10. 也许我们应该根据大语言模型(LLM)压缩任意信息的能力来判断其性能。毕竟,智商越高,压缩率就越高。

    1. 哪个大语言模型(LLM)性能更好或更差,完全取决于所使用的评分公式以及它对错误的惩罚程度。大语言模型(LLM)本质上并不具备无损压缩的能力。

    2. 我们已经这样做了。

      预测在形式上等同于压缩,因此损失只是衡量你压缩训练数据集能力的指标。

      1. 从某种意义上说,是的。但那是对输入/输出映射的压缩,而非任意信息。而且它并非无损。

        1. 当你回忆一段记忆时,你会记得每一根草的位置,还是太阳的精确角度?

          人类,作为唯一现存的通用智能例子,根本不进行无损压缩。

          我认为通过压缩噪声无法实现AGI。

          1. 无损压缩需要识别数据中的模式,并以智能方式利用这些模式进行实际压缩。

  11. LLM 通胀是一个有趣的术语选择。就像我们当代社会中的许多事物一样,人们总有将日常概念赋予绝对、量化价值的冲动,但现实中我们应明白这是一种谬误。许多概念实际上并无“纸面”价值,却仍能体现显著的社会价值。营销便是典型例子,而我们却不将广告称为通胀(尽管或许应该如此)。

    这个概念可能适用于目前“人工智能”领域中的许多工作。最近,人们对使用大量计算能力为大语言模型(LLMs)生成逼真的声音的想法产生了反感(许多用户可能并不希望如此)。或者,人们对搜索结果中出现他们未请求的人工智能摘要感到不满。然而,大量资金已经投入到这些想法中,也许这是对资源的合理利用。我个人并不确定。时间会证明一切。但我怀疑这比作者在这里暗示的要复杂得多。

  12. 这种冗长的文字在商业领域一直存在。大语言模型(LLMs)只是被用作加快速度的一种方法。

    1. 是吗?我不记得遇到过喜欢长篇大论的人。此外,大语言模型(LLM)添加的内容纯属噪音,甚至可能出现一两个幻觉。如果出于某种原因,您有时甚至会添加一些相关信息,但您不会开始编造内容。

      如果另一个端点也使用大语言模型(LLM)来解析较长的文本,就会造成电话失真。恭喜您,您的沟通渠道现在已经不可靠了。

  13. 我认为大语言模型(LLMs)的使用将推动我们沟通方式的社会变革。

    我们可能不再使用冗长的句子,而是开始通过我们希望传达的意义的最低构建点进行沟通,将呈现工作留给接收端的大语言模型(LLM)。

  14. > 鲍勃需要一台新电脑来完成工作。为了获得一台新工作电脑,他必须撰写一份四段式的商业案例,解释新电脑如何提升他的工作效率。

    这种情况在现实中是否可行?因为在我所在的公司,没人想要你写四段式的商业案例论文来讨论电脑。这简直是个搞笑的轶事。

    但在现实世界中,至少根据我的经验,几乎所有人都更喜欢简短的邮件和信息。他们最多只会快速浏览长篇内容,尤其是在可以简化为“汤姆想要一台新电脑并对此大谈特谈”的情况下。

    1. 你给需要批准你请求的人提供简短版本。四段式的版本是给那个需要向其他人解释决定的人看的,他们很可能会说“我没看到问题”而实际上没读过,这就是目的:他们可能会更倾向于质疑简短版本。

      1. 我的意思是,我从未遇到过这种情况。真的从未。我并不特别年轻,而且我也不太可能在初创公司工作。我的朋友们也没有抱怨过必须为这类事情写长篇大论。

        我承认可能存在某些官僚主义的工作场所会这样运作……但在我有过经验的所有地方,他们都更倾向于简短版本。

        1. > 我的意思是,我从未遇到过这种情况。

          我确实遇到过,虽然不是直接经历,而是在一次客户现场访问中看到过。

          这种情况并不像人们抱怨或开玩笑时暗示的那样普遍,但确实存在。

    2. > 这种情况在现实中是否可行?

      不,现实情况要糟糕得多。在现实生活中,如果你需要一台不在预先批准列表中的计算机/服务器/配置,你可能会面临堆积如山的文档、幻灯片和无休止的会议。(我真希望我在夸张。当然,并非所有雇主都这样,这是显而易见的。)

  15. 我最近看到一个有趣的论点,认为企业环境中出现这种冗长语言的原因是英语缺乏正式时态。显然,在拥有正式时态的语言中,这种情况要少得多。但在企业英语中,冗长语言被用作一种信号,表明你花时间撰写文本以示对沟通对象的尊重。

    当然,现在大语言模型(LLMs)的出现让这种说法变得有些奇怪,因为我怀疑这种表达方式还能作为尊重的信号存在多久,毕竟它只是意味着你向ChatGPT输入了一些要点而已。

    1. 这个假设似乎很容易验证:具有正式时态的语言是否具有简短的企业语言?

      1. 我是西班牙语母语者——所有形式的书面西班牙语都比英语更冗长,而正式形式则更为冗长。我记得学校以前发给父母的通知,按英语标准来看简直是冗长得可笑。

        1. > 我学校以前发给父母的通知简直冗长得令人发笑

          那里可能还有其他因素在起作用。公共部门员工以使用僵硬的语言而闻名。

          我最讨厌的例子是他们总是在每个数字前加上“数量”,比如“我们将购买10辆新公交车”就变成了“我们将启动采购10辆新公交车的程序”。

          1. 公共部门员工?不,这是所私立学校。

      2. 我除了英语外还能说4种欧盟语言。这4种语言都有“正式”形式,且在正式形式下都比英语更冗长。所以如果你问我:“不”

      3. 这是我读到的论点,但我尚未核实。

      1. 过去三十年间,这种情况已大幅减少。我曾花大量时间研究日语语言学,到1990年代中期,即使在商务场合,极度正式的时态用法已开始消退。我仍觉得构造几乎等同于语法自贬的句子很有趣,但这种表达在实际口语或书面日语中并不常见。

  16. _>对于我们大多数人来说,撰写必要的散文是一件痛苦的事情,因此鲍勃启动了大语言模型(LLM),输入“请为我的经理撰写一篇 4 段长的商业案例,解释我为什么需要更换旧的、速度慢的计算机”,并将结果复制到他的电子邮件中。

    _>鲍勃的经理收到了 4 段冗长的散文,从第一行就意识到他必须仔细阅读全文,才能弄清楚要求是什么以及原因。相反,他将电子邮件复制到大语言模型(LLM)中,并在开头输入“请用一句话总结这封电子邮件”。这4段文字被总结为:“发件人需要一台新电脑,因为他的旧电脑又老又慢,影响了他的工作效率。”

    Sam Altman 实际上曾就本博客主题发表过一条简洁的推文(https://x.com/sama/status/1631394688384270336)

    >人们用项目符号写内容,让ChatGPT将其扩展为礼貌的邮件,发送后再用ChatGPT将其浓缩回关键项目符号,这其中有些奇怪的地方 2:42 PM · 2023年3月2日 · 120万次浏览

    1. 这其实并不奇怪,对吧?商务礼仪和礼貌规范要求使用某些措辞,这些措辞通常比消息的核心信息更繁琐。

      既然用这种冗余内容装饰任何消息已经实现自动化,我们不妨取消这一要求,直接清晰地表达我们想要的内容,无需冗余。

      1. 我不知道这些人住在哪里,但经理们已经多年不读长篇邮件了。并非要责怪他们,但这个需要他们阅读四段式论文的世界早已不复存在。

        1. 因此,我倾向于将商务沟通结构化为:“用一到五句话清晰传达我希望读者理解的内容(或希望告知的内容),随后附上理解所描述问题所需的背景信息和/或支持信息,或用于证明请求合理性的依据。”

          然而,对于那些在第一句或第一个问题后就停止阅读的人,你几乎无能为力。这些人注定无望。

  17. 我认为这是胡说八道。

    4 段要求并不是因为“大语言模型(LLM)”而引入的。它一直存在,只是应该为“给我 2-3 个要点”。他们希望鲍勃不要提出购买新机器的要求,不是公开拒绝他的要求,而是让流程变得复杂。现在鲍勃可以直截了当地说“胡说八道”,他们却想把浪费他们时间和资源的责任归咎于 LMM?胡说八道!

    1. 也许吧,但另一种看待这个问题的方式是:如果有人因为不想写几段文字而拖延申请新机器,那么他们可能根本不需要新电脑。另一方面,如果他们当前的机器真的糟糕到影响工作,他们不会犹豫,会迅速写出4段文字来申请新机器。显然,这个技巧对大语言模型(LLMs)不起作用。

      1. 或者,也许他们迫切需要一台新电脑,但因为忙于其他任务而一直拖延。他们的工作效率会降低,给公司带来巨大的成本,直到他们有空填写表格为止。

        此外,不需要新电脑的人很可能在工作时间撰写这些段落,所以如果他没事做又需要看起来很忙,他就会去做。(我认为可以合理假设,那种需要用4段文字来证明购买新电脑必要性的地方,也会要求员工随时看起来很忙。)

        为什么大家都在努力在混乱的行政流程中寻找意义?通常这种意义根本不存在,而如果真有的话,往往丑陋到无法用文字表达。

        1. > 为什么大家都在努力在破碎的行政流程中寻找意义?

          破碎的流程之所以持续存在,是因为它们以某种方式在为某人带来好处。如果你无法弄清楚是谁在从一个糟糕的流程中获益,那你试图修复或改变它就祝你好运吧。

          1. 从长远来看,是的。

            但那些早已被遗忘和淘汰的要求的残余,可能在很长一段时间内继续存在。

            此外,在当前情况下,某件事是否会持续存在,对立即受该流程影响的人来说大多无关紧要。

  18. > 最好我们是在默许模糊不清和浪费时间;最坏的情况是,我们允许缺乏清晰思考的行为被掩盖。

    大多数人思维并不清晰。这就是为什么修辞如此有效。这就是为什么大多数沟通都是空洞的社会信号。你可以给人们很好的建议,但他们的眼睛却呆滞无神,因为这些话没有让他们充满情感,或者其他什么,他们反而做了完全相反的事情。

    难怪大语言模型(LLMs)被用来玩这种愚蠢的游戏。

  19. 让我对大语言模型(LLMs)的未来充满希望的一点正是:人类不必要地啰嗦,而大语言模型(LLMs)可以去掉那些无谓的内容。

    我预计,较小的模型将在压缩真正重要的信息方面逐渐变得更好。书籍、报告、博客文章……各种长篇内容都可以用几个词或几页来概括。难怪即使是小型的大语言模型(LLMs)也能为许多查询提供准确的结果。

    1. > 人类往往过于啰嗦

      这真是个令人沮丧的观点。人类沟通远不止于快速高效地传达观点。

      1. 哦,不,我深知长篇深入的人类沟通价值。例如,我热衷阅读书籍,实际上更偏好长篇叙事。

        我不同意的是,在那些更需要简洁明了的情况下,人类却倾向于使用冗长的语言。不幸的是,人类往往会在牺牲信息清晰度的情况下,使用华丽的语言。

        例如,无数的自助书籍都可以被转化为简短的博客文章。或者想想法律或学术写作,它们常常阻碍读者真正理解所表达的内容。

        这样的写作太多了,甚至大语言模型(LLMs)也因将这种过于繁琐的语言提升到一个全新的水平而臭名昭著。在我看来,这是我们可以(也应该)避免的事情。

        1. 你的意思是语言是一种形式或官僚主义和把关吗?

      2. 人们不再阅读和吸收长篇写作。我曾在一家公司工作,该公司会为客户更新制作信息密集、冗长的PowerPoint幻灯片,到一定程度你会发现这除了试图给人留下深刻印象外毫无意义。如果我们确实需要在邮件中提及某事,他们会告诉我们把它放在第一句。

        当人们在 Reddit 上发布大语言模型(LLM) 的文章时,我也注意到这一点。有些内容可能会让我停下来思考,然后重新阅读任何一段内容时,发现它完全偏离了主题。我甚至忽略了加粗的结论“这是一个教练轮时刻”(?),因为当你阅读它时,你的大脑会思考它可能有意义的地方。

      3. 虽然很多时候应该尽量高效地表达观点,但人们会出于传统或文化规范添加冗余内容。

      4. 在许多情况下,人类只是为了填充空间而堆砌文字,没有任何实质性原因。

    2. 压缩与准确性的权衡是根本性的——随着模型在摘要方面变得更好,它们不可避免地会丢弃被认为“不太相关”的信息,这在特定上下文中丢弃的细节实际上很重要时会带来风险。

  20. 文章中的例子看起来不像大语言模型(LLM)膨胀,而是大语言模型(LLM)无法减少官僚流程中的浪费。

  21. 为什么选择“膨胀”一词来表示压缩的相反含义?如果你对一个陌生人说这句话,他们会认为你的意思是大语言模型(LLM)的价格因稀缺而上涨。我会称之为大语言模型(LLM)膨胀或大语言模型(LLM)解压缩。

    1. 此外,这种现象已有专有名称:AI冗余。

      虽然它并未直接涵盖压缩/解压的方面,但人们默认冗余包含不必要的填充内容。

  22. 在我工作的地方,我采取相反的做法:我会提醒同事们要写得更简洁、更精炼。

    当文本过于冗长时,我实际上会直接拒绝它,并提醒大家,可以根据要求使用大语言模型(LLMs)进行扩展。

    1. > 在我工作的地方,我做的是相反的事情:我让我的同事们知道,他们应该写得更乱一些

      听起来是个有趣的地方 🙂

      (是的,是的,我知道这是个错字,但我忍不住)

      1. 哈哈,哎呀!好吧,问题是,大语言模型(LLMs)实际上使文字变得更混乱了。

  23. 我在现实生活中见过这种情况。

    我以前的(显然)想当经理的人在将我们的简历发送给客户之前,使用 GAI 来修饰我们的简历,我敢肯定他们也在咨询愚蠢的人来总结他们的简历。

  24. 用它来写俳句是个好主意。不过我不确定它是否适合做这件事。

  25. 这篇文章描述的问题与大语言模型(LLMs)无关。它与工作文化和官僚作风息息相关。那些毫无意义的规则和法律之所以仍然存在,是因为改变它们需要时间、精力和努力,而公司里的大多数人要么尝试过但失败了,要么对改变不感兴趣。

    这是“无马马车”式AI解决方案的一个例子。我开始质疑,实际上我们正进入一个时代,许多我们现在做的事情甚至没有必要。

    我再给你一个例子。整个“Office”套件([“Word”, ‘Excel’, “PowerPoint”])也可以消失。但我们仍然使用它,因为改变很难。

    请回答我这个问题。在不久的将来,如果我们能够拥有能够遍历大量数据的大语言模型(LLMs),为什么我们还需要制作 Excel 表格呢?作为社会,我们是否会因为想要获得表格提供的洞察力而继续制作 Excel 表格,还是只是为了制作而制作 Excel 表格呢?

    我认为,当前一代的大语言模型(LLM)产品就像无马马车一样。当你可以要求代理从电子表格中给你提供你想要的答案时,为什么还需要代理来制作电子表格呢?

    1. 大语言模型(LLMs)在目前的状态下无法取代 Excel。看看这个简单的会计测试:https://accounting.penrose.com/ – 错误会随着时间的推移而累积。即使是小数据集也是如此。对于大规模的企业数据集,它毫无用处(试试让Gemini总结一个Google表格)。

      在这个问题得到解决之前(目前尚不清楚是否会解决),Excel将是必要的。

      Word 可能会变成一种不同的、更注重协作的产品。类似于 Notion。

      Powerpoint……我希望它消失,但最终,如果你要进行演示,你还是需要做好准备工作。

    2. > 请回答我这个问题。在不久的将来,如果我们能够拥有能够处理大量数据的大语言模型(LLMs),为什么还需要制作 Excel 表格呢?

      几个相关问题——如果飞机可以自动驾驶,为什么我们还需要方向盘?如果我有一台洗碗机,为什么我还在水槽旁放着海绵和洗洁精?

      这项技术还远未达到可靠到可以放弃传统数据交互方式的程度。这并不妨碍这项技术具有巨大的实用性。

    3. >为什么我们还需要制作 Excel 表呢?

      将它们视为时间快照的产物。您可以签名并存档,对它们进行备份,并使用该文档来记录当时的意图。

      审计在大语言模型(LLMs)上效果不佳

    4. > 既然你可以要求代理从电子表格中给你提供你想要的答案,为什么还需要代理来制作电子表格呢?

      因为大语言模型(LLMs)似乎有一个基本特性,就是它们会不断编造东西。最好将大语言模型(LLMs)作为正式查询语言的自然界面,该语言将从数据库中返回准确的答案。

  26. 我们已经经历了30年的XML膨胀。

  27. > 简洁是智慧的灵魂

    既然弹珠机能生成大量文字,或许是时候真正领悟这个道理了。

  28. 作者编造了一个虚假情境来论证一个不存在的问题

  29. > 计算领域的重大成就之一是数据压缩

    啊,是的。从某种意义上说,这确实是信号处理领域的成就。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: