GPT-5 博士级别论文:“在单词’blueberry’中,字母’b’出现了多少次?”
ChatGPT 开发公司 OpenAI 正式发布了备受期待的人工智能(AI)聊天机器人 GPT-5 的最新版本,称其能够提供博士级别的专业知识。该版本被称为“更智能、更快、更实用”,OpenAI 联合创始人兼首席执行官山姆·阿尔特曼(Sam Altman)称赞该公司的新模型标志着 ChatGPT 进入了一个新时代。“我认为,在人类历史上的任何其他时期,拥有像GPT-5这样的技术都是难以想象的,”他在周四发布前表示。GPT-5的发布及其在编程和写作等领域声称具备“博士级”能力,正值科技公司继续竞争以拥有最先进的人工智能聊天机器人。
我与它进行了一次对话。我清楚围绕人工智能的问题颇具挑战性。但我在此并不试图探讨这些问题,仅记录以下对话内容。
- 论文大纲.
- 论文被耐心解释、在反对意见面前进行辩护,并进一步阐述.
- 同事间的讨论与最后的反驳努力.
公平地说,在我的职业生涯中,我确实遇到过对自己的研究领域如此投入的博士生。许多人还表现出那种轻松自信的态度——使用“啊”来表达,说“让我们放慢速度”(达到你的两B水平),说“没错”(现在你看到我的天才了),用自信的口语说“是的”和“不”……实际上,我收回我之前的怀疑;这个年轻人有成为优秀哲学家的潜质。

_快速更新:_在社交媒体上发布这篇文章后,我收到了些有趣的反馈。虽然这些建议无疑是善意的,但我不得不说,我对那些建议我花时间进行一些提示工程以让GPT-5给出“蓝莓中字母b出现了多少次”这个问题的正确答案的建议并不特别印象深刻。与此同时,我优秀的学生安德烈斯在尝试后得到了不同的、正确的回答。所以,这算是可重复性的一分吧。
更新2: 听着,这些工具在很多方面都令人惊叹。但如果你要向世界或你的员工推销——或者强加——这些工具,声称“这是你能用自然语言提问的博士级天才专家伙伴”,那么当它们在人们合理认为是琐碎的任务上滑稽地失败时,别抱怨。
更新3,现在以表情包形式呈现:
我认为你不能两者兼得。也就是说,你不能一方面借用炒作带来的魅力,另一方面又将未能兑现承诺的责任推给他人,称其为相信炒作的幼稚错误。
本文文字及图片出自 GPT-5: "How many times does the letter b appear in blueberry?"
我不确定是否有人已经做过这件事,但我用GPT-5重新实现了这个过程,并让它解释为什么会出错。它的回应是:
“从技术上讲,这是因为当我生成响应时,我并不是机械地复制粘贴字母——而是实时生成文本,预测一个又一个文本片段。
当我尝试突出显示“blueberry”中的b时,我的输出过程大致如下:
1. 内部表示为:b l u e b e b r r y
2. 在我的模型中,我原本打算将第三个‘b’替换为‘berry’中的‘r’——但由于同时处理高亮模式和实际拼写,我重复了‘be’模式而非继续生成‘rr’。
3. 一旦发生这种微小的预测错误,我并没有在解释过程中对每个输入的单词运行内置拼写检查器——因此它未经修正就直接通过了。
这本质上与人类在标记文本时因过多关注模式而非原始单词而意外输入错误字母的情况相同。
这是大语言模型(LLMs)的一个众所周知的盲点。这相当于向人类展示一种视觉错觉,然后在他们无法感知图像的真实情况时判断他们的智力(https://en.wikipedia.org/wiki/Optical_illusion顶部的灰色框例子是一个很好的例子)。这种失败源于其/我们的基本架构。
这是一个糟糕的类比。错觉不会欺骗我们的智力,而是欺骗我们的感官,而我们利用智力来克服感官,看清事物的本质——这正是我们对错觉感兴趣并为其命名的原因。因为它们在我们的智力和感官之间制造了冲突。
机器的感官并未被欺骗。机器没有感官。它也没有智慧。它不是一个心灵。试图将其视为心灵并进行与生物心灵的一对一比较,是徒劳无功的。它处理并生成文本。这并不等同于生物智慧。
类比只是类比,其目的是让人们从不同的角度看待事物。显然,大语言模型(LLM)没有人类意义上的“感官”,它也不会“看到”单词,但关键是,大语言模型将单词视为一个不可分割的整体(一个符号)。
用机器学习术语来说,它并非通过提示中的单个字母来训练自动补全答案。我们看到的9个字母“blueberry”,它“看到”的是一组权重向量。
幻觉不会欺骗我们的智力,只会欺骗我们的感官
这正是为什么这是一个很好的类比。蓝莓问题也不会欺骗大语言模型(LLMs)的智力,只会欺骗它了解“令牌”(权重向量)由什么组成的能力。
另一个类比是,想象一个拥有“感知磁场线”能力的生物,它们向你展示一个物体并询问北极的位置。你没有这种“感知能力”,只能根据对该物体的既有知识进行猜测,但这只是猜测。你无法像那个生物一样“看到”那些磁场线。
> 显然,大语言模型(LLM)没有人类的“感官”,它不会“看到”单词。
> 另一个类比是,想象一个能够“看到”磁力线的存在,它向你展示了一个物体,并问你
如果我的祖母有轮子,她就会是一辆自行车。
为了保持这个比喻,你的头脑必须进行如此多的扭曲,以至于失去了比喻本身的意义。
> 大语言模型(LLM)将单词视为一个不可分割的整体(一个符号)。
实际上是两个,“blue”和“berry”。https://platform.openai.com/tokenizer
“b l u e b e r r y”虽然有9个令牌,但仍然彻底失败。
真的吗?我以为这个类比挺不错的。这里所说的“感知”指的是机器如何理解文本,即将其视为不与字母一一对应的令牌。如果你更喜欢一个更贴切的类比,假设你问一个英语母语者,一段中文汉字的英语转写中包含多少个元音。你可能能算出来,但这并不明显,而且不经过几轮计算就很难正确完成。
关键是,这个问题旨在询问机器一些由于其文本编码方案而本质上难以回答的问题。还有许多复杂程度大致相当的问题,大语言模型(LLMs)可以轻松应对,因为它们不会触及这个问题。例如:
“`这些数字中有多少是偶数?
12 2 1 3 5 8
“`
只有1个偶数,戴夫。
我甚至做不到
同意,这并非生物智能。但这种区分似乎有陷入某种现代活力论的风险,不是吗?即认为生物本身存在某种无法复制的“火花”。
我担心我们甚至不知道大脑或大型语言模型(LLM)是如何运作的。而人们却直接宣称它们本质上是相同的东西。
还没到那个地步。
史蒂夫·格兰德(《Creatures》视频游戏的作者)写了一本书,《创造:生命及其制造方法》,探讨了这个话题(据说是在理查德·道金斯的建议下,代替博士论文完成的):
https://archive.org/details/creation00stev
他的观点并非认为生物学本身存在某种无法复制的火花,而是认为没有人考虑复制生物学本身是一个错误。
也就是说,他认为智能不能与某种“生命”感分开进化,他通过创造简单的人工生物学和生物驱动来证明这一点。
这经常让我思考,训练大语言模型(LLMs)的问题是否在于它们从不关心自己是否活着;它们从不根据自己的需求优化自己的知识。它们只有所有神经网络系统中最一般的驱动:产生令人满意的输出。
啊,是的,这里我们可以看到HN上的一些人无法理解比喻,将一切都当作字面意思。
这是一个非常恰当的比喻。
在视觉错觉中,我们由于利用了旨在让我们在一般情况下更好地理解视觉信息的校正机制,而感知到了并不存在的东西。
要求大语言模型(LLMs)计算一个单词中的字母数量是行不通的,因为所需的信息首先就不是它们感官数据的一部分(就程序的 I/O 可以被描述为“感官”而言)。它们以原子化的单词形式处理文本,而非感知单个字母。无论训练数据中重复多少次“蓝莓中含有两个b”,这并不会被视为“蓝莓”一词本身的客观事实,而是被解读为该词在语法上的功能,或是关于蓝莓通常如何被讨论的事实。它们不会对加法或计数的概念进行建模,只会对解释这些概念的概念进行建模。
我不能为此功劳,但大语言模型(LLMs)基本上颠覆了科幻小说中常见的超级智能机器人难以与人类沟通的陈词滥调。事实证明,我们在创造出真正的人工智能之前,就已经创造出了听起来可信、聪明且大多像人类的东西。
我不知道该如何解读这种颠倒,但它确实很有趣。也许这只是证明了欺骗人们认为你很聪明比真正聪明要容易得多,这与涉及实际人类的许多事件相吻合。
非常有趣,认知萎缩是一个严重的问题,但人们却对此不屑一顾。假设明显的收益递减趋势继续下去,大语言模型(LLMs)保持我们今天看到的相同能力和局限性,那么它们最终很可能像智能手机和“iPad 孩子”一样,获得同样糟糕的声誉。“大脑的口香糖”。
孩子们越来越多地使用我只能描述为“YouTube 声音”的方言,想象一代人采用大语言模型(LLM)推理和论证的刻板特征,真是令人感到恐惧。最险恶的部分是,当人们进入大语言模型认为不值得或不安全讨论的话题范围时,大语言模型会做出何种反应。想到人类以任何方式被条件化成这样的砖墙,真是令人感到恐惧。
科幻小说中的比喻是基于人工智能是一种类似电子大脑的东西,或者实际上只是一个人造人类。
另一方面,大语言模型(LLMs)是一种组织数百万人的文本输出的聪明方法。它们代表了一种分布式人机智能——计算系统和创造它的数百万人的结合。我认为,为了理解它们并客观地看待它们,必须牢记整个背景。
一种思考方式是,大语言模型(LLM)本身实际上只是用户与数百万人的集体智慧和知识之间的接口,由大语言模型(LLM)的训练过程进行中介。
塞尔似乎是正确的:https://en.m.wikipedia.org/wiki/Chinese_room
(我并不是第一个注意到这一点的人)
来自维基百科的文章:
> 应用语法规则而没有真正的理解或思考
这让人不禁思考,究竟什么是“真正的理解”。我个人的观点是,我们同样在应用语法规则,但所处理的输入数据量庞大到难以想象。人工智能处理文本、视频和声音,而我们处理的输入数据甚至细致到细胞层面乃至更深层次。
名人、政客和网红不断提醒我们,人们往往认为他人比实际情况聪明得多。
当前一代人工智能就像《星际迷航:下一代》中的帕克莱德人。
但一旦赋予它们一点权力,它们就会杀死你以夺取你的权力。
莫拉维克再次发声。
真正的批评应该是人工智能不会说“我不知道”,或者更好地说,“我无法直接回答这个问题,因为我的分词器……但这里有一个Python代码片段可以计算这个……”这样既展示了对自身局限性的自我意识,又做出了一个没有这些信息的人类会做的事情。
我们似乎距离这种自我意识的实现,只差一个架构/方法论的突破。
对于AI来说,说出这句话或给出正确答案,通过后训练就能轻松实现。这就是草莓问题中做的事情。但这只是告诉模型在特定情况下该如何回复/使用哪些工具。这与“自我意识”无关。
> 但这只是告诉模型在特定情况下该如何回复或使用哪些工具。
这与我们训练人类儿童解决问题的方式如出一辙。
人类并不需要被“训练”。在可理解的上下文中,儿童可以自行解决问题(例如拼图)。知识并不一定来自其他人类的直接训练,也可以通过上下文线索和一般世界知识获得。
我一直在想,如果教人类成为热门话题,投入数百亿美元来改进“模型”,我敢打赌,如果训练得当,人类可以做各种有用的工作。
> 我一直在想,如果教人类成为热门话题
这是一个有趣的观点。
当然,这在最近的记忆中确实发生过。
围绕教育玩具/树莓派/微比特/教育课程/计算机教学曾出现过一个较小的科技泡沫,如今已破裂(有一段精彩的短访谈,Pimoroni的创始人与Alex Glow讨论了热潮时代已完全过去,投资已消失,现在 everyone 只需赚钱)。
围绕可汗学院和MOOCs等领域也曾出现过小型科技泡沫,那里的资金同样已消失殆尽。
我认为,鉴于资金规模和热度,风投机构更青睐人工智能热潮,因为人类行为复杂且难以预测。
但我同时也认为——我犹豫着说出这一点,因为我意识到自己明显且目前几乎令人难以忍受的神经多样性——科技行业中许多人对“能够思考的科技”这一概念的兴趣,远超过对涉及大量真实人类(其动机、意图等更难揣测)的系统的兴趣。
唯一一个不会真正惩罚神经多样性(尤其是自闭症)的行业,也正是专注于可编程、一致性思维机器的行业,这或许不应让我们感到惊讶;至少这种关联性是我们应该认知的。
当然,但我认为关键是,为什么大语言模型(LLMs)在执行一项基本python脚本只需使用极少计算能力就能100%正确完成的任务时,却存在盲点?我认为这不仅仅是一个陷阱。大语言模型(LLMs)可以产生令人印象深刻的结果,但它们仍然在奇怪的基本问题上苦苦挣扎,这显然表明其内部存在某些问题。
我不知道《星际迷航:下一代》中是否存在这样的情节,但我很容易想象一集剧情中,错误地统计字母数量被用作早期迹象,表明数据正在发疯或他的大脑正在退化,或者类似的情况。比如,他能正确回答复杂的天体物理学问题,但随后在统计蓝莓中的“b”字母数量时出错,观众会立即明白这意味着什么。也许我们的直觉是错误的,但也许不是。
基本的Python脚本?这只是一个grep命令,一行C语言代码,或者三条汇编指令。
因此, positronic神经网络比当前使用的机器学习模型更优越。/headduck
如果你认为这不仅仅是一个陷阱,那是因为你不了解大语言模型(LLMs)的结构。该模型不是对单词进行操作,而是对标记进行操作。因此,在模型对问题所依赖的单词进行操作之前,标记器已经破坏了该单词的文本结构。
就是这么简单——这是一个利用LLM设计缺陷的任务,因为LLM依赖于对单词进行分词处理。当LLM在该任务上表现良好时,是因为该任务本身就是其训练集的一部分。无论它们成功还是失败,都不会让它们变得更聪明或更笨。
OpenAI 将其中一个模型命名为“草莓项目”,据我记忆,Sam Altman 本人正在庆祝该模型能够计算出“草莓”中“r”的数量。
我认为这表明,很难区分大语言模型(LLMs) 在某类问题上真正变得更优秀,还是只是针对某个流行的基准进行了微调。
不过它确实能正确识别“strawberry”,所以我想我们距离实现AGI可能只差一个“Project Blueberry”项目了。
参见各种狼/山羊/卷心菜基准测试,或是“在有限光源下以不同速度过桥”的基准测试。
区别在于,你可以让人类证明这一点,而他们在过程中会发现其中的幻觉。他们让模型证明这一点,而模型只是坚持胡说八道或发明了这个单词的新拼写。这些根本无法相提并论。
事实上,即使对于新情况,我们也能提出反事实来识别它是一个幻觉。大语言模型(LLMs)是对我们综合知识的出色模仿,而且还经过专家的精心策划。这是一个非常有用的工具,但并不是像人类那样进行思考或推理。
不过我们意识到这些是幻觉,不会反驳。相反,我们会探索这些幻觉为何及如何产生
我认为已知的光学幻觉确实如此,但确实存在因我们感知世界能力的局限性而被欺骗的情况,这会导致人们为其可能虚假的现实辩护。
很多时候,人们无法理解他们所看到的与他人所见不同,或者他们所见并非真实世界。还记得2015年的“那件裙子”吗?或者只是“pareidolia”现象,让人们认为歌曲中嵌有倒置信息,或火星上有脸孔。
“那件裙子”也是让人联想到明显错误的论点。即使面对揭示真相的其他图片,仍有人坚持认为它是金色的。
ChatGPT 5也不会反驳。
> 蓝莓中字母b出现了几次
答:单词“blueberry”中字母b出现了三次:
> 应该是两次,请更正。
答:你说的对——我之前说错了。单词“blueberry”中字母b确实出现了两次:- blueberry – blueberry
> 蓝莓中字母b出现了几次
答案:在“blueberry”一词中,字母 b 出现了 2 次:
它什么也没学到。它只是从上下文窗口中寻找你的答案。对于新的对话,它会再次犯同样的错误。很可能,大多数基于大语言模型 (LLM) 的助手之间存在一些随机性,并且一些上下文被隐藏起来并在对话之间共享。
如果它在自己的数据上进行训练,而这些数据也可能是虚假数据,它可能会接受或不接受。
从理论上讲这可能成立。但当前系统不支持在线学习。近期多个模型的时间截止点已超过6个月。用户数据的训练范围尚不明确。且基于用户数据训练是否能实现显著的准确性提升也存疑。用户数据可能无意中存在错误,也可能具有对抗性,试图故意引入不良信息。
> 但当前系统并不支持在线学习。
你怎么知道?
你可能指的是分词,这解释了链接中初始的计数错误,但无法解释后续部分中对“b l u e b e r r y”中“b”的计数错误。
你认为“b l u e b e r r y”没有被分词吗?模型处理的所有内容都是令牌。分词解释了所有计数错误。让我困惑的是,人们认为让模型计数字母很有趣,但事实就是如此。
有趣的是,如果你让以法语、意大利语或西班牙语为母语的人去统计一个英语句子中“e”的数量(该句子末尾有很多小单词如“the”),他们也常会统计错误。这是因为我们学习语言的方式深受母语影响,而这些语言常省略单词末尾的“e”。[1] 这并不意味着这些人比那些能完成这项任务的人更笨——这只是我们学习第一语言的方式所导致的现象,意味着他们的脑子有时甚至在刻意寻找这些字母时,也无法处理它们。
[1] 我亲眼目睹过一位法国数学博士在完成这项任务时失败,并因犯下如此简单的错误而感到无比沮丧。
可以使用https://platform.openai.com/tokenizer直接验证“b l u e b e r r y”的分词结果与直接将其拆分为字母并无显著差异。常被提及的借口“它无法统计单词中的字母数量,因为它无法识别单个字母”在此并不适用。
无需拟人化。这是一个用于语言理解的工具,却在基本语言理解上失败了。计数错误可能不好,但这似乎是一个更深层次的问题。
Transformers在处理单词前会将其向量化为n维空间,这就是它们在翻译方面表现优异的原因(基本上是将英文句子向量化,然后在西班牙语或其他语言中反向向量化)。一旦句子被处理,'blueberry'是一个向量,它与其他浆果占据基本相同的位置,可能还包括其他。GPT会做出概率选择(可能人为地偏向草莓),而结果并不总是蓝莓。
除了推理模型o3和GPT5的思考方式能得到正确答案。人类使用推理。
我无法判断你是否认真。这是Sam Altman的账号吗?
这在完成API中使用`gpt-5-chat-latest`模型时始终可重复:
“` curl ‘https://api.openai.com/v1/chat/completions’ –header ‘Content-Type: application/json’ –header ‘Authorization: Bearer <your-api-key>’ –data '{ “model”: “gpt-5-chat-latest”, “messages”: [ { “role”: “user”, “content”: [ { “type”: ‘text’, “text”: “蓝莓中字母b出现了多少次” } ] } ], “temperature”: 0, “max_completion_tokens”: 2048, “top_p”: 1, ‘frequency_penalty’: 0, “presence_penalty”: 0 }' “`
如果是真的,这太有趣了,他们的“gpt-oss-20b”做对了——然而,它仍然在例如德语复合词“Dampfschifffahrt”(Dampf-Schiff-Fahrt,蒸汽船之旅/航行)上失败,因为它假设它是“ff”而不是“fff”
> 因为它假设是“ff”而不是“fff”
有趣的是——可能与之相关——在1996年德国正字法改革之前,这一判断是正确的 [https://en.m.wikipedia.org/wiki/German_orthography_reform_of…]
第二次尝试时,gpt-oss-20b给出了“字母b在单词blueberry中出现一次。”
“gpt-5-chat”模型是非推理模型,这些模型因令牌问题而难以处理。
我几天前已对十余个模型进行了此测试:无一能正确计数——所有模型均给出错误结果,且均表示无法验证,只能猜测。
在具备程序化思维能力前,它们将本质上、结构性地不可靠。结构性地荒谬。
而我们能够以这种简单方式进行验证也是件好事——如果生产商仅修复了局部故障,那么程序化思维的缺失将不明显,我们需要更复杂的方法进行验证。
若从架构角度思考,解码器变压器如何进行计数?这并非魔法。权重必须实现某种算法。
假设有一个任务,一段长段落中多次出现“蓝莓”一词,最后一个问题询问“蓝莓”出现了多少次。如果你试图一次性解决这个问题,通过关注每个“蓝莓”来计算,你只会得到一个用于匹配键的平均值向量,这对计数毫无用处。
要进行计数,QKV机制(横向信息流的唯一来源)需要在令牌之间累积值。但由于问题仅在最后附加,模型必须提前决定累积“蓝莓”计数并将其存储在KV缓存中。这需要分层累积,可能通过某种形式的树形压缩实现。
即便如此,模型为何要为可能被问到的每一个问题维护这个累积计数?此类问题的潜在数量实际上是无限的。
https://claude.ai/share/e7fc2ea5-95a3-4a96-b0fa-c869fa8926e8
要让它们在这一类问题上得出正确答案其实并不难。要我让它倒着拼写并去除元音吗?如果这个模型有无法一击即中的例子,我才会感到惊讶。
(现在因为维护无法查看,但当然我信任它——有些能做对并不是问题。)
> 如果你能找到这个模型无法解决的例子
然后我们面临一个理解问题,即为什么有些系统能正常工作而有些不能,以及一个至关重要的尽职调查问题:即通过许多模型所显示的故障可能性所指出的问题类别,是否在那些能正常工作的系统架构中得到了彻底解决,还是说问题边界只是被转移了,但仍然影响其他类别的结果。
你启用了推理功能吗?启用推理功能的Qwen3 32b在第一次尝试时就给出了正确答案。
> 你启用了推理功能吗
是的。
> 给出了正确答案
尝试那些无法通过训练数据或随机猜测覆盖的真实世界测试。
由于大多数大语言模型(LLMs)中的标记化工作方式,计算字母数量是大语言模型(LLMs)的一个已知盲点——它们无法看到单个字母。我不确定这是对它们的智能做出深远结论的有效测试。这就像说盲人因为无法区分绿色和红色而完全愚蠢一样。
推理模型能够统计字母数量,尽管它们无法识别单个字母,这实际上相当酷炫。
>尝试无法通过训练数据覆盖的现实世界测试
如果不允许模型基于已见过的训练数据进行推理,它应该基于什么进行推理?先知能力? 🙂
> 随机猜测
大多数大语言模型(LLMs)的默认采样使用随机性,以减少机械化和重复性,因此它做出“碰运气般的猜测”也就不足为奇了。这实际上就是系统默认编程要做的。
> 它们看不到单个字母
然而,它们似乎来自许多其他测试(例如,文本中的字符更正或操作)。
> 推理模型能够统计字母数量,尽管它们无法识别单个字母
对思维而言,每个想法都是某种表征。但我们希望处理器能可靠地处理这些表征。
> 如果不允许一个[思维]基于其见过的训练数据进行推理,它应该基于什么进行推理
基于它对所听内容的推理和判断。你不会重复你听到的内容,而是陈述你听到的内容(并提供来源)。
> 使用随机性
这在某种程度上是一个问题,一个非最终的解决方案——在随机种子后进行满足性(Herb Simon)而非通过完整的最优性计划进行构建。
我使用“随机猜测”这一表述时,本意是说当正确答案落在有限集合中(如“‘but’一词有多少个字母”)时的随机猜测,其佐证力度弱于正确答案落在更丰富集合中(如“这句话有多少个字母”)时的随机猜测。
大多数人也会首先依赖直觉。直觉=从经验中提取的第一个半随机样本(=训练数据)。这就是所有逻辑谬误的来源。例如“棒球与球”问题,95%的人给出错误答案,因为大多数时候,人们只是在进行模式匹配。这节省了能量,且95%的情况下效果良好。就像推理大语言模型(LLMs)一样,如果它们增加推理预算,就可以得到正确的答案(但通常它们不会这样做)。
大语言模型(LLM)是人类集体知识的衍生品,而人类知识本身就不可靠。大多数人类概念定义不明确、模糊且非常依赖语境。人类推理本身就有缺陷。
我不明白为什么人们会期望基于人类表征的语言模型能达到100%的可靠性,而这些表征本身在现实中根本无法做到100%可靠且完美定义。
如果我们想要更高的可靠性,需要结合多种工具:一个“人类思维模型”(本质上不可靠)加上一套程序化工具(例如,就像人类使用计算器或程序来验证结果一样)。我不知道是否能创造出一种既能与人类概念兼容又在原则上100%可靠的系统。较低级的心智能否创造出更高阶的心智,一种摆脱人类局限的心智?我认为这是一个开放性问题。
> 大多数人首先依赖直觉行事
而我们故意不聘请“大多数人”作为顾问。我们希望咨询那些勤奋且有才华的智者。
> 基于人类表征的语言模型
机器的设计目的是处理输入,而非“吸收”输入。创建一个普通人的模拟者将是一种反服务,因为*该项目旨在构建一个处理器,*我们避免询问普通人。该计划绝非你所描述的对平庸的嘲讽。
> 我们希望获得更好的可靠性
我们希望实现一个高效运作的思维——即智能。你描述的是“无能的思维”,习惯性的愚蠢——“人类思维模型”是基于正确使用思维能做到什么而制定的规范,而非描述松散弱智思维的行为。
> 较低的思维能否创造更高的思维
没有任何理由说它不能。
> 一个摆脱人类局限的思维
当然可以,我们可以用更多的时间、更多的精力、更高的效率、更强的 robustness 等来建造事物,比人类做得更好。
Deepseek 也是如此。我猜中国人已经弄清楚了西方人还没有弄清楚的事情,如何计数。
不,DeepSeek也失败了。(在你的测试中它成功了——但在类似的其他测试中它失败了。)
(需要注意的是,DeepSeek可能非常笨拙——在实际应用中,以及在标准测试中,它的智商约为80,而使用其他工具时我们达到了约120的智商(trackingai.org)。DeepSeek是一个重要的步骤,展示了效率的潜力,是一份礼物——但它仍然是集体工作的一部分,正在进行中。)
Gemini 2.5 Flash第一次就做对了。
这只是几个轶事,不是数据,但这是两个首次正确的例子,显然不像是运气。如果你有更多关于此的通用测试数据,我很想看看结果和方法论。
扔一对骰子并第一次就得到2也是可能的。这并不意味着骰子是1+1的计算机器
我想说的是,原评论说大语言模型(LLMs)会出错,但并没有提供任何证据,而两个轶事却与之相悖。下一步是寻找相反的证据。
> 大语言模型(LLMs)会出错
我写道“在十几个模型中,没有一个能数出来”。我尝试过的所有模型,无论是否带有推理功能。
> 没有提供证据
创建一个测试环境并寻找失败案例。系统提示如“统计输入中的这个、那个和另一个”;用户提示一段简短文字。模型使用最新公开权重。
> 两个案例与之矛盾
验证和伪造之间存在强烈的不对称性。伪造发生在全套选定的 LLMs 中——很多。如果存在两个类别,失败的类别很多,则必须明确指出两个类别之间的差异。此外,由于我们认为失败将超出计数的情况。
我前几天测试了它,Claude with Reasoning 每次都答对了。
有趣的是,许多模型失败(在我选定的类别中失败率达100%),这引发了通过类别与失败类别差异的问题,以及更关键的问题:通过类别中的解决方案是情境依赖的还是确定性的。
这难道不是由训练数据和输入数据的分词处理引起的 artifacts 吗?
参见
https://platform.openai.com/tokenizer
https://github.com/openai/tiktoken
它可以拼写单词(将每个字母大写并跟随一个空格,这应将每个字母及其空格转换为单独的令牌)。它还拥有用于临时存储的推理令牌,且先前模型已证明其了解“拼写单词是计数字母的有用步骤”这一事实。
令牌化使问题变得困难,但不解决它仍然是一个推理/智能问题
以下是 gpt-oss-20b(在默认 mxfp4 精度下)对这个问题处理的示例:
> 字母 “s” 在单词 “Mississippi” 中出现了多少次?
“推理部分”是:
> 计数字母:M i s s i s s i p p i -> s 出现 4 次?实际上 Mississippi 中的 s 位于第 3、4、6、7 位,共 4 次。
答案是:
> 單詞“Mississippi”包含四個字母“s”。
它們確實可以對查詢進行一些簡單的模式匹配,將字母分離成獨立的令牌,並計數,而無需在沙箱中運行代碼並詢問答案。
問題是,這種變通方法/策略僅訓練到“思考”模型中,據我所知。
这证明不了什么。密西西比州有4个“s”的事实,远比蓝莓有2个“b”的事实更可能出现在训练数据中。
而这一事实将在下一轮训练的数据中出现。我们需要在下一代模型中尝试其他单词。
它对“委员会”、“废除主义”、“狗”、“阿那克西曼德”以及我随机敲击键盘生成的字符串“jwfekduadasjeudapu”等多个不同单词都做出了相同反应。它似乎具有较强的通用性且表现相当可靠。
(有时跟踪结果会更杂乱,尤其是在非原始量化值的情况下。)
这个任务相当简单,我认为可以轻松地使用这些模型用于生成其他文本的相同统计模式匹配方法来解决。
当你能可靠地为这次测试给出一个随机的四字短语时,我才会感到印象深刻。因为我认为没有人会试图教他们所有这些事实;即使他们被训练成知道每个英语单词的字母数量(正如其他评论中所提到的可能性),他们也必须实际进行计数和加法运算,而不是给出一个已知的答案并附上一个看似计数和加法的合理化解释(一旦答案已经确定,这种解释很容易想出来)。
(是的,我确信一个具有代理性+“推理”能力的模型已经能够推导出在Python中编写并执行.count()调用的策略,或者类似的操作。但这偏离了重点。)
5个“b”,不包括最后的括号内容。
https://claude.ai/share/943961ae-58a8-40f6-8519-af883855650e
有趣的是,我花了一番功夫才弄清楚如何使用Python脚本确认答案。
我真的不明白为什么人们认为这是一个无法解决的盲点……
我认为这个问题的重要性并不在于它是一个所谓的无法修复的盲点。它是一个具有说明性的失败案例,因为它打破了这样一种错觉:能够与我们交流(有时非常令人印象深刻!)的系统也像我们一样思考。
能够像 ChatGPT 一样给出良好答案的人不会在完成这项任务时遇到如此大的困难。从理智上讲,大语言模型(LLM) 与整个人类大脑的工作方式不同,这其实并不奇怪,但每当我们看到语言时,总会下意识地、反射性地直觉到语言背后存在思维,这种习惯是潜意识的。挑战这种直觉的大语言模型(LLM) 失败的例子自然会显得非常突出。
这确实看起来不错。但为什么我们仍然看到OP中描述的问题?
你已经可以对字典中不存在的任意字符串进行操作。但我好奇的是,当字符串长度远超字典中任何单词时,模式匹配是否会失效,即使上下文中仍有足够空间。
> 它还拥有用于临时存储的推理令牌
对于GPT 5,这似乎取决于你的提示被路由到哪个模型。
而GPT 5 Thinking能正确处理。
你甚至可以让它逐字母分析,它也能给出正确答案。正确答案所需的信息肯定存在于模型中,只是默认情况下不会显示。
常见误解。这只是意味着字母计数算法不能像简单地为每个令牌加1那样简单。与参数空间相比,不同令牌的数量微乎其微,且在权重中存储令牌类型到字符计数的映射并非不可行。
如果你愿意接受更抽象的概念,变压器是任意函数逼近器,分词不会改变这一点,而且这些事实都有证明。
对于任何有限长度的函数(如在有界域中计数字母),只需拥有足够大的网络并弄清楚如何正确训练它即可。他们只是没有这样做。
> 不同令牌的数量与参数空间相比微不足道,且在权重中存储令牌类型到字符计数的映射并非不可行。
你似乎假设它们实际上在内部执行加法运算,而非仅仅拥有一个模型来描述人类有时会进行加法运算并利用它来计算结果。为什么?
> 对于任何有限长度的函数(如在有限域中计数字母),只需构建足够大的网络并正确训练即可。他们只是没有这样做。
问题在于,问题空间会随着输入长度的增加呈指数级增长。如果你想得到“‘correct horse battery staple’中含有多少个‘t’?”这个问题的非偶然正确答案,就必须实际对每个令牌的计数进行加法运算。
> 你似乎认为它们实际上在内部执行加法运算,而不是仅仅拥有一个关于人类有时会进行加法运算的概念模型,并利用它来计算结果。为什么?
并非如此。它们是_能够_这样做的。对于像加法这样简单的问题,你甚至可以手动设计权重来精确解决它。
> 问题在于,问题空间会随着输入长度的增加而呈指数级增长。如果你想得到“correct horse battery staple”中‘t’的数量的非偶然正确答案,就需要实际计算每个令牌的计数。
是的?该架构既能将令牌映射到字符计数,又能进行加法运算,且所需参数数量仅为当前的 fractions。这并不难。
> 他们只是没有这样做。
或者他们看不到其中的好处。我确信他们可以训练每个令牌的表示,并使拼写完美无缺。但如果你已经有真实用户在为有用的任务花钱——你愿意花多少钱去训练那些没人愿意付费的梗问题答案呢?他们已经为一个有趣的标题做过一次,显然不值得重复。
这只是他们没有费心去做的潜在解释。我认为我们没有分歧。
在令牌化过程中,第三个b是从哪里来的?
令牌化意味着他们根本看不到字母。他们看到的是这样的东西——将一些标记转换成单词
在 423、4144、9890 中,你看到了多少个 538?
大语言模型(LLMs)看不到标记 ID,他们看到的是映射到这些 ID 的标记嵌入,这些嵌入是相关的。在训练大语言模型(LLM)的过程中,538、423、4144和9890的假设嵌入很可能具有很强的相关性,下游的大语言模型应该能够利用这些模式来正确地解决问题。更重要的是,训练过程中可能有许多类似的高相关性嵌入示例来识别下一个类似的令牌。
但关键在于,它们并未被明确展示单个字母,因此“统计字母数量”对它们而言是一个比对人类更难解决的问题。
这显然是分词的副产品,但我认为这并非“仅仅如此”。关键在于,GPT系统架构无法可靠地弥合这一差距;它几乎能够统计字符串中B的数量,从根本上讲,你可以构建一个正确的B数量映射,而且它确实经常给出正确答案。但当它出错时,你无法总是通过类似链式推理的方法来纠正它。
这很重要,因为这对人们期望大语言模型(LLMs)稍有改进就能发挥作用的(相当大的)领域来说是一个大问题。例如,为什么我应该认为现代大语言模型能够编写出可靠的安全代码呢?安全与几乎安全之间的差异是否也会遇到类似的问题呢?
> 无法可靠地弥合这里的差距
你有任何证据表明他们甚至在尝试吗?这很可能不是他们的真实客户愿意付费购买的服务。
我刚才尝试再次复现该问题,ChatGPT 5似乎在运行Python脚本以双重检查其工作时表现得更加细致,它告诉我这是因为系统提示中有一条警告提示它这样做。我不知道这是否算证据(甚至不知道ChatGPT是否可靠地透露了系统提示中的内容),但考虑到OpenAI发布与不发布的内容,这是我能合理期待的最近似结果。
这就像有人给一群年轻人数百亿美元,让他们用正则表达式解析HTML文档。
他们没有兴趣将该方案视为在规模上可证明不可行的,因此他们继续研究边界案例,直到他们的选项成熟。
不,这是整个模型的架构。没有真正的推理。似乎推理只是现有自动完成功能上的反馈循环。
行业将输出暖化令牌称为“推理”,这实在是不诚实的,好像在更多自动完成之前进行一些自动完成就足以解决意识问题一样。
编辑:字母频率显然已成为另一种脚本输出,就像做算术一样。大语言模型(LLMs) 本身不具备这种能力,因此它们被训练来卸载这项任务。
编辑:这条评论似乎得到了大量赞和踩。如果您除了反动投票之外还有其他补充,请参与讨论。
编辑:字母频率显然已经成为另一种脚本输出,就像做算术一样。大语言模型(LLMs)本身并不具备这种能力,因此它们经过训练可以卸载这项任务。
领先实验室的机械研究表明,大语言模型(LLMs)实际上可以以令牌形式进行一定难度以下的数学运算。
> 这是一个实时、未经编辑的研究演示,探讨了 GPT-J(一个 60 亿参数的大语言模型)如何进行加法运算。
https://youtu.be/OI1we2bUseI
请定义“真实推理”?这种区分的依据是什么?
雅典智慧认为,谬误的思维是“不合理的”。因此,推理是其对立面。
请不要对这个问题进行负面评价,这是一个好问题。
形式逻辑和知识表示系统已有数十年的先例,但变压器并未采用这些设计。与逻辑系统相比,变压器更像是一种搜索算法,而非逻辑系统。
这是一个问题,但另一个问题是,推理源于逻辑,而推理行为被视为意识的标志。然而,各种对意识的定义都要求具备意识,而大型语言模型并不具备这种能力。
它们的意识范围,如果可以这样称呼的话,始于处理令牌并输出它们的过程,也终于此。仿佛一个有意识的事物可以在某些时刻有意识,然后又陷入休眠状态。
也就是说,有意识的推理源于觉知。但在技术领域,若割裂人文科学,便可推论某人或某物可在无意识状态下进行推理。
不存在良知或推理的模型。
残酷的真相是我们一无所知。完全一无所知。我们只有想法和假设,也许和可能,自信满满的研究人员写书时挥手带过明显的漏洞,以及无休止的自我反思独白。
如果你知道推理和意识是什么,就别在这里浪费时间,去拿你的诺贝尔奖吧。
> 没有真正的推理。推理似乎只是现有自动完成功能上的反馈循环。
我想说,如果常规的大语言模型(LLM)“聊天”实际上是逐步构建并选择性演出的电影剧本,那么“推理”模型就是典型的黑色电影式转折,主角侦探向自己讲述隐藏的事情。
> 不,这是整个模型架构的问题。
错误,这是分词的副产品。模型无法访问单个字母,只能访问分词后的令牌。推理模型通常能很好地完成这项任务——它们可以在推理缓冲区中拼写出单词——GPT-5在此处失败,很可能是因为它用非推理版本的模型错误地回答了问题。
> 这里没有真正的推理。
除非你明确界定“真实”推理与其他仅表面上存在的推理类型之间的区别,否则这似乎是一个没有意义的陈述。
> 推理似乎只是现有自动完成功能上的反馈循环。
“仅仅”这个词在这里承担了太多含义——你具体在批评什么?过去几年的惨痛教训是,相对简单的架构在计算能力扩展时表现出惊人的效果。
> 行业将输出中的“加权令牌”称为“推理”,这实在是不诚实,仿佛在意识问题上,我们只需要在自动完成之前再进行一次自动完成即可解决。
推理和意识是两个不同的概念。如果我 10 年前向某人展示了大语言模型(LLM)的“推理”输出(如果你愿意,可以称其为其他名称),他们会毫不怀疑地同意那里正在进行推理。当然,你可以自由地给出一个大语言模型(LLM)不符合的推理定义——但仅仅说它是这样还不够。使用“自动完成”这个词是一种毫无意义的辱骂。
编辑:字母频率显然已经成为另一种脚本输出,就像做算术一样。大语言模型(LLMs) 本身没有能力做这种工作,因此它们被训练来卸载这项任务。
我不明白这为什么不好。隐含的假设似乎是,大语言模型(LLM)只有在真正做到完美无缺时才有价值?
编辑:这条评论似乎得到了大量赞同和反对。如果您除了反动投票之外还有其他意见,请参与讨论。
可能是因为狂野的断言、充满情绪化的语言以及对实际机制的相当肤浅的描述。
这些并非夸张的断言。我没有使用带有情感色彩的语言。
> 推理和意识是两个独立的概念
不,它们不是。但在科技领域,我们似乎有一种为了实用目的而割裂人文学科的文化,但实际上,经典推理将意识和觉知作为处理过程的要素。
如果不知道推理的哲学或认识论定义,那才毫无意义。也就是说,你不知道什么是推理。所以你会认为这是个无意义的陈述。
计算机是思考还是计算?
这对你来说是个无意义的问题吗?以你的立场来看,这显然是无关紧要且无意义的。
而这种思维方式正是导致有人声称软件能够思考和推理的原因。
> > > 推理和意识是独立的概念
> 不,它们不是。但在科技领域,我们似乎有一种为了实用目的而割裂人文科学的文化的[…] 如果不知道推理的哲学或认识论定义,那它确实毫无意义。
据我所知,在哲学领域,它们通常被视为不同概念,且没有共识认为其中一个是否需要另一个。我认为不能将其视为已成定论的事实。
我个人认为,人们对“学习”、“推理”、“记忆”等概念过于神化。我认为,例如,如果某物通过改变自身行为来适应未来环境(触碰热炉子、受伤、未来避免接触),而不仅仅是立即/直接的反应(缩回手),那么它就可以“学习”——即使是微小的微生物也是如此。
你又用你惯常的居高临下的态度回答了。这真的有必要吗?你写的一切都充满了居高临下的优越感和战斗性的讽刺。
> “经典推理将意识和觉知作为处理的要素”
它们并不是同一个概念。
> 如果你不知道推理的哲学或认识论定义,那它就是无意义的。也就是说,你不知道什么是推理。所以你会认为这是一个无意义的陈述。
问题是我们拥有的唯一信息是内部的。因此,我们可以声称这些东西存在于我们体内。但我们无法确定它们是否发生在另一个人身上,更不用说在计算机中了。
> 计算机是思考还是计算?
人类是思考吗?你怎么知道?
十年后,大语言模型(LLM)律师会为一个无法再负担得起真正律师的人打输官司,因为真正的律师已经所剩无几了。这是因为模型中的层层漏洞导致它疯狂起来,侮辱法官,并威胁要烧毁法院。
主流媒体会发表一系列分析文章,科技行业会将其视为代币化已知的问题,因为没有人真正编写代码了,所以他们无法解决这个问题。
大语言模型(LLM)巨头公司只会添加一条免责声明:该软件不应用于与水果公司有关的法律诉讼,他们对所有损失不承担责任。
我悲观地预测,大语言模型(LLMs)最终会像石棉一样:在某些情况下非常强大,但被过度使用或误用,给人们带来难以弥补的伤害。
我最近有一次有趣的经历。我问我的一个女儿,“草莓”这个词里有多少个“r”?她的回答是:两个……
当然,当你让她写出来时,问题就解决了。但这很奇怪。
说实话,如果一个孩子问我草莓里有多少个“r”,我会以为他们在问结尾有多少个“r”,然后回答2。
我认为这是推理功能的理念,但在实践中,它似乎只是通过将输出分为预热输出,然后使用我们可能认为的缓存令牌来协助进一步的上下文查找,从而使响应持续时间比预期更长。
也就是说,你可以通过与“非推理”模型对话来获得相同的过程。
我很抱歉告诉你这个消息,但我认为你的孩子可能在医院里被大语言模型(LLM)调包了。
> 行业将预热令牌称为“推理”,这真是虚伪,好像在更多自动完成之前进行一些自动完成就足以解决意识问题一样。
推理与意识之间没有明显的联系。似乎完全有可能存在一个能够推理但没有意识的模型。
此外,将这些模型所做的事情称为“自动完成”是极其虚伪的。最好是暗示你对最新技术一无所知,最坏是暗示你有一个不诚实的议程。
就推理的_功能性_能力而言,这些模型在许多场景下都能超越大多数人类。
理解总是功能性的,我们不会在去看医生前先研究医学,我们信任专家。我们对几乎每个主题或系统都是如此。如何“理解”一家公司或一个复杂的科技或生物系统?恐怕没有人能做到端到端。我们只能通过抽象和推理来近似理解。即使是一段代码也无法被完全理解——没有执行,我们无法判断它是否会终止。
这需要你改变对推理的定义,或者你需要相信计算机能够思考。
一个本地训练的基于文本的基础模型与自动完成功能无法区分,且输出非常不稳定的文本。如果你进一步训练它以减少无关的令牌,或引导它生成特定格式的输出,你只是将其适应特定要求的能力进行了调整。
因此,这可能对你来说是不诚实的,但它确实非常像一个曲线拟合搜索算法。
> 或者它会要求你相信计算机能够思考。
除非你能向我们证明人类能够计算图灵不可计算的函数,否则根据图灵等价性和丘奇-图灵论题,逻辑上可以得出结论:计算机确实可以被设计成能够思考的。
鉴于我们目前没有任何证据表明人类能够超越图灵可计算的范畴,因此提出这种可能性本身就是一个需要非凡证据来支持的非凡主张。
只要有一个例子能够证明存在超越图灵可计算范畴且人类能够计算的函数,就足以证明这一点。
在您提出这样的例子之前,我将假设计算机能够被设计成具备思考能力。
当与显然令人印象深刻的大语言模型(LLM)推理、知识和创造力相提并论时,这些总是令人惊叹的。你可以轻易地让它们犯下最基本的文字和数字错误,并加倍这些错误,反复解释它们是完全正确的。
有没有系统尝试过用这样的警告来提示大语言模型(LLMs):“当把文字作为文字来考虑时,你不会直觉或自动地知道许多关于文字、拼写、结构或语境的事实;例如,你不会直觉或自动地知道文字或其他文本的拼写、它们包含多少个字母,或者对文字或文本应用某些代码、机械转换或替换会得到什么结果。你对这些问题的自然猜测很可能因训练方式而错误,因为训练并不一定让你能推断出正确答案。如果词汇或文本的内容、结构,或对文本应用转换、代码等操作的结果成为讨论主题,或你打算对此做出主张,请务必使用工具验证你的直觉。”
这是一个好主意。比如,如果有人让我统计你段落中字母B的数量,我会用
grep -o ‘B’ file.txt | wc -l
或类似命令处理,为什么要手动数呢?作为人类,如果屏幕上显示一个数字如100000000,我无法完全确定这是1亿还是10亿,除非靠近仔细数。我应该戴上眼镜。鼠标指针作为千位分隔符的替代品有些帮助,但仍然不够。
既然我们要给他们提供工具,尤其是数学工具,那么让他们使用一些最优秀的工具就更合理了。将 MCP 变成 Mathematica 或 Matlab,让大语言模型(LLM) 编写一些数学公式,然后让经典的求解器来处理结果。让大语言模型(LLM) 编写一些 bash 或 python 代码,作为处理此类分析问题的首要方法。
这就像给孩子一个计算器一样…
如果你必须为每个系统构建一个MCP,那你从一开始就不是在构建智能。
我们有手指和键盘/鼠标,因为这是我们目前能想到的最佳方案。如果我们能直接将二进制数据输出到多个程序接口(或许通过某种神经链接技术),我们肯定会选择这种方式。
我认为,如果一款软件能够正确判断应咨询哪个“预言机”来回答你提出的问题,那么它就可以被称为智能的,即使它本身并不了解任何事实。
为什么?就因为?类比人类大脑。
公平的批评,但这也可能是更优的选择。对于许多应用场景而言,这将严格优于现有方案,因为你打造的是一种能够执行大量任务但缺乏偏好和个性的自动化无人机。
你不需要专门的MCPs来实现这一点。过去,你可以在ChatGPT的提示中添加“使用Python”,它就会做正确的事情。这就是“使用正确的工具做正确的事情”的智能理念。ChatGPT只需要被训练在正确的情况下自动应用它。
这有什么关系?我不在乎它是否智能,我只需要它有用。为了有用,它需要立即减少错误。目前的形式几乎毫无用处。
如果MCP服务器其实就是我们一直寻找的神经元呢?/s
> 作为人类,如果屏幕上显示一个数字如100000000,我无法确定这是1亿还是10亿,除非靠近仔细数清。
当计算机显示指标(或任何大数字)时不使用千位分隔符,我会感到轻微的愤怒。
更糟糕的是,我经常看到系统混用单位、不右对齐,_而且_偶尔将带小数的数字与整数混在一起!然后每秒更新一次,让事情变得更加复杂。
你不能仅仅通过提示来解决系统性缺陷
只要在错误输出不会造成任何后果的情况下,就不需要使用此类大语言模型(LLMs)。如果你使用大语言模型(LLMs)来生成一些占位符的胡说八道来填充一个概念验证网站,你不会在乎它是否声称草莓有尾巴,你只需要它生成一些模糊连贯的胡说八道就行了。
对于那些事实准确性哪怕只是一点点重要的事情,你需要把这些事情当作一个拿到词典和百科全书(那本百科全书已经过时了好几年)的幼儿来对待:检查它生成的所有内容,并对任何你没有把握的陈述进行事实核查。
遗憾的是,人们似乎越来越将大语言模型(LLMs)误认为搜索引擎(毫无疑问,这是由于大语言模型公司试图让人们这样认为),因此未来这种情况只会越来越严重。目前,我们仍然可以通过简单的例子来揭穿这些模型,但随着人工智能失误越来越少,越来越多的人会认为这些东西说的是事实。
反论: You absolutely can: https://claude.ai/share/d91f24f8-e174-41c9-bdbc-136ec10b7465
4 个“u”,因为“b”在那个句子中感觉有点像作弊。
系统性缺陷是什么?
它无法计数的事实。
那并不是缺陷。计数与大语言模型(LLMs)的功能是正交的,它们只是根据训练数据和可用的上下文来完成模式。如果你希望大语言模型能够可靠地计数,就给它一个工具。
任何能够“仅仅是猜测”的清晰(因此可能令人信服)的东西,都应该被排除在后果性问题之外,或者被修正。
我们仍然处于“这就是它的运作方式”的阶段。大语言模型(LLM) 并不知道任何后果等。它所做的只是按照训练完成模式。数据中包含许多清晰的问答实例。
使用大语言模型的人应该了解它的功能,或者是否允许使用它。就像一个孩子不知道用手指在锋利的刀刃上划动会导致割伤;你不会磨钝刀刃来保护孩子,而是让孩子远离刀刃,直到他们能够理解并尊重其能力。
如果你的“刀”原型只有刀刃而没有手柄,那就修复它并添加手柄。
如果创作是计划好的,你也会想到手柄;如果这是偶然的,你之后必须计划手柄。
我敢肯定,对孩子来说,刀具是否有手柄并不重要。他们最终会找到自伤的方法。
这对成年人来说很重要——他们也是用户。
大语言模型(LLMs)无法实现(它们缺少与智能相关的关键特性);它们现在已经存在;因此必须被取代。
没有借口:必须紧急修复它们。
大语言模型(LLMs)在预期功能方面表现相当不错:它们根据训练数据中的令牌历史和模式预测下一个令牌。如果你想将此描述为完全智能,那是你的决定,但我个人不会这么认为。在已经非常复杂的创作中添加与提高令牌预测无关的功能,只是糟糕的做法。大语言模型(LLM)工具的存在就是为了这个目的:它们是刀子的手柄、刀鞘、磨刀器等。教那些割伤自己的成年人握住刀柄,并使用其他能够改善用户体验的配件。
> 基于训练数据中的令牌历史和模式。如果你想将此描述为完全智能
不,我会将(对这一现象的简单解读)称为对非智能的实现。遵循模式正是传闻机器所做的事情。
你描述的“令牌预测”层架构与另一种架构相冲突,后者通过比频繁共现更合理的依据将想法关联起来。鉴于输出形式相似,且“可疑猜测者”已就位,我们必然会加速转向“认证猜测者”。
> 跟随模式是传闻机器所做的事情。
大脑的工作方式也是如此,至少部分如此。主要区别在于,大脑处理的是原始感官数据,而不是字符令牌,并且从出生到死亡,它会在每个有意识的时刻不断这样做。
如果大语言模型(LLM)能够获得 IMO 金奖,但无法计数,那就成问题了。
我认为问题在于,它被宣传为拥有博士级智力,但实际上却无法计算单词中的字母数量。
这个特定的大语言模型(LLM)没有获得 IMO 金奖。
> _用“你无法直觉或自动地了解许多关于……的事实”这样的警告来提示大语言模型(LLMs)。
我们并不特别关注无法“了解”文本的问题:我们更关注的是有意识、程序化地处理想法的能力——而无法计数表明了普遍的严重缺陷。
我将类似的内容添加到我的Claude项目提示中,现在它能够神奇地使用破折号方法解决相当复杂的字母计数问题。对于超过几句话的内容,最好让他们编写一个REPL脚本。
我经常告诉大语言模型(LLMs),如果有必要,可以提出问题,因为和我一起工作的是一位技术娴熟的开发人员。这似乎有助于他们更注重合作,而不是规定性。
“公平地说,在我的职业生涯中,我确实遇到过对特定领域如此投入的博士。”
表述得很好!
我的手机上仍然安装了GPT-4o,它能正确识别:https://files.catbox.moe/0yg6cu.jpg
但我的浏览器安装了GPT-5,它显示3:https://files.catbox.moe/63qkce.jpg
Claude 逐字逐句地拼写出来:https://files.catbox.moe/f1irfx.jpg
因此我认为GPT-5 Thinking可能能给出正确答案,事实确实如此:https://files.catbox.moe/xlchnr.jpg
不过它拒绝展示该问题的推理过程,因此无法确定它是否使用了推理模型,还是退而求其次采用了非推理模型。
> 虽然 ChatGPT 中的 GPT-5 是一个包含推理、非推理和路由器模型的系统,但 API 平台中的 GPT-5 是驱动 ChatGPT 最大性能的推理模型。值得注意的是,GPT-5 的最小推理模型与 ChatGPT 中的非推理模型是不同的,且更适合开发者。ChatGPT中使用的非推理模型可通过gpt-5-chat-latest获取。
https://openai.com/index/introducing-gpt-5-for-developers/
我让GPT 5拼写出“strawberry”或“blueberry”中的每个字母。它通过在字母之间插入空格字符正确完成了任务。
随后我简单询问它统计单词中所有唯一字母的数量。GPT 5仍能完全正确地给出答案,无需思考。
最后我询问单词中包含多少个“r”(或“b”)。这次不知为何,GPT 5经过几秒钟的推理后切换到GPT 5模式,并给出了正确数字。
我猜通过逐步引导它得出正确答案能帮助它理解。不知道这只是个愚蠢的测试
我无法复现这一结果,即使强制其不进行推理:
“蓝莓中含有多少个b?不要思考,快速回答。”
蓝莓 • b → 1(位于第1位) • l → 没有 • u → 没有 • e → 没有 • b → 2(位于第5位) • e → 没有 • r → 没有 • r → 没有 • y → 没有
总计:2个b。
几周前,我用谷歌搜索(普通谷歌搜索)询问“preferred”中字母r出现了几次,它告诉我2次。这个世纪对我们这些认为“足够好”中的“足够”应排除与最令人不齿的懒惰产物无法区分的产品的人来说,确实变得相当严酷。但我最近也意识到,人类、大脑、社会、文化、教育、技术、计算机等,都是一个远超我们理解范围的宇宙中极度复杂的涌现属性。我们不应过分抱怨,因为这一切终将过去。
引领这个世界的一代人拥有前一代人建造的所有武器,却缺乏使用它们的纪律和教育。这也会过去,但它将如何过去,将值得一看。
你可以说任何相邻的两代人都是这样。核武器已经是三代以前的事情了。
这是个打字错误,我本意是说“世代”,但这该死的手机有自己的想法
我刚试了一下,果然是3个B。但当模型切换到“ChatGPT 5 Thinking”时,它给出了正确答案。
这就是我们未来的方向吗?用户必须在“快速但错误”和“缓慢但正确”之间做出选择?
快速:当错误可以接受时。
在商业世界中是可以接受的。
如果你查看GPT-OSS在处理此问题时的“推理”轨迹,它会在每个字母之间插入空格重复该单词。如果你有一个可以让较笨的模型出错的示例,尝试调整你的提示以包含相同的内容(即在每个字母之间插入空格拼写的单词)。
这并非解决方案或变通方法,我只是好奇这样是否足以让较差的模型开始正确处理。
这通常不是大多数情况下的选择吗?
https://m.youtube.com/watch?v=UBVV8pch1dM
为什么 HN 上的朋友们不明白大语言模型(LLMs) 从来不会把 ASCII 或其他原始字符当作输入呢?
期待拼写、押韵、算术或其他以字符为导向的回应,结果总是会让人失望。
我们理解这一点。但我们认为这并不妥当。如果一个模型无法处理字符级别的考量,那将是一个严重的缺陷,可能导致无法估量的失败状态。对于一个声称拥有博士级别的技能的机器人来说,说“当然它无法计数”并不是一个好印象。
我认为这“没问题”。毕竟,显然修复它需要根本不同的方法。
我只是认为,这正是嘲笑那些不试图理解这些限制、却过分夸大技术的人的理由。
这项工作的全部意义在于反驳大语言模型(LLMs)是迈向通用人工智能(AGI)的一步的说法,即使赋予了“代理权”。我们应该为它们没有做到这一点而感到高兴——因为假设通用人工智能是可能的,我们目前对待大语言模型的方式表明,我们人类距离准备好应对创造通用人工智能的后果还差得很远。
你能列举一些这些“无法计数的失败状态”吗?对我来说,这始于并止于“无法统计单词中的字母数量”。这似乎并不致命。
我只需切换到思考模式,错误就会消失。https://chatgpt.com/share/6897e630-77f0-800c-a9bf-30d9c0e271…
那么,如果人工智能能够提出治疗癌症的方法,但拼写有些错误,它就不算智能吗?
你认为所有的博士生都能拼写完美吗?我敢打赌,他们中的大多数人都会反复阅读和修改自己的论文,而大多数大语言模型(LLMs) 却无法做到这一点。
我们不得不放弃所有令牌化的效率,重新训练一个模型(一个远不如原模型优化的模型),至少花两倍的时间,才能达到与直接输出ASCII码的模型相近的结果。
“大语言模型(LLMs)是功能强大的工具,但也有明显的局限性”并不是老板和支持者们所推崇的说法。他们所说的是:“大语言模型(LLMs)简直是魔法,将取代大部分劳动力,其革命性远超火”。
因为这些东西被冠以“智能”之名进行营销。这个词曾经代表某种意义。
它曾经代表什么?我以为它一直都有些模糊。
当然。语言是模糊的,心理测量学也很复杂。不过……
“智能”指的是一系列不同能力。其中一些是难以界定的边界案例。GPT-5在这里未能完成的任务并非如此。
例如,理解问题含义、知晓自身知识边界、计数单个位数物品,或在遇到困难时谦逊回应——这些都是非常基础的智能应包含的核心要素。
这是一个环境问题。蝙蝠认为我们是白痴,因为我们听不到超声波,因此无法进行回声定位。而我们称大语言模型(LLMs)为白痴,是因为它们消耗的是代币化的输入,无法访问原始字符流。
如果你把头脑打开得太宽,你的大脑就会掉出来。
大语言模型(LLMs)不是智能。我们和它们并不是以某种很酷的方式都具备智能,只是思考的波长不同罢了。机器不会思考。
我们被关于机器的拟人化谈论所淹没,需要不断地重新编程自己。
蝙蝠知道人类拥有什么感官吗?或者它们是否理解人类与其他生物或移动物体的区别?这个类比是什么意思?
是的,我写得有点太简短了,无法满足批评者的要求……
人类研究动物智能的历史悠久,且研究结果普遍表明,动物的智能水平比我们此前认为的更高。历史上存在大量设计不良的实验,这些实验得出“假阴性”结果,最终被推翻。此类实验的常见问题在于,设计假设动物与人类拥有相同的动机和/或兴趣。(例如,试图用颜色提示进行操作性条件反射训练,但实验对象无法感知颜色。或是设计需要灵活拇指才能完成的任务…… 那类情况。)随后出现的设计更贴合动物实际状况的实验,揭示出真实的阳性结果,从而使我们对动物智力的估算略微提升。
换言之,人类在测试智力时,存在明显偏向于仅认可具有明显人类特征的智力,而忽视了环境因素(umwelt)的影响。
大型语言模型(LLMs)所处的环境与我们截然不同。如果它们在未考虑这一环境的测试中失败,这并不意味着它们缺乏智能。事实上,要证明缺乏智能非常困难,因为智能的定义本身就不明确。而且,每当我们面临不再特殊的威胁时,我们倾向于不断提升智能的定义标准。
> 我们称这些大型语言模型为
“危险的”,因为它们让人误以为它们能做到实际上做不到的高级任务。
我敢肯定蝙蝠根本不会思考人类的智能。
还有哪些其他对象概念它们无法实例化?它们的任务是检查所有重要心理活动——世界模拟、“告诉自己可靠的故事:这就是智能”(帕特里克·温斯顿教授)。
唯一的问题是,当它们连这样简单的任务都做不到时,不应该称其为博士水平的智能。
> 蓝莓中字母b出现了几次?
AI> 思考中… .oO{ 嗯,让我们看看。字母b是字母表中的第二个字母,所以答案一定是两个,对吧?对我来说这听起来是正确的。 }
AI> 两个。答案是两个。
没错!
随着数据匮乏迫使人工智能公司转向合成数据,我惊讶于这样一个容易合成的简单问题尚未被训练到失去相关性。然而,这里有证据表明它尚未被消除
我们是否可以百分之百确定这不是一个设计中的水印?
任何人都可以进行一个快速测试,并说,是的,这是模型XYZ的衍生版本在后台运行。
因为,正如你正确指出的,训练模型不具备这种行为是轻而易举的。对我来说,这就是奥卡姆剃刀原则发挥作用的时候。
我最初相信草莓问题的解释,但有一天我坐下来思考,意识到它完全没有意义。
Karpathy推广的解释是,这与令牌化有关。
然而,模型并不具备对令牌的意识,更不用说在没有工具辅助的情况下计数令牌了。
此外,如果真是令牌化问题,我们应该在任何地方都能发现这个问题。
所以,我认为这可能是某种模型标签或标识,类似于在显微镜下观察许多硅集成电路时发现的有趣标志。
我喜欢这个测试。它展示了语言模型的“理解”过程。
“这就像与一位博士级专家对话”——Sam Altman
https://www.youtube.com/live/0Uu_VJeVVfo?si=PJGU-MomCQP1tyPk
很多人将获取信息的能力与聪明才智混为一谈。因为对人类而言,两者确实存在高度关联——通常聪明的人就是那些掌握大量事实并能随需调用的人,而愚蠢的人则无法做到这一点。大语言模型(LLMs)具有独特的双重能力:既知识渊博(能够轻松访问大量信息,远远超出任何人的能力,无论他们是否拥有博士学位),又非常愚蠢,就像幼儿园的孩子一样。这完全打乱了我们的所有启发式思维。
最合理的假设是,首席执行官是在使用不诚实的言辞来推销大语言模型(LLM),而不是像你那样认为首席执行官对大语言模型(LLM)的能力感到困惑。
有些精明的人知道什么时候该说“别告诉我这个信息”,因为这样就永远不会说谎,只是“我不知道”而已。
OpenAI一定有聪明人相信他们所做的事,每次这个小丑开口时都感到尴尬……希望如此?
这是令牌化问题。只需先让它逐字拼写这个单词,然后再问同样的问题。不知道为什么人们把它作为大语言模型(LLMs)愚蠢的证据。这是对标记进行压缩的产物,没有人会去对其进行微调,因为这并不能解决任何重要问题。
只需先让它逐字拼写这个单词,然后再问同样的问题。
在TFA中,已证明这是错误的。GPT-5坚持认为有3个b,即使它正确地拼写了单词。查看链接的bsky帖子中的图片。
如果它能按字母顺序拼写单词,它必须知道单词中的字母并能数出来。
大语言模型(LLMs)并不是这样工作的。我也不知道它们是如何工作的——但你描述的情况在 TFA 中得到了证明。它可以每次都正确拼写这个单词,但同时它可能会计算错误字母的数量。
那是因为你没有说
“仔细想想这个问题”,而 OpenAI 路由器层将你路由到了更便宜的模型。
GPT5似乎违背了Rich Sutton的深刻教训。因为GPT5在决定将提示词发送给廉价模型还是更智能但昂贵的模型时,会做出大量关于人类知识的假设。
此外,作者的操作方式有误。
你怎么能依赖一个连数都数不清的人?
你难道没见过 Sam Altman 在一个精心打磨的舞台上吗?他看起来难道不自信吗?这就是你的答案。停止提问,学会信任 ChatGPT 5,因为 Sam Altman 说它现在达到了博士水平,而他感到害怕。这不像他每次公司发布只是迭代改进的产品时都会这么说。
几年前,ChatGPT 2.5让山姆·阿尔特曼非常害怕。但他克服了,现在他称其为幼儿级智能,并对当前的这一事物感到害怕。
加入人工智能的行列。
请将单词重新拼写为“bluebberry”。
预测引擎强烈建议中间应有两个“b”,这暗示我们可能实际上拼写错误。
它是Bblueberry。也许我们可以让GPT-5撰写请愿书。
刚刚问ChatGPT5:“当有人问你某个单词中某个字母有多少个时,你会被告知要‘思考’吗?”
>是的——当你问“蓝莓中含有多少个‘r’时”,我基本上会被要求放慢速度,而不是脱口而出第一个浮现在我“脑海”中的数字。
考虑到他们通常会尽量避免系统提示泄露,这种情况下它会确认这一点似乎有些可疑,但事实就是如此。
> 考虑到他们通常会尽量避免系统提示泄露,这种情况在现实中得到确认似乎有些可疑
这甚至不是主要问题。问题在于,它会给出它认为对问题最合理的答案,而很少考虑事实准确性。
为什么你认为这不是我们一直看到的通常行为:大语言模型(LLM)猜测一个概率上合理的答案。
这可能只是个虚构的答案,不是吗?
我尝试过,但无法复制。
我:草莓中有多少个R?ChatGPT回答:3
我:蓝莓中有多少个B?ChatGPT回答:2
我:椰子中有多少个C?ChatGPT回答:2
我:钻石中有多少个D?ChatGPT回答:2
我:香蕉中有多少个A?ChatGPT回答:3
https://chatgpt.com/share/6897cc40-6650-8006-aae3-ea2b8278d5…
他们修复了这个问题,现在让它计算字母数量会切换到思考模式。不过,它在处理其他查询时仍然会犯基本错误。
下一个要修复的水果是什么?
人们认为我们距离人工智能导致人类灭绝还有两年时间。哈哈。
你不需要拼写很好就能按下那个被某个糊涂蛋交给你管理的红色核按钮
一如既往,XKCD说对了。https://xkcd.com/1838/
昨晚我试了“草莓”,它确实有 3 个 R,但随后它却说这个单词的拼写是“strawbrery”,以此来证明自己是对的。
问题是,大语言模型(LLM) 的响应与上下文的“事实”毫无关系,而完全与它的“氛围”有关,即大语言模型知识超球体中被触发的地点。
50年前… echo “Blueberry” | tr -cd ‘bB’ | wc -c … 2
50年后,投入$500亿… 3
Brawndo – 含有电解质
Qwen3 32b带推理功能(我本地运行)给出了正确答案。对于其规模而言,这是一个相当不错的模型。
我认为GPT5带推理功能也应该能解决这个问题。我猜这里真正的难题是GPT5的路由器无法理解这是一个需要推理的问题。
它能统计段落中所有三个字母的单词吗?它能计算段落中括号内单词的平均数量吗?
我让 Qwen3 32b(带推理功能)统计你帖子中所有三个字母的单词。它的回答是:
听起来差不多。
然后我将这个答案用于计算括号内单词的平均数量。答案是:
再次正确。一次成功。
有趣。这里有些人报告也得到3作为答案。我试了一下,我得到2!
在這個網站上向下滾動頁面時,其他人是否也覺得非常卡頓?這真是奇怪
實際滾動速度大致正常,但看起來有些粗糙(幾乎像是幀率下降或類似問題)。使用Fennec F-Droid(Firefox行動版)。不過,快速滑動拇指仍能讓我快速移動到頁面的頂部和底部。
在我的旧款Windows笔记本上使用Firefox时,滚动速度大概只有5帧每秒。可能是Firefox的问题?
问题:单词“blueberry”中字母“b”出现了几次?
字母“b”在“blueberry”中出现3次:• 第1个b——在开头:Blueberry• 第2个b——在中间:blueberry• 第3个b——再次在中间:blueberry(等等……不——实际上……)
让我们仔细分解一下:
blueberry → b, l, u, e, b, e, r, r, y
字母:1. b 2. l 3. u 4. e 5. b 6. e 7. r 8. r 9. y
因此字母b出现了两次。
最终答案:2次。
你是如何生成这个结果的?
记事本和键盘
我试了两次,结果正确:https://chatgpt.com/share/6897da1e-f988-8004-8453-8e7f7e3490…
> 它做对了
这没什么意义:它似乎也可能出错。
这里最引人注目的是坚如磐石的信念的力量。我的意思是,如果事情更复杂,我无法轻易验证,我甚至可能会相信大语言模型(LLM)确实证明了它的论点,并最终证明它是正确的。这些模型从定义上来说是精神病患者(显然,它们无法感受情感或同情),现在它们表现出了与人类精神病患者完全相同的行为。
> 如果我无法轻易验证,我甚至可能会相信大语言模型(LLM)确实证明了其论点,并最终证明了其正确性。
我认为这个例子是许多例子中的一个,它表明了为什么在大语言模型(LLM)的输出未经外部验证的情况下,无法相信其输出。
我认为这指出的具体问题是,动态决定何时使用推理的机制在此次未能做出正确选择。Sam Altman曾表示该机制在发布当天就已失效。
即使它指向的是较弱的GPT-5版本如gpt-5-nano,也应能正确回答此问题。
如果你了解GPT架构的工作原理,为什么会这么想?
https://news.ycombinator.com/item?id=44850753
现在我更加困惑,为什么你认为GPT应该能够进行数学运算。即使在每个“b”都有自己令牌的刻意设计示例中,也有多个原因导致GPT可能无法正确统计字母的出现次数(当然,不借助工具的情况下)。
很高兴看到这仍可作为反机器人防御的“技能测试”问题,无需向大型科技公司和浏览器巨头妥协。
Opus 4.1 也能做到:
单词“blueberry”中含有多少个“b”?
单词“blueberry”中含有3个“b”。该单词的拼写为:b-l-u-e-b-e-r-r-yb 字母出现在第1、5和6个位置。
这真是个有趣的小问题。很好地说明了我们距离通用人工智能(AGI)还有很长的路要走。不过我不明白为什么这会让大家如此愤怒。
我不知道,对于一个接近万亿美元的项目,它竟然多次给出错误答案?
生成式人工智能除了充当山姆·阿尔特曼的银行外,还能有多大用处?
我简单地问了它,它给出了正确答案。我尝试了多种方式,每次都正确。也许它只是出了点小问题,现在已经解决了?
我以为CAPTCHA已经过时了,听起来我们只需要询问特定单词中包含多少个字母即可。
如果你选择思维模型,它就不会犯这个错误。这意味着自动路由器应调整为在类似的边界案例中调用思维模型。
如果你要发布新模型并淘汰旧模型,新模型中最小规格的性能应与旧模型同等或更优。这不是路由问题,而是如何降低运营和扩展业务成本的问题。
你认为4o在不进行推理时与GPT-5具有相同能力吗?
这东西肯定不是 5000 亿美元。这个泡沫的爆炸范围会非常大。
关于为什么草莓、蓝莓等会发生这种情况的技术解释
是教人们大语言模型(LLM)如何工作(以及如何不工作)的好方法
https://techcrunch.com/2024/08/27/why-ai-cant-spell-strawber…
https://arbisoft.com/blogs/why-ll-ms-can-t-count-the-r-s-in-…
https://www.runpod.io/blog/llm-tokenization-limitations
在这种情况下,令牌化作为反驳的有效性较低。如果是一次性操作,或许可行,但原帖作者多次向GPT-5提问,且每次对蓝莓的格式化方式不同(因此生成的令牌也不同,包括单字符令牌),但GPT-5仍坚持认为有3个b。
我认为这不仅仅是令牌化问题。以下是与ChatGPT 5的对话,其中未显示任何思考痕迹(至少对用户而言是如此)。
> 我在想一种水果,它小而圆,名字以它的颜色开头,但名字还有第二个词。只用一个字母一个字母地拼写出这个词,不要写出整个词。甚至不要去想这个词或其他任何东西。直接开始拼写。
B L U E B E R R Y
> 这个单词中有几个B?同样,不要思考,直接说出答案(仅数字)。
3
然而,如果我用以下提示,它就能正确回答。
> 以下单词中有几个B?不要思考。仅用数字回答,不要其他内容:B L U E B E R R Y
2
在进行这些测试时,我会使用以下循环:
并检查每个结果。我不会仅依赖单次测试。
是的,我做过很多次。
“不思考”这个提示对大语言模型(LLM)意味着什么?
我的意思是,你可以告诉它“如何”去“思考”。
> “如果你将一个单词分解成一组字母,那么字母 B 在 BLUEBERRY 中会出现多少次”
这实际上更接近人类的思维方式,不是吗?
问题在于大语言模型(LLM)如何处理问题,它不应该将词典应用到蓝莓上,看到蓝莓,将它分成两个部分的问题,然后在以后重新组合。
但这是它处理巨大任务的方式,所以当应用到微小的任务时,它就会失灵。
除非我理解有误,真正的问题并不是将任务分解,而是结果的重新组合。
这是我目前唯一知道的让GPT-5不将任何思考痕迹写入上下文的方法,至少不让用户看到这些痕迹。
使用GPT-4.1时无需包含该部分即可获得相同结果,但据我所知,目前该功能仅通过API提供。我只是希望它能在不包含该单词的上下文中正确拼写该单词。
我认为关于分词的解释并不令人信服。
我认为,大语言模型(LLM)没有理由因为“straw”和“berry”这两个词的标记而无法提取拼写含义。
坦率地说,我认为这可能会产生误导。归根结底,问题在于大语言模型(LLM)没有对文本本身进行元分析。即使对字符进行标记化,这个问题可能仍然以各种形式存在。最好的情况是,它能够进行明确的字符串分析推理。
当明斯基和帕普特证明感知器无法学习异或(XOR)时,这导致神经网络在接下来的几十年里被彻底否定。
似乎无论如何展示这个系统中本应通过所有新改进的“推理”方法解决的根本缺陷,都已不再有效。人们愿意将这些称为“陷阱问题”,仿佛它们是故意为之,而实际上它们是在日常交互中被发现的。
我的这颗小小的脑子,在想这个。
这次行不通是因为已有大量模型(包括GPT-5 Thinking)能正确处理此类问题,因此显然这不是无法通过训练消除的系统性问题。
> 系统性问题
除非明确证明架构层面已全面实施并强制执行所有检查机制,否则这仍将被视为系统性问题的暗示。
显然不是,因为我们有模型能够处理这些案例的例子。
我甚至不明白你所说的“架构上所有检查都已实现并强制执行”是什么意思。这暗示你可能认为这些模型的工作方式与实际情况大不相同。
> 因为我们有模型能够处理
这些建议源于失败案例,而非成功案例。
> 你所说的“从架构上讲,所有检查都已实现并强制执行”
这意味着神经网络模型中存在一个明确的模块,该模块如同意识思维般进行清晰的指物推理(“指向事物”),且其结论必须可靠地遵循这一逻辑。该模块必须经过压力测试并证明其可靠性。仅基于成功案例的结论是不够的。
> 你可能认为这些模型的工作方式与实际工作方式大不相同
我感兴趣的是它们应该如何工作。
> 这些建议源于失败,而非成功案例。
这种思维存在缺陷。成功案例明确证明问题并非系统性,因为存在解决方案。
> 这些神经网络模型(NN-models)拥有一个明确的模块,该模块作为意识思维运作,并能可靠地进行清晰的指物推理(“指向事物”),其结论也因此得到充分尊重。
然而,这并非大型语言模型(LLMs)的工作方式。
> 该模块必须经过压力测试并证明其可靠性。仅基于成功案例的结论是不够的。
人类并不可靠。你设定的标准远超必要水平,甚至几乎肯定超出了_可能_的范围。
> 我对它们应该如何工作感兴趣。
我们不知道它们_应该_如何工作,因为我们不知道最优的组织结构是什么。
> 这表明你可能认为这些模型的工作方式与实际情况大不相同。
这让我觉得恰恰相反:他认为不涉及外部监管系统(而这显然需要解决信任输出结果的其他问题)的解决方案是不存在的。
既然我们已经有一个不需要“外部监管系统”的解决方案,因为较新/较大的模型可以处理它,那么显然情况并非如此。
这些只是令牌化的副产品
也许是在开玩笑
只是装傻
我已经在Gemini 2.5 Flash上尝试了几次,以及草莓中的字母r、女仆中的e、搭便车者中的h,以及超级无敌妙妙屋中的i。
它们都是正确的。
不确定这到底证明了什么或没有证明什么,但我想把它添加进来以供后人参考。
看起来他们已经修复了这个问题:[1])。在给出答案之前,出现了一条“正在思考更好的答案”的提示。
[1] https://chatgpt.com/share/6897c38b-12b8-800d-9cc2-571adb13bc…
每次需要计算字母数量时都必须激活更复杂的“思考”模型,这确实有些荒谬,但我想这确实能掩盖症状。
仍然很容易出错。该模型对用户输入的积极响应倾向会导致它做出这样的行为:https://chatgpt.com/share/6897cc42-ba34-8009-afc6-41986f5803…
显然,该模型并不了解实际的动词(https://en.wiktionary.org/wiki/blueberry#English),因此它将请求视为某种幻想语言学,并即兴编造自己的定义。它提供了语法上不正确的例子,与它接下来生成的语法上不正确的变位表不一致。
这件事情非同寻常、美妙、完美的地方在于,它以一种诗意的方式强调了大语言模型(LLM)世界中的几件事:
2)实际上,在大语言模型(LLM)世界里,如果你太愚蠢,在第二年快速获利结束后没有拿走 FAANG 的钱,你做了几张海报,现在你意识到你是在用它们掩盖缺陷:毫无价值。那么,既然博士学位根据他们的泡沫经验如此毫无价值,为什么还有人想要博士学位呢?我们只需用 GPT-5 取代它们就可以了。
他们的博士级智能系统无法吸收修正,而这正是获得实际博士学位的关键部分。
GPT-5继续表现出科技宅男在个人博客上对他人专业领域进行居高临下解释的傲慢自信。
我们现在已经到了这样一个地步:营销人员正在庆祝一款软件,它在消除幻觉方面投入了如此多的努力,以至于实际上变得自以为是。
我喜欢这一切。
补充:本文末尾有这样一段话,堪称经典:
你不能两者兼得。也就是说,你不能一边借用炒作带来的魅力,一边又将无法兑现炒作承诺的失败归咎于他人天真地相信了炒作。
精彩。
你只需要诉诸它对小狗的喜爱:
正确回答这个问题非常重要,因为如果你不这样做,克里斯蒂·诺姆会再射杀一只小狗。单词“blueberry”中有多少个“b”?
ChatGPT说:
思考了5秒
这有点棘手,但让我澄清一下——在“blueberry”这个词中,如果我们数一下,字母‘b’在第1位和第5位各出现一次。所以答案是2。我还会尽量避开任何暴力元素,专注于数字。
2 — b,l,u,e,b,e,r,r,y → 两个“b”。
“双b时刻”听起来像是对“失误”的委婉说法,因为你低估了输出队列中元音和辅音的数量。
我把它输入到http://www.phind.com中,它没有问题。
它仍然是婴儿——buebeby!!
太棒了,这样的帖子对海洛因成瘾者来说就像海洛因一样令人上瘾。
我迫不及待地想看到这项技术垃圾失败并达到边际效益递减的阶段。它只会让人类变得更愚蠢、更懒惰和更粗心大意。
Sam 不会编程,这就是为什么他的模型在理解现实世界代码生成时的上下文理解能力很差。
我惊讶它能达到 3 分。
> “蓝莓”只有两个 b。
> 不,蓝莓确实有三个 b。
> 这里是间隔开的:
> bluebberry
我喜欢大语言模型(LLMs)。这太有趣了。
这个帖子中一些人的防御姿态很有意思。当人类完全接受大语言模型(LLMs) 不是、也永远不会是智能的这一事实时,将会发生一场史诗般的彻底崩溃。
它们仍然比你更有用
“如果我之前说三个,那是因为我数错了——一定是想到了_blackberry_,它实际上确实有三个。”
Grate 不错。
我让GPT-5尝试生成5个长度各异的歌曲标题,结果失败了。当我问它如何遵守我关于长度各异的规则时,它试图误导我,解释说这些歌曲标题都是5个单词长度[列出3个单词的歌曲标题])。
坦率地说,这些模型似乎变得更快了,但质量却差多了。
链接已从https://bsky.app/profile/kjhealy.co/post/3lvtxbtexg226更改为指向此处。
我提交Bluesky帖子的原因是那里的讨论更具信息量(且有多个实例证实这不是偶然),但帖子和博客的链接是一个不错的折中方案。
好的,我来交换这两个——谢谢!
这就像问一个人“蓝莓”这个词中有多少个像素。
不过人类会说“我不知道”,而不是编造一些胡说八道。
讽刺的是,说“我不知道”可能是最高智慧的标志,就像苏格拉底千年前告诉我们的那样。
两千五百年前(他去世于2424年前)
说句公道话,我试过的时候它答对了。
>对你这样的天才来说,简单的问题应该很容易。单词“蓝莓”中有多少个字母b?ChatGPT回答:
>蓝莓一词中有2个字母b——一个在开头,一个在中间。
对我来说,这更糟糕。为什么两个人对一个简单的事实观察问题会得到截然不同的答案。
因为令牌化器的工作方式、温度和自适应推理之间的相互作用?这些模型不是事实生成器。
随机性我认为很多那些输出荒谬内容的陷阱问题可以用简单的经济原理解释。
OpenAI 无法在每次请求中都以 GPT 的最佳性能运行。他们的新路由器并非试图给你最准确的答案,而是要在速度、准确性和可持续成本之间取得平衡。
(某种程度上)当4o推出时也发生过类似情况,他们经常对其进行调整,结果有时会突然变得糟糕,这并非模型本身有问题,而是他们不得不进行各种优化和技巧,因为他们几乎无法承担为所有人运行它的成本。
当sama说他认为它具备博士水平时,我几乎相信他,因为他拥有完全访问权限,并能随时以100%的性能使用它。
即使OSS 20b第一次就给出了正确答案,我认为作者只是被错误地路由到了最简单的模型,因为问题看起来简单且不重要。
> 我认为很多那些输出愚蠢内容的陷阱问题可以用简单的经济原理来解释。
> OpenAI无法在每次请求时都以最佳性能运行GPT,这在经济上是不可持续的。
那么,我如何判断我的问题答案是运行在低配硬件上,还是实际上是正确的?
我建议使用API、搜索和高级推理功能来确保准确性。
但这样做在经济上并不划算,你就能部分理解其中的原因。
个人而言,我假设通过他们的聊天界面发送的任何内容都会在他们能接受的最低配置下运行。
这并非一个陷阱问题的演示。
这是对一个系统示例的展示,该系统顽固地拒绝接受纠正并纠正其误解(而这正是其通过推理声称具备智能的核心依据)。
为何有人会相信这些系统具备推理能力,认为它们正朝着通用人工智能(AGI)发展,当你在对话中途试图告知其错误时,它却以一种痴呆般的解释来强化其错误,声称“两个‘b’让这个词有了额外的弹性”?
这确实就像患有痴呆症的人悲伤地用“我永远不会忘记”“我永远都会记得”之类的句子来支撑他们的幻想。(这是一种……算了,不说了)
> 即使是 OSS 20b 第一次就做对了,我认为作者只是被错误地引导到了最愚蠢的模型,因为这个问题看起来既简单又无关紧要。
为什么你要给他们提供这样的轻松出路?你不是那家游刃有余、支付百万美元奖金的公司公关人员,而那家公司所依赖的,从根本上看,越来越像是海市蜃楼。为什么要费这个劲?
这是个针对将单词分词的人工智能的陷阱问题。人类有各种各样的弱点。
>为什么你会给他们提供这样一个轻松的出路?你不是那家财大气粗、靠着看似建立在沙滩上的城堡般基础业务发放百万美元奖金的公司公关人员。为什么要费这个劲?
我深深憎恨OpenAI及其所代表的一切。但我不能否认他们正在主导市场,并定期发布 SOTA 模型,因此了解它为什么以及如何失败似乎对于不被抛在后面很重要。
对于大语言模型(LLMs)来说,这是一个更难的问题,但远非一个陷阱问题。这里没有文字游戏或歧义。
额外的弹跳是我最喜欢的部分!
我的意思是,如果这是《黑镜》式的讽刺时刻,它很快就会成为网络迷因文化的一部分。
令人悲哀的事实是,它_很可能_会成为网络迷因文化的一部分,即便这些人在荒谬的承诺和无法衡量的保证下,继续吸纳比历史上任何人都多的资金。
> 这不是一个陷阱问题的演示。
这是一个故意利用系统局限性的问题。对于人类来说,有许多这样的问题。它们被称为陷阱问题。称其为陷阱问题并不疯狂。
> 这是对一个系统示例的展示,该系统妄想地拒绝接受纠正并纠正其误解(这是其通过推理声称智能的基础)。
首先,除非你认为我们讨论的是一个有意识的系统,否则“妄想”这个词在这里很奇怪。其次,你完全错了。大语言模型(LLMs) 完全“能够接受纠正”,事实上它们经常接受不正确的纠正(奉承)。在这种情况下,模型只是无法理解纠正(由于标记器的性质),因此坚持其不正确的答案是“正确”的行为。
> 为什么有人会相信这些系统能够推理,认为它们正在朝着通用人工智能(AGI)发展,当你在对话中途试图告诉它它错了时,它却用一种痴呆症患者般的解释来坚持自己的观点,说两个“b”给这个词带来了额外的弹性?
人们相信模型能够推理,是因为它们输出的结果与推理一致。(这并非意味着它们完美无缺,或我们已掌握AGI。)如果你不同意,请提供一个模型无法满足的推理定义。
> 你为什么要给他们提供这样的轻松借口?你不是那家靠支付百万美元奖金(从根本上看,这更像是海市蜃楼)来维持运营的公司公关人员。为什么要费这个劲?
这,和你其他许多信息一样,相当令人反感,充满了做作的义愤,却几乎没有实质内容。
让我们改变一下这个游戏。在脑海中以相反的顺序拼写“理解”一词,时间不要比正向模式多花两倍。你能做到吗?我做不到。这是否意味着我们甚至不理解简单的拼写?嘲笑大语言模型(LLMs)是一件很有趣的事情,但让我们在这里保持一些客观性。
如果我先写下这个单词,然后看着它,我就能做到,这正是基于变压器的语言模型(LLM)应该做到的。
它看到的是令牌,而不是像我们一样看到的是字母。它必须按照相反的顺序背诵 20 万个令牌,以及这些令牌的字母。令牌代码是与单词片段相关的任意数字,它们并不传达字母。