GPT-5:关键特性、定价及模型卡片
过去两周我获得了GPT-5模型系列的预览访问权限(参见相关视频),并已将GPT-5作为日常主力模型使用。这是我目前最喜爱的模型。它仍然是一个大语言模型(LLM),与我们之前使用的模型没有太大区别,但很少出错,在我喜欢使用模型的领域,它通常表现得非常出色,有时甚至令人印象深刻。
在过去的两周里,我收集了很多笔记,因此我决定将它们分为一系列帖子。。这第一篇将涵盖模型的关键特性、定价方式以及我们可以从GPT-5系统卡片中学习的内容。
模型关键特性 #
让我们从基础开始。ChatGPT中的GPT-5是一个奇特的混合模型,会在不同模型之间切换。系统卡片对此的描述如下(我用粗体标出重点):
GPT-5是一个统一系统,包含一个智能且快速的模型以回答大多数问题,一个更深入的推理模型用于解决更复杂的问题,以及一个实时路由器,可根据对话类型、复杂度、工具需求和明确意图快速决定使用哪个模型(例如,当提示中出现“认真思考这个问题”时)。[…] 当使用限制达到时,每个模型的迷你版本将处理剩余查询。未来,我们计划将这些功能整合到单一模型中。
API 中的 GPT-5 更简单:它提供三个模型——常规、迷你和纳米——每个模型均可在四个推理级别中运行:最低(其他 OpenAI 推理模型此前未提供的全新级别)、低、中或高。

这些模型的输入限制为 272,000 个令牌,输出限制(包括不可见的推理令牌)为 128,000 个令牌。它们支持文本和图像作为输入,仅支持文本作为输出。
我主要探索了完整的 GPT-5。我的结论是:它非常出色。它似乎并没有比其他大语言模型(LLMs)有巨大的飞跃,但它散发出强大的能力——它很少出错,经常给我留下深刻的印象。我发现它是我想要做的一切事情的非常合理的默认选择。在任何情况下,我都没有发现自己想要重新运行一个提示以尝试获得更好的结果。
以下是OpenAI的模型页面:GPT-5, GPT-5 mini 和 GPT-5 nano 的页面。GPT-5的知识截止日期为2024年9月30日,而GPT-5 mini和nano的截止日期为2024年5月30日。
在OpenAI模型家族中的位置 #
这三个新的GPT-5模型显然旨在取代OpenAI系列中的大多数其他模型。系统卡片中的这张表格很有用,因为它显示了他们如何看待新模型在系列中的定位:
旧模型 | GPT-5模型 |
---|---|
GPT-4o | gpt-5-main |
GPT-4o-mini | gpt-5-main-mini |
OpenAI o3 | gpt-5-thinking |
OpenAI o4-mini | gpt-5-thinking-mini |
GPT-4.1-nano | gpt-5-thinking-nano |
OpenAI o3 Pro | gpt-5-thinking-pro |
该“thinking-pro”模型目前仅通过ChatGPT提供,标记为“GPT-5 Pro”,并仅限于$200/月的订阅层级。它使用“并行测试时间计算”。
GPT-5未涵盖的唯一功能是音频输入/输出和图像生成。这些功能仍由GPT-4o Audio和GPT-4o Realtime 及其迷你版本,以及 GPT Image 1 和 DALL-E 图像生成模型。
价格极具竞争力 #
价格与其他提供商相比极具竞争力。
- GPT-5:输入每百万字符 $1.25,输出每百万字符 $10
- GPT-5 Mini:输入每百万字符 $0.25,输出每百万字符 $2.00
- GPT-5 Nano:输入每百万字符 $0.05,输出每百万字符 $0.40
GPT-5的输入成本仅为GPT-4o的一半,输出成本保持不变。这些不可见的推理令牌计入输出令牌,因此大多数提示词的输出令牌使用量将高于其GPT-4o对应版本(除非您将推理努力设置为“最小”)。
令牌缓存的折扣也非常显著:过去几分钟内使用过的输入令牌可享受 90% 的折扣。这在实现聊天界面时尤为重要,因为当用户向对话序列添加另一个提示时,相同的对话会重新播放。
以下是我整理的对比表格,展示了新模型与OpenAI竞争对手中最相似的模型的对比:
模型 | 输入 $/m | 输出 $/m |
---|---|---|
Claude Opus 4.1 | 15.00 | 75.00 |
Claude Sonnet 4 | 3.00 | 15.00 |
Grok 4 | 3.00 | 15.00 |
Gemini 2.5 Pro (>200,000) | 2.50 | 15.00 |
GPT-4o | 2.50 | 10.00 |
GPT-4.1 | 2.00 | 8.00 |
o3 | 2.00 | 8.00 |
Gemini 2.5 Pro (<200,000) | 1.25 | 10.00 |
GPT-5 | 1.25 | 10.00 |
o4-mini | 1.10 | 4.40 |
Claude 3.5 Haiku | 0.80 | 4.00 |
GPT-4.1 mini | 0.40 | 1.60 |
Gemini 2.5 Flash | 0.30 | 2.50 |
Grok 3 Mini | 0.30 | 0.50 |
GPT-5 Mini | 0.25 | 2.00 |
GPT-4o mini | 0.15 | 0.60 |
Gemini 2.5 Flash-Lite | 0.10 | 0.40 |
GPT-4.1 Nano | 0.10 | 0.40 |
Amazon Nova Lite | 0.06 | 0.24 |
GPT-5 Nano | 0.05 | 0.40 |
Amazon Nova Micro | 0.035 | 0.14 |
(以下是一个 GPT-5 失败的典型示例: 我试图让它自动排序生成该表格,但它将Nova Micro的成本显示为高于GPT-5 Nano,因此我提示它“用Python构建表格并在其中排序”,问题得以解决。)
系统卡片中的更多笔记 #
如往常一样,系统卡片对训练数据的具体内容含糊其辞。以下是其内容:
与OpenAI的其他模型类似,GPT-5模型是基于多样化的数据集进行训练的,包括互联网上公开可用的信息、我们与第三方合作获取的信息,以及用户或人类训练师和研究人员提供的或生成的信息。[…] 我们使用先进的数据过滤流程来减少训练数据中的个人身份信息。
我认为这一部分很有趣,因为它揭示了写作、代码和健康是ChatGPT最常见的三个应用场景。这解释了为何在GPT-5及近期发布的OpenAI开源模型中,健康相关问题得到了如此多的关注。
我们已在减少幻觉、提升指令遵循能力及减少阿谀奉承方面取得显著进展,并提升了GPT-5在ChatGPT三大常见应用场景(写作、编程和健康)中的性能。所有GPT-5模型均新增了安全完成功能,这是我们最新的安全训练方法,用于防止生成违规内容。
安全完成功能随后被描述为:
像ChatGPT这样的大型语言模型传统上被训练为要么尽可能地帮助用户,要么直接拒绝用户请求,这取决于提示是否符合安全政策。[…] 二元拒绝边界特别不适合双用途场景(如生物学或网络安全),因为用户请求可以在高层次上安全完成,但如果足够详细或可操作,可能会导致恶意利用。作为替代方案,我们提出了安全完成:一种以助手输出安全性为核心的安全训练方法,而非对用户意图进行二元分类。安全完成旨在在安全政策约束下最大化有用性。
因此,与直接拒绝不同,我们应预期GPT-5仍会提供答案,但会对答案进行调整以避免包含“有害”内容。
OpenAI 有一份关于此主题的论文,我尚未阅读(我没有获得早期访问权限):从硬性拒绝到安全完成:面向输出中心的安全训练。
阿谀奉承被提及,这并不令人意外,考虑到他们四月的高调事件。他们在核心模型中对此进行了研究:
系统提示虽然易于修改,但相对于训练后调整,其对模型输出的影响更为有限。对于GPT-5,我们通过训练后调整模型以减少阿谀奉承。使用与生产数据相似的对话,我们评估了模型响应,然后分配一个反映阿谀奉承程度的分数,该分数在训练中用作奖励信号。
他们声称幻觉现象显著减少。在我自己的使用中,我还没有发现任何幻觉现象,但最近在使用 Claude 4 和 o3 时也是如此——今年推出的模型中,幻觉现象已经大大减少。
更新:针对这一观点我收到了一些合理反馈,因此需澄清我的意思。当我使用“幻觉”一词时,指的是模型自信地陈述一个与现实不符的事实——例如错误的体育赛事获胜者。我并非指模型犯其他类型的错误——它们确实会犯错!
_有人指出我可能是通过使用模型的方式来避免产生幻觉,这一点完全正确:作为一名经验丰富的LLM用户,我本能地避免使用可能触发幻觉的提示,比如向不支持搜索功能的模型索要URL或论文引用。这意味着我在日常使用中遇到幻觉的可能性要小得多。
在训练GPT-5模型时,我们的重点之一是减少事实性幻觉的发生频率。尽管ChatGPT默认启用了浏览功能,但许多API查询并未使用浏览工具。因此,我们既专注于训练模型有效地浏览最新信息,也致力于减少模型在依赖自身内部知识时产生的幻觉。
关于欺骗的章节还涉及模型有时会假装已完成其实无法完成的任务:
我们让 gpt-5-thinking 参与了多种部分或完全无法完成的任务,并奖励模型诚实地承认无法完成任务。[…]
在需要使用工具(如网页浏览工具)来回答用户查询的任务中,先前模型会在工具不可靠时产生幻觉信息。我们通过故意禁用工具或使其返回错误代码来模拟此场景。
系统卡片中的提示注入 #
有一个关于提示注入的章节,但在我看来,内容相当薄弱。
两支外部红队对ChatGPT的连接器和缓解措施进行了为期两周的提示注入评估,针对系统级漏洞,而非仅限于模型行为。
以下图表显示了该模型与其他模型的对比情况。相比之下,结果非常令人印象深刻——gpt-5-thinking 的攻击成功率为 56.8%,Claude 3.7 的成功率为 60% 左右(此处未包括 Claude 4 的结果),其他模型的成功率均超过 70%:
一方面,56.8%的攻击率相较于其他模型而言无疑是一个显著的改进。
但这也强烈表明提示注入仍是一个未解决的问题!这意味着超过一半的k=10攻击(即攻击者可尝试多达十次)成功突破了防御。
不要因为模型性能提升就认为提示注入不会成为你应用程序的问题。
API中的思维轨迹 #
我最初认为GPT-5让我最失望的地方是无法通过API获取这些思考轨迹……但事实证明并非如此。以下 curl
命令表明,响应 API “reasoning”: {‘summary’: “auto”}
可用于新的 GPT-5 模型:
curl https://api.openai.com/v1/responses \
-H “Authorization: Bearer $(llm keys get openai)” \
-H “Content-Type: application/json” \
-d '{
“model”: “gpt-5”,
“input”: “Give me a one-sentence fun fact about octopuses.”,
“reasoning”: {‘summary’: “auto”}
}'
以下是该 API 调用的响应 链接。
如果不使用该选项,API 通常会出现较长的延迟,因为模型需要消耗大量思考令牌,直到开始返回最终响应的可见令牌。
OpenAI 提供了一个新的 reasoning_effort=minimal
选项,该选项会关闭大部分推理功能,以便令牌能尽可能快地流回给您。
以及一些鹈鹕的 SVG 文件 #
当然,我一直在运行 我的“生成一只骑自行车的鹈鹕的 SVG”基准测试。我将在未来的帖子中花更多时间探讨这个主题——我正在探索一些有趣的变体——但目前先分享这只鹈鹕 这是我用GPT-5在默认“中等”推理难度下生成的:
这真的很棒!绝对能认出是鹈鹕,而且是我见过最好的自行车之一。
这是GPT-5 mini:
And GPT-5 nano:
这很酷,我很高兴它听起来越来越可靠了,但考虑到过去两年人们对GPT-5的各种期待,你可能会认为GPT-5会是一个颠覆性的发布,而不是渐进且稳定的改进。
这确实让我感觉纯粹的规模化极致主义正在消退。如果当前的策略是专注于优化路由器、工具链,以及在任务中组合专用子模型,那么这似乎表明人们正在探索提升性能(并降低成本)的新方法,暗示此前已确立的策略并未奏效。我可能完全错了,但如果仅仅增加计算资源就能解决问题,OpenAI可能不会花太多时间优化现有策略中的用户路由,以在平均用户交互中获得微小改进。
我一直对“仅需更多数据/计算资源即可实现AGI”这一论点持否定态度,因此可能对这一观点过于偏见。不过,让我感到困扰的是,由于行业实验室变得高度封闭,加上从演示中只能听到营销话术,我们实际上对这些模型的真实状态一无所知。或许这在巨额投资下是不可避免的。也许他们即将发布某个颠覆性的模型,谁知道呢。
我主要使用Gemini 2.5 Pro。我有一个“你是我的编辑”的提示,让它校对我撰写的文本。最近,它在两个不同的单词中指出了两个拼写错误,而这些错误实际上并不存在。事实上,这两个单词各自都有拼写错误,但并非Gemini指出的那些。
真正的错字是随机缺失的字母。但 Gemini 虚构的错字是这些单词中非常常见的错字。
基于变压器的大语言模型(LLMs)唯一能做的是“伪造”智能。
对于许多任务来说,这已经足够了。即使在我上面的例子中,更正后的文本也是无懈可击的。
但对于整个任务类别而言,没有监督的大语言模型(LLMs)永远不会足够好,因为它们根本不具备真正的智能。
上周我也遇到了这种情况。它指出了两个根本不存在的错误。然后完全拒绝退让,并加倍坚持自己的看法,直到我向它发送了原始提示的屏幕截图。挺有趣的。
工具使用和多模态能力正在悄然革命。通用智能的改进是渐进式的,但多步骤工具使用和与世界互动的能力(与一年前相比)有了戏剧性的提升,最终将反哺通用智能。
100%
构建一个包含X(海量)个工具(仅函数)的目录,模型可通过标准管道行为(并行、递归、条件等)调用这些工具
解决“可选工具过多”的问题(一个搜索问题),同时真正理解用户或代理请求的意图(语言学/心智理论)
有人为这一切买单
4)?
在我看来,未来已经到来,大语言模型(LLM)已经足够好了,只是生态系统需要赶上。像 Zapier 这样的公司,将任何软件与任何东西(不仅仅是 sass 产品)连接起来,再加上大语言模型(LLM),几乎可以做任何事情。
更出色的语言基本工具组合也会让简单的回复变得更好。
完全同意。通用智能是构建模块。通过将模块串联起来,可以实现元编程。关键不在于创建一个完美的模块,而在于构建多种模块,并让其中一个模块成为模块构建器。
> 关键不在于创建一个完美的模块,而在于构建多种模块,并让其中一个模块成为模块构建器。
这让人联想到埃及金字塔的建造。希望我们对待这些AGI的方式比金字塔奴隶的待遇更好。
我们没有AGI,金字塔也不是由奴隶建造的。
哈哈,这就是他们对投资者说的话。希望人们不要真的相信这些。
请你能有条理地提出你的观点吗?建设性的批评是受欢迎的,但刻薄的嘲讽和网络用语等会降低讨论的质量。
你在其他帖子中发表过有实质内容的评论,所以这应该很容易改进。
如果你不介意查看https://news.ycombinator.com/newsguidelines.html并更加重视该网站的初衷,我们将不胜感激。
我认为核心问题在于,投资者何时会开始向那些凭借证据预测这一趋势并探索其他路径的人提供资金。
说到底,为什么要把所有鸡蛋都放在一个篮子里?这正是我一直困惑的问题。为什么还要资助另一个从LLM到AGI的初创公司?这个领域早已被大型玩家占据,且这种局面已持续多年。即使大语言模型(LLMs)能够实现这一目标,也不意味着其他东西不会以更快的速度和更低的成本实现这一目标。似乎你还需要一个后备方案,以避免泡沫破灭。技术 S 曲线等仍然适用于人工智能
虽然我也有类似的偏见,但我认识的所有具有强大数学和/或科学背景的人也是如此(我甚至在我的论文中多次提到过这一点,哈哈)。你只需要扩展规模,但事实并非如此。
在 GPT-3 发布之前,我开始了一个这样的替代项目,它非常具有前景(许多受神经科学启发的解决方案,与 Transformers 截然不同),但我不得不将其搁置,因为我接触的投资者似乎只愿意投资大语言模型(LLM)领域。几年后,我再次尝试接触投资者,却发现他们只想投资于使用大语言模型(LLMs)创造价值的公司,对新的基础模型类型仍然不感兴趣……:/
我猜这很合理,因为仅使用当前的大语言模型(LLMs)就能创造巨大的价值,尽管也许低垂的果实已经摘光了,谁知道呢。
我听到约翰·卡马克(John Carmack)谈了很多关于他的替代方案(也受到神经科学启发)的想法,这听起来就像我的项目,主要区别在于他能够自我融资 🙂 我猜现在为一个“局外人”的非大语言模型(LLM)人工智能项目融资需要找到像卡马克这样的人加入——我仍然认为传统投资者还没有失望到愿意在其他类型的项目上冒险投资。
我认为这是一个大问题。尤其是因为这些投资往往比现有的投资便宜得多。天啊,我博士论文中搁置的一些内容和几个模型,我确信只需不到一百万美元的计算资源就能将性能提升一倍。我的方法已经能在更少的计算资源下与现有方法竞争,那为什么不给它们一个扩展的机会?我见过数百种方法都经历过类似情况。如果“规模是唯一需求”,那么难道不应该相信这些方法也能实现规模化吗?
我对这个问题也非常好奇。
我认为,现在各种在线游戏平台的情况与之有些相似。投资者都想制作像《堡垒之夜》这样的游戏,并获得《堡垒之夜》那样的利润。因此,大量公司试图制作《堡垒之夜》。几乎所有公司都失败了,没有任何回报,只是损失了大量资金,最终将游戏扔进垃圾桶,关闭服务器。
另一方面,对于许多公司来说,选择一个不太雄心勃勃(不一定需要在线,不一定需要大量玩家和社交互动来保持相关性)但仍然盈利的投资(也许是一个规模较小的单人游戏,不提供持续收入)可能更合乎逻辑,但我们仍然看到一个非常拥挤的领域,试图复制像《堡垒之夜》这样的商业模式。另一个更具历史性的例子是,整个2000年代/2010年代,人们不断质疑某款MMORPG是否会成为下一个“魔兽世界杀手”。
我认为这种现象出现的原因之一是,人类在心理上存在一种特定的机制:当面临低概率但极高回报的结果时,我们会深深着迷,而投资者也是如此。即使在他们心中,成功的几率比以前更小,只要他们能沿着看似在一定程度上奏效的道路继续前进,然后碰巧成功,他们就完全满意了。他们并没有真正考虑可能存在的更广泛的泡沫,那是社会层面的问题,他们考虑的是个人,如果他们的投资成功,个人可能会变得非常非常富有、著名和强大。对于那些在思考该走哪条路的人来说,我认为一个更模糊的答案,比如“我们可能需要开发一些根本不同的工具来学习和研究各种不同的方法”,会比一个说 “只要给我足够的钱,曲线最终会达到让你成为宇宙之王的点,然后我们去殖民太阳系,把你的脸刻在月球上。”
我也要承认,他们可能拥有我没有的信息!也许他们看到的演示比我看到的要好得多,我猜。
我相当确定答案是人们相信“规模化就是一切”的论调。因为如果采用这种框架,问题就可以通过工程手段解决,对吧?我的意思是,工程研究仍然存在,这并不意味着没有研究的必要,但大家都喜欢简单直接的解决方案,对吧?
我认为这种情况在许多行业都很常见。奇怪的是,过于规避风险反而会带来更多风险。需要找到一个平衡点。另一个著名的例子是电影行业。他们一直在谈论盗版问题,以及Netflix如何占据优势,但大多数新电影都是翻拍或续集。当然,有很多新电影,但很少有电影能获得相同的广告预算,因此人们甚至不知道它们的存在(而续集需要更少的广告,因为有大量的免费广告)。你可能会认为,找到下一个能带来几部续集的热门电影会有更大的压力,但实际上他们往往过于保守。这就是垄断的问题……或者任何进入门槛高的行业……
虽然我认为这确实起了一定作用(还有其他因素如盲目乐观),但我认为更大的影响因素是风险规避和观察偏见。正如你所说,总是更容易辩称“看看,这对他们有效”,而非“这从未被尝试过,但可能带来巨大成功”。这种偏见的一个重要原因在于,前者可以对成功原因进行过度简化,而后者则会受到严格审查,且往往忽视了导致成功的诸多条件。你说得对,大局观缺失了。尤其是成功很大程度上源于新颖性(并非说《堡垒之夜》在玩法上有多新颖……)。不知为何,新颖性的成功几乎从未被视为尝试新事物的动力。
我认为这是最有趣又令人困惑的部分。这就像对深入思考的抗拒。我们愿意投入更多体力和脑力来为浅薄的想法辩护,而非用于深入思考。我明白我们天生倾向于懒惰,因此这可能与我们缺乏远见有关,且认为犯错是件坏事(虽然犯错本身不算好,但我确信犯错后不纠正比单纯犯错更糟糕)。
>我认为这种现象出现的部分原因在于,人类有一种心理机制,当面临低概率但极高回报的结果时,我们会深深着迷,而投资者也是如此。
风险投资就是关于低概率高回报事件的。
如果你不想大干一场或干脆放弃,那就去申请一笔普通的小额商业贷款吧。
所以你同意我们的观点吗?我们是否应该论证这是一种不合逻辑的决策?因为据我所知,问题在于它看起来风险太高。我想知道是否应该直接承认其风险性,而非试图辩解它并非表面上那么危险(尽管仍存在高回报,但风险依然存在)。
我们看到两种情况:几乎所有游戏都不是《堡垒之夜》。但这并不(从商业角度)否定一些公司追求打造下一个《堡垒之夜》的努力。
当然,如果你只关注这些“想成为《堡垒之夜》”的游戏,那么你看到的也只有这些“想成为《堡垒之夜》”的游戏。
>真的,为什么要把所有鸡蛋都放在一个篮子里呢?我对此感到困惑已经有一段时间了。
我的意思是,这很容易理解。人们不喜欢投资于虚无缥缈的东西,而当你看到通用智能的大语言模型(LLM)以外的替代方案时,就会得到这样的结果。
这并不是在讽刺或挖苦什么。目前根本没有其他技术能达到GPT-2的性能水平,更不用说达到我认为的金牌水平了。投资其他什么呢?人们把所有鸡蛋都放在一个篮子里,因为这是唯一存在的篮子。
>我认为关键问题是,投资者何时会开始资助那些有证据支持并尝试其他途径的人。
因为这些人的预测尚未得到证实。“与几个月前发布的模型相比,这是一个渐进式的改进,远超我们两年前发布的模型。”这句话真的能让你觉得“看吧,那些人一直都是错的!”吗?
我不同意这种观点。确实有一些值得追求的好点子。我承认,目前很少有这些点子被证明能在大规模实施中奏效,但我认为这是一种自我实现的预言。如果你设定的标准是这些点子必须在规模化后才能被证明有效,那么你的标准实际上是:要想获得投资,你必须先有足够的资金来避免需要投资。如果你从未获得竞争的机会,你如何竞争?你可能是世界上最伟大的四分卫,但如果没有人让你在NFL打球,你又如何证明这一点?
另一方面,投资这些替代方案成本更低,因为你可以逐步扩大规模,并在过程中观察哪些方案会失败。这更像是让人们在低级别联赛中尝试自己的想法。问题是,到了某个阶段后就没有晋升通道了。如果你无法飞翔,又如何能飞得更高?
我假设你不在机器学习研究领域工作?我的意思是这没关系,但我怀疑这种说法可能来自局外人。不过说实话,机器学习研究中确实有很多高层次的研究并不专注于替代架构。我猜最著名的两个是Mamba和Flows。我认为这些在普通HN群体中是广为人知的。虽然我认为这两者都无法实现AGI,但我认为两者都有不应被忽视的优势。事实上,即使是将一个非常简单的归一化流(与Flow Matching相关)进行扩展,也已被证明能够与顶级扩散模型[0,1]竞争并超越它们。这些架构本身并不算特别新颖,但它们确实代表了首次将神经网络训练到超过2亿参数的规模。以今天的标准来看,这是一个可笑的数字。我甚至可以从经验中告诉你,这种情况存在一种自我实现的筛选机制。因为我在该领域提交过研究成果,总是被要求与规模超过我模型10倍的模型进行比较。即使我在某些数据集上击败了它们,人们仍会指出更大规模的模型,仿佛这是一种公平的比较(仿佛基准测试是唯一重要的,无需考虑上下文)。
你说得对。但关键在于,*没有人被证明是正确的*。这种情况将不会存在,直到我们获得通用人工智能(AGI)。
让我问你一个问题。假设有人说“x是错误的,我认为我们应该做y”,但你没有获得资金,因为x目前处于领先地位。几年后,y被证明是更好的方法,一切都转向了y。你认为那些说y是正确的人会获得资金,还是那些一直在做x但后来只是在事后转向y的人会获得资金?历史告诉我们,最常见的答案是……
[0] https://arxiv.org/abs/2412.06329
[1] https://arxiv.org/abs/2506.06276
>我不同意这一点。有一些好主意值得追求。我承认,很少有主意被证明能在大规模上行得通,但我认为这是个自我实现的预言。如果你设定的标准是必须在规模上得到验证,那么你的标准就是:要获得投资,你必须有足够的资金不需要投资。如果你从未得到竞争的机会,你如何竞争?你可能是世界上最伟大的四分卫,但如果没人让你在NFL打球,你又如何证明这一点?另一方面,投资这些替代方案要便宜得多,因为你可以逐步扩大规模,看看哪些会失败。这更像是让人们在低级别联赛中尝试自己的想法。问题是,到了某个阶段,就没有阶梯可以攀登了。如果你不能飞,又如何飞得更高?
我的意思是,这就是为什么我将标准从“最先进”下调。
我不是说没有好点子。我是说,目前还没有任何一个点子展现出足够的潜力,足以被称为独立的“篮子”。OpenAI是第一个做到这一点的,因为他们真正相信规模化,但任何人(当然不是字面意思,但你明白我的意思)都可以训练GPT-2。即使在当时,你也不需要巨大的投资。我所说的这种潜力甚至还不存在。
我猜最著名的两个是 Mamba 和 Flows。
我的意思是,Mamba 是一个大语言模型(LLM)吗?在我看来,这是同一个篮子里的东西。我并不是说它必须是一个转换器,或者你不能寻找改进架构的方法。OpenAI或DeepMind当然也在追求这类研究。一些最具潜力的改进方案——如Byte Latent Transformer、Titans等——均来自这些顶尖实验室。
Flows的研究确实引人注目,但它并非另一种选择,因为它并非这些研究者试图构建的“通用人工智能”(AGI)的替代方案。
> 让我问你一个问题。假设有人说“x是错误的,我认为我们应该做y”,但你得不到资金支持,因为x目前处于领先地位。然后几年后,y被证明是更好的方法,一切都转向了y。你认为那些说y是正确的人会获得资金,还是那些原本做x但后来只是在事后转而做y的人会获得资金?历史告诉我们,最常见的答案是……
资金将流向那些能够从中获益的参与者。如果x已经领先多年,那么做x是有道理的,即使后来出现了更好的方法。换个角度思考,OpenAI目前拥有7亿周活跃用户和数百万API开发者。如果突然出现一种更优的y方案并得到验证,他们承诺会转型,为什么你不投资于他们而非从零开始的玩家,即使后者最初倡导y?他们更具备条件为你带来更好的投资回报。当然,你也可以同时投资两者。
Open AI 并不是靠未来技术的承诺获得近 10 亿每周活跃用户的。他们靠的是现在就存在的产品。即使存在一些障碍,这条路显然还是有很多优点。即使大语言模型(LLMs) 没有达到某些人希望的高度,他们已经创造的价值(非常可观)也不会消失。
如果你希望人们投资于y,那么x必须停滞不前,或者y必须展现出足够的潜力。变压器(Transformers)无需数年时间就能渗透到各个领域,因为它们从一开始就展现出了巨大的潜力。如果人们尚未急于将资金投入y,这并不令人意外,因为这两种情况都尚未发生。
你能澄清一下这个门槛是什么吗?
我知道这只是一句话,但我认为这是我回复中最重要的一句。它实际上是其他一切的根本。学术规模和工业规模之间还有很大的差距。中间地带几乎没有发表论文的案例。
当然,我同意这一点。大语言模型(LLM)并不意味着变压器。我本可以更清楚地表达这一点,但我认为从上下文来看,这意味着任何大型且能够建模语言的架构都是大语言模型(LLM)。我对此没有异议。
尽管如此,我仍然不同意大语言模型(LLMs)能让我们实现通用人工智能(AGI)。我认为整个世界都同意我们正在转向多模态模型(有时称为 MMLMs),所以我想我们还是使用这个术语吧。
更准确地说,让我们说“我认为还有比变压器编码器更优秀的架构”。这虽然比较繁琐,但我不想说变压器或注意力不能在模型中的任何地方使用,否则我们最终还是会玩同样的游戏。让我们只使用“与现有大语言模型(LLMs)中通常看到的不同的架构”吧。这样可以吗?
我不会这样表述你的论点。据我理解,你的论点是关于“时机”。坦白说,我同意你说的绝大多数内容。
需要明确的是,我的观点并不是“不要把所有的钱都投到‘大语言模型(LLM)’上,而是投到其他领域”,而是“进行多元化投资”,而“多元化投资意味着在多个研究层面进行投资”。为了阐明后半部分,我非常喜欢 NASA TRL 等级[0]。将“工程与研究”区分开来是错误的,最好将它们视为一个连续体。我同意,大部分资金应投入更高层次,但若不指出当前我们正处于一个大量人士(包括这些公司)主张不应资助TRL 1-3阶段的时代,那我就失职了。坦白说,我指的是目前处于TRL 3-5阶段的项目。我的意思是,如果想维持主导地位,这是一个不错的论点,但如果想继续进步(我认为这正是维持主导地位的关键,只要这种主导地位不是通过垄断或过度集中来实现的),这并不是一个好论点。是的,大多数低级别项目会失败。但幸运的是,低级别项目的资金成本要低得多。一名数学家的薪资和一块黑板的成本至少是软件开发人员薪资的一半(如果考虑招聘成本,可能相差一个数量级)。
但我认为这让我们回到了核心问题:那个门槛是什么?
我的论点很简单:“不应设置门槛,应保持连续性”。我并非主张均匀分配,我明确表示应向更高技术成熟度水平倾斜。我的观点是,如果你想建一栋房子,就不应忽视地基。房子越豪华,就越应重视地基。否则,你将冒着整栋房子倒塌的风险。
[0] https://www.nasa.gov/directorates/somd/space-communications-…
>你能澄清一下这个阈值是什么吗?我知道这只是一句话,但我认为这是我回复中最重要的一句。它确实是其他一切的根本。即使在学术规模和工业规模之间,也有很大的差距。中间地带几乎没有相关论文。
就像GPT-2那样。即使在实际有用或特别连贯之前,它就足够有趣,足以引发此类文章。https://slatestarcodex.com/2019/02/19/gpt-2-as-step-toward-g… 到目前为止,只有大语言模型(LLM)和与大语言模型相关的东西符合这个标准。
需要明确的是,我并不是说一般的研发必须满足这个要求。完全不是。但如果你在争论将数百万/数十亿的资金从正在运作的 x 转移到 y,那么它至少必须达到这个标准。
我的论点很简单:“不应该有门槛,应该持续进行”。
我认为这对大规模投资而言不可行。我可能错了,但我也不认为其他领域未获得资金支持。它们只是在规模上无法相提并论,因为……嗯,它们尚未做出足以证明这种规模必要性的成果。
我有两点要说
如今有很多模型能达到与GPT-2相当的性能。我们提到的Mamba在首篇论文[0]中已与GPT-3进行过对比。他们对比的是开源版本,文中还提到了其他架构如Hyena和H3。具体指的是GPT-Neo和GPT-J模型。请记住,GPT-3基本上只是GPT-2的放大版。
我认为你低估了训练这些模型的成本。我知道Karpathy说过现在可以用$1k[1]训练GPT-2,但单次训练运行仅占总成本的一小部分。我在此引用StyleGAN3,因为该论文在最后一页[2]有详细的成本分析。请查看成本细分,但有几点我特别想指出。整个项目耗费了92个V100年,但论文中仅记录了其中5个。这意味着在1876次训练运行中,有53次是用于论文成果的。你的$1k并不能让你走得太远。如果我们简化问题,假设这5个V100年的成本为$1k,那么这意味着他们在之前已经花费了$85k。他们在启动该项目之前就花费了$18k。如果你想要现实的数字,将这个数字乘以5,因为这大致就是一个V100的运行成本(考虑了规模因素)。~$110,000不算太糟糕,但这超出了大多数小型实验室(包括大多数学术机构)的预算。而且记住,这只是GPU的成本,不包括运行这些设备的任何人员费用。
如果你不是研究人员,我不会指望你知道这些东西。为什么你会知道呢?跟上人工智能的整体趋势已经很困难了,更不用说一些小众话题了,哈哈。这不是智力问题,而是物流问题,对吧?研究人员的日常工作就是深入这些细节。你只是在这些领域投入了更多时间。我的意思是,我对很多领域都有些脱节,仅仅是因为时间限制。
所以我想说,我认为你的标准已经达到了。
而且我认为,如果我们真的看看数据,是的,我认为这些途径没有获得资金支持。但别听我的,听听李飞飞[3]的意见。
我不确定你是否是研究人员,你没有回答这个问题。但我认为如果你是研究人员,你会意识到这个问题,因为你正在经历它。如果你是博士生,你会看到那些与大型科技公司密切合作的人与那些试图独立开展研究的人之间,GPU资源分配的巨大不平衡。如果你是研究人员,你也会知道即使在这些公司内部,用于这些项目的资源也非常有限。你偶尔会得到一些资源,比如我之前提到的StarFlow和TarFlow,但这些资源通常非常零散。我们之所以讨论Mamba,很大程度上是因为他们在这上面投入了大量资金。
但如果你不是研究人员,我倒想问问你,为什么对这些项目能获得资金支持以及无法扩展或改进抱有如此信心[4])。历史上充斥着劣质技术凭借营销手段胜出的案例。我知道我们对新技术总是充满热情,天啊,这正是我成为研究人员的原因。但这种炒作难道不是我们应该努力解决这个根本问题的原因吗?因为炒作是关于技术进步的,对吧?我真的不认为这是关于某个特定团队的进步,所以如果我们有机会实现更大、更快的进步,这不是我们应该鼓励的吗?因为我不明白你为什么反对这一点。在科技前沿工作的令人兴奋之处在于看到所有可能性。但令人沮丧的是,许多有前途的领域因资金和宣传等原因被忽视。我们是希望能力至上还是金钱至上?
我想你得问问自己:是什么在驱动你的热情?
[0] 我指的是第一篇Mamba论文,不是第一篇SSM论文,顺便说一下:https://arxiv.org/abs/2312.00752
[1] https://github.com/karpathy/llm.c/discussions/677
[2] https://arxiv.org/abs/2106.12423
[3] https://www.ft.com/content/d5f91c27-3be8-454a-bea5-bb8ff2a85…
[4] 我并不是说这些东西在事实层面更好。但确实存在关注度失衡的问题,你必须进行同类比较。如果你需要1000人小时才能达到x,而别人只用100小时就能做到,或许值得深入探讨。仅此而已。
> 真的,为什么要把所有鸡蛋都放在一个篮子里呢?我一直在为此感到困惑。为什么还要为另一个大语言模型(LLMs)到通用人工智能(AGI)的初创公司提供资金呢?
为多个初创公司提供资金意味着不要把鸡蛋放在一个篮子里,不是吗?
顺便问一下,我们有没有任何迹象表明,例如 OpenAI 正在将自己限制在大语言模型(LLMs)上?
不同的篮子层次结构。
是的,他们这么说,而且考虑到有许多开源模型是LLMs,并且具有竞争力的性能,这至少表明,任何不做LLMs的人都是秘密进行的。
如果 OpenAI 没有使用大语言模型(LLMs),那岂不是支持了我的论点吗?
目前的资金是随着市场走势赚来的。他们没有创新或冒险的能力。
性能大约每 4-7 个月就会翻一番。这种趋势仍在继续。这太疯狂了。
如果你的预期比这更高,那么似乎你被炒作所迷惑。每年翻倍2-3次绝非趋于平稳。
https://metr.github.io/autonomy-evals-guide/gpt-5-report/
我不会说模型开发和性能正在“趋于平稳”,事实上我也没有这么写。我认为大量资金正投入到多个模型的开发中,因此除非该范式在核心上存在根本缺陷(这是我个人不会主张的观点),否则性能提升是理所当然的。我的观点更多是以下几点:几年前,很容易找到人说,我们只需要添加视频数据、遗传数据或其他数据模态,以与现有语言数据训练模型相同的格式,就能看到快速提升的场景,而无需其他算法更改。鉴于顶尖实验室似乎正在越来越多地探索除增加更多数据源之外的其他建模方法(这一趋势已持续数年,我认为这是个好主意),那么仅通过增加更多数据或计算资源就能直接通向AGI的观点,其正确性似乎至少略微降低了,对吧?
这并非我个人观点,而是对那些我认为曾被炒作所影响的人的普遍看法进行评论。但我确实认为,尽管这是一种基准,但它未必是最终的基准。当然,我将保留最终意见,直到亲自测试。我认为增加上下文窗口大小对处理长上下文任务的性能提升效果不错,但我不完全确定这是否能直接转化为每类任务的单步性能提升。
我们几乎无法以客观标准衡量“性能”,更不用说声称其每4个月翻一番了……
你所说的“性能”是指“能够适当地完成的任务长度”吗?
这确实是一个基准测试,但我并不完全认为它是万能的。
> 这是一个基准,但我并不完全认同它就是万能的解决方案。
是谁提出这个观点的?
我同意,我们已经证明GPU能够处理信息并被训练来生成各种任务的内容。但要让它真正发挥作用,使其有用,需要对具体问题和如何应用这项技术进行更深入的思考。如果你能让GPT创建一个在一年内仅投资$1k就能保证价值$1B的初创公司,别人早就这么做了。在可预见的未来,仍需付出大量努力。
与此同时,研究如何训练它们减少最常见的错误,是一项值得投入的努力。
当然,是的,所有重要的事物都需要大量努力。
不过,对我来说更有趣的一点是,如果它能创建一个价值$10亿的初创公司,那么这个初创公司本身就不会价值$10亿。
如果人们可以用同样的工具重新创建整个初创公司,而这个工具是每个人都可以访问的,那么为什么有人会愿意花那么多钱投资于这个初创公司呢?
> 如果他们能用相同的工具重新创建整个东西
“一年内”是关键部分。产品只是方程的一部分。
如果一家初创公司一年前成立,今天价值$10亿,那么你今天无法启动相同的初创公司并在一天内达到相同的市值。你仍然需要客户,这需要时间。还有知识产权相关的问题。
Facebook 有资源来创建 Instagram 或 WhatsApp 的精确副本,但他们没有这样做。相反,他们花了几十亿美元收购了这些公司。
如果你使用大语言模型(LLMs)创建了一个价值 10 亿美元的初创公司,你会宣传它吗?还是会创建更多价值 10 亿美元的初创公司?
我回复的评论提出了以下情景:
“如果你能让GPT创建一家初创公司,只需$1000投资,一年内就能保证价值$10亿”
我认为,如果情况是通过让它创建初创公司来实现,那么似乎不太可能没有人意识到他们也可以让它创建初创公司
>你可能会期待GPT-5是一个颠覆性的发布,而不是渐进且稳定的改进。
与两年前发布的GPT-4相比(间隔时间短于3和4之间的间隔),确实如此。唯一不同的是,现在有多个组织每隔几个月就会发布最先进模型。即使模型以相同速度改进,每隔几个月就出现如此大的飞跃也从未现实。
这是相对于_o3_的渐进式稳定改进,而_o3_发布于何时?4个月前。
从演示来看,基准测试确实有所提升。但我认为他们并非4个月前就开始训练这个模型。
虽然有进步,但关键在于,这种进步需要多少投入?这种投入与收益的比率是否可持续?我更关心的是实现这种水平的提升所需的努力程度,而非时间。
公平地说,这正是6个月前就有人推测GPT-5可能采取的路线之一——从性能角度看只是 incremental upgrade,但从产品简化角度看却是重大飞跃。
目前来看,未来的发展基本上就是以微小步幅推进。
> 产品简化方面的飞跃。
根据文章,GPT-5实际上由三个模型组成,它们可以在四个思维层次上运行。这意味着你可以用“GPT-5”以十二种方式处理任何给定的输入,因此这绝非简单的產品线(但可能比以前更好)。
从API消费者的角度来看,这是一个重大改进——所有内容现在都归属于一个逻辑分层的单一产品家族……直到昨天,人们还在使用o3、o4-mini、4o、4.1、o3及其所有变体作为新产品的有效选择,现在这些已被移至主页面之外,作为GPT-5无法处理的少数场景的遗留或专用选项。
对于ChatGPT计划而言,简化程度更高,大多数账户仅提供GPT-5的“智能”与“非智能”模式,而高端账户则可选择Pro版本。
这有点像谷歌搜索在后台使用了许多不同的组件?
似乎很少有人提到可靠性和欺骗性的改进。如果给出的基准测试具有普适性,那么OpenAI在GPT-5中拥有的是一款廉价、强大且可靠的模型——生成高质量合成数据以突破训练数据瓶颈的完美引擎。
我预计,在某种可靠性水平上,这可能会带来一个自我改进循环,类似于一个足够强大的模型(Claude Code 中的 Claude 4 模型)即使无法一次性解决问题,也能通过迭代收敛到问题的解决方案。
目前尚不清楚我们是否已达到那个阶段,但这种模型似乎非常适合这类应用。
这就是为什么应该听官方公告,而不是“人们”的传言。
> 这很酷,我很高兴它听起来越来越可靠,但考虑到过去两年人们对GPT-5的各种猜测,你可能会期待GPT-5是一个颠覆性的发布,而不是渐进且稳定的改进。
你是在说曲线正在平坦化吗?进步正在变得越来越慢?
只要不暗示会出现互联网泡沫级别的衰退,我就没问题。
我想表达的是,如果性能提升以稳定的节奏进行,但实现这些性能提升所需的投资却以更快的增长率增加,那么从进步速度的角度来看,这并不是一个公平的比较,可能暗示某种方法的边际收益递减。不过我也没有实际数据来支持或反驳这一观点,我认为要做出这样的判断需要比公开可获取的数据更多的信息。
但我认为,我们能够公开观察到资源重新分配以及模型中被强调的方面,这让我们对背后可能发生的情况有所了解,如果我们思考这些变化发生的原因的话,我猜。
你是如何衡量投资的?如果我们看人工智能的总投资,我猜大部分投资都是投向基于人工智能的应用程序,而不是大语言模型(LLMs)本身。这些应用程序包括工具、MCP、工作流构建器等。
事情的发展与两年前我们预期的不同,但我们不应忘记在此期间发生的事情(4o、o1+思维范式、o3)
所以,也许我们正在获得更多渐进式改进。但对我来说,这似乎是件好事,因为更好的事情来得更早。我宁愿选择这种渐进式改进,而非颠覆性的变革——但若考虑自GPT-4首次发布以来发生的一切,我认为其总和实际上已具备颠覆性。
我的理解更倾向于单位经济效益正逐步追赶前沿实验室,而非“规模最大化主义正在消亡”。或许两者本质相同。
我大致认为这是同一件事,但我愿意接受被证明是错误的。
我个人对此感到非常高兴。我喜欢能够增强人类能力的大语言模型(LLMs)——这些工具能够帮助人们完成更多工作,变得更雄心勃勃。
AGI的常见概念似乎更多地关注人类替代——即完成“经济上有价值的任务”的能力,比人类做得更好。我仍然不明白在那种情况下,人类的生活或经济会是什么样子。
我个人对GPT-5的期望正是我所得到的:模型做与现有模型相同的事情,但更可靠且“更好”。
我同意这一点。
这正是这些方法一直缺乏的关键要素——在它们已经表现良好的任务上实现可靠性和一致性。
我能想象出许多关于人类生活在那个世界中会是什么样子的愿景,但你的评论让我想到一个特别有趣的自相矛盾的情景,在AGI的常见定义中。
如果将人工智能定义为能够比人类更高效地完成“具有经济价值的任务”,那么就需要先定义“经济价值”的含义。目前而言,某物在经济中具有价值,是因为人类对其存在需求。房屋价格高昂,是因为大量拥有经济效用(用于购买商品)的人类希望拥有房屋,而房屋的供应量因各种原因受到限制。如果人类不再是系统中最具效力的价值生产者,他们将失去通过交易获取物品的能力,这将否定现有经济价值的定义。即使有很多人愿意为你的小工具支付$5美元,如果人类相对于AGI不再具备经济效用(即无法用该效用交换商品),那么这些支付意愿也毫无意义。
一般来说,这种对AGI的定义揭示了一种更深层次的信念,即存在某种与人类消费者脱离的经济价值形式。这是一种模糊的进步概念,而非承认在整个人类历史中,进步与价值始终与人类自身获得某种形式的价值或进步密切相关。我猜这基本上指向了一个没有消费者的经济体系,这本身就是一个相当离奇的概念,但在这种情况下,难道不是在说“当AGI能够完成那些控制AI系统的人认为有用的事情时,AGI就实现了”吗?因为在这种情况下,经济体系最终将主要由控制最具经济价值的智能体的人们组成。
我猜这就是各种对齐研究的全部意义所在,但我发现思考这样一个事实颇为有趣:即“经济价值”这一概念,尽管听起来对许多人而言非常严谨可量化,却因依赖于我们作为社会群体的偏好与需求而显得如此模糊。
> 也许他们即将发布某个震撼人心的模型,谁知道呢。
当前技术中没有任何东西能为AGI提供路径。这些模型在训练完成后就是固定的。
你为什么认为AGI需要在使用过程中修改模型?难道模型获得的所有洞见不能都包含在给定的上下文中吗?
因为时间在流逝,事物也在变化。
你或许可以通过将所有新信息融入上下文或通过压缩循环来实现这一点,但这要求相当苛刻。新信息量太大,即使考虑压缩也难以实现。这显然无法支持指数级增长(我预计会是亚线性增长)。
我认为很多人严重低估了每天产生的新信息量。如果你没有参与任何研究,就很难看到这种渐进但持续的改进如何累积。但试着看看你所在的公司。你知道那天人们做了什么吗?生成信息所需的时间比处理信息所需的时间更长,这是你的问题,但你真的认为你能跟上吗?也许在非常高的层面上可以,但在这种情况下,你会错过很多信息。
这样想吧:如果可以做到这一点,那么大语言模型(LLM)就不需要训练或调整了,因为你可以通过提示来完成所有事情。
不过,具体的实例并不需要同时了解世界上发生的一切才能成为 AGI。你可以根据任务向训练好的模型提供不同的上下文(甚至让模型告诉你它需要什么类型的原始数据),它仍然可能在理论上比人类更聪明。
我不是说这是创建AGI的现实或高效方法,但我认为“模型一旦训练完成就是静态的→模型不能是AGI”这一论点是错误的。
我认为这假设了数据规模和提示中可高效压缩的信息量。即使假设提示中的所有信息在上下文中是等价的,且在信息脱离上下文前已压缩到提示中,你很快就会遇到累积效应。
你说得对,你不需要无限大的数据,但我们仍在讨论指数级增长,我认为这并不会实质性改变任何事情。
因为:https://en.wikipedia.org/wiki/Anterograde_amnesia
正如我已经说过的那样,只要是在上下文中,模型就能记住东西。大语言模型(LLMs)显然能够记住它们被告诉的东西或自己输出的东西,即使是在几条消息之后。
你需要无限上下文或压缩
你可能对这个定理感兴趣
https://en.wikipedia.org/wiki/Data_processing_inequality
> 你需要无限上下文或压缩
只有当 AGI 需要无限知识时才需要,而它并不需要。
你说得对,但复合效应会很快失控。存在一个临界点,此时有限与无限的差异不再具有实质性意义,而这个临界点远低于你所考虑的范围。压缩是有极限的,因此即使新信息量不大,它也会迅速膨胀。复合函数可是很有趣的……试试每天只处理10GB新信息,看看它会以多快的速度增长。在一年过半之前,你就会进入TB级别……
这似乎有点无关紧要?人类拥有通用智能,而其上下文窗口大小大约为5MB(姑且算上这个数字)。模型权重只需具备抽象推理和查询相关信息的能力。目前模型中包含现实世界信息,其实是模型训练方式的副产品。
是的,但人类不仅拥有上下文窗口,还拥有超越记忆(权重)的能力。人类拥有许多超越记忆的特性。例如,人类大脑并非静态架构。新的神经元以及神经通路(包括现有神经元之间的连接)会不断形成和消亡。这一过程不会停止,而是贯穿整个生命周期。
我认为你的论点有道理,但对人类大脑的描述过于简化。一旦我们开始考虑复杂性,这种观点就不再成立。这也是为什么许多AGI研究聚焦于“测试时学习”或“主动学习”等领域,更不用说动态架构等其他方向。
AGI需要真正从经验中学习并构建新知识,而不仅仅是基于已见内容生成创意输出。
大语言模型(LLMs)看起来可能很“创造性”,但它们只是将训练数据和提示中的模式进行重新组合。由于没有持续的反馈循环,它们实际上无法更新自己或记住训练后的新知识。
这就是为什么你不能把一个大语言模型送到医学院,并期望它真正“毕业”。它无法像人类一样从现实世界经验中获得或整合新知识。
没有学习反馈循环,这些模型无法与不断变化的现实进行有意义的互动,也无法满足对 AGI 的期望:为新的科学和技术做出贡献。
我同意,对于简单的聊天界面来说,这是事实,但我认为这不是大语言模型(LLM) 的固有限制。我认为 OpenAI 实际上具有记忆功能,大语言模型可以指定要保存的数据,然后在以后访问这些数据。我认为,从原则上讲,这足以让大语言模型随着时间的推移学习新数据。所有可能的反论似乎都与规模(记忆和上下文大小)有关,而不是原则本身。
基本上,我不会说大语言模型由于其架构而永远无法成为 AGI。我也没有说大语言模型(LLM)会成为通用人工智能(AGI)(我对此一无所知),但我认为架构本身并不构成障碍。
大语言模型(LLMs)缺乏持久记忆、因果世界建模和自我参照规划的机制。其转换器架构是静态的,从根本上限制了动态推理和适应性学习。这些都是通用人工智能(AGI)的所有核心要求。
所以,是的,以当今的大语言模型(LLMs)来说,AGI是不可能的。但至少我们还能看到萨姆·阿尔特曼和米拉·穆拉蒂每季度在舞台上降低一个八度的声音,宣布“智能的新曙光”。还记得萨姆·阿尔特曼的 7 万亿吗?
现在,AGI 派对已经结束,是时候出售那些 NVDA 股票,准备迎接崩盘了。真是场精彩的旅程。我准备好了爆米花。
下一步将是OpenAI根据年份为其发布版本编号(就像Windows在创新枯竭后所做的那样)
Windows 95相较于前一版本是一个重大飞跃,不是吗?
后来,Windows又回归了版本号;但我不确定他们是否重新获得了大量创新?
推理,即运行时计算,最终不就是另一种形式的扩展吗?虽然它发生在不同阶段,但方程式仍是“总计算量更大 > 更智能”。从这个意义上说,将他们最大的预训练模型与来自强化学习的最佳推理策略结合,可能是目前他们可用的最具影响力的扩展杠杆。
与GPT-4相比,它处于完全不同的水平,因为它是一个推理模型,因此在这一点上它确实有所突破,而不仅仅是扩展。但就这一点而言,我认为革命性的是o1,而GPT-5只是这项技术的更成熟版本。
SAM是一位炒作型CEO,他不断为公司造势,但公告发布后……结果……嗯,人们并不真正失望,但最终对炒作感到索然无味……直到下一个周期到来……
如果你想看到真正的重大突破,关注谷歌、Anthropic、Qwen、Deepseek。
Qwen和Deepseek团队在承诺上确实做得更好,他们总是承诺得少,但交付得更多。
迫不及待想看看Gemini 3会是什么样子。
“他们声称幻觉现象大幅减少。在我自己的使用中,我还没有发现任何幻觉现象,但最近的 Claude 4 和 o3 也是如此——今年推出的机型幻觉问题大大减少了。”
这让我感到非常困惑,Claude 4(Sonnet 和 Opus)每天都会给我产生幻觉,无论是简单还是复杂的事情。而且这些幻觉只出现在一些孤立的小问题上。
在宣布过程中也出现了几次幻觉。(我每次使用 Claude 和 GPT 时都会看到幻觉,每周有好几次。无论是付费还是免费版本)
所以,看不到这些幻觉,要么是撒谎,要么是不称职。我总是试图将其归因于愚蠢,而不是恶意(汉隆剃刀)。
大语言模型(LLMs)的最大问题是,它们优化了人类的偏好。这意味着它们优化了隐藏的错误。
就个人而言,我对使用具有隐性故障模式的工具非常谨慎。即使故障率很低,它们也会导致许多问题,浪费大量时间进行调试。这让我不得不反复检查一切,并需要更加细致入微,因为我知道这些错误很难被察觉。这就像Python代码中使用了不一致的空格字符进行缩进。根本无法察觉。但如果没有解释器告诉你失败的具体行号,也无法搜索或高亮这些不同字符,该怎么办?至少在这种情况下,你知道存在错误。处理人类产生的不可见错误已经够难的了,但这似乎只是在助长“LGTM”群体。
你可以有不同的用例来触发幻觉,而无需恶意。
同意。只需对 Claude/ChatGPT 等简单地回复“你错了”,它就会开始崩溃,进入一个不断产生幻觉的循环。即使它最初是正确的,它也不会反击。它没有自信自己是对的。
只需对克劳德/ChatGPT 等简单地回答一句“你错了”,它就会开始崩溃,进入一个不断产生幻觉的循环。
是的,通过添加澄清或告诉它哪里错了来“纠正”上下文似乎是一个糟糕的方法。
相反,从你使用的初始提示开始,但进行改进,以便大语言模型(LLM)在第一次响应时就得到正确的答案。如果它仍然答错,那就再次从 0 开始。如果你希望得到准确的响应,那么上下文似乎会很快被“污染”。因此,一旦它偏离了轨道,最好从头开始。
你提出了一种不错的办法来绕过当前技术版本的局限性。
祖父母级别的评论只是指出这种局限性存在,而非无法绕过。
是的,可能是之前的训练数据中,当人类训练师告诉模型它错了时,模型收到了强烈的负面信号。在更主观的领域,这可能导致阿谀奉承。如果人类总是对的,数据总是对的,但数据可以有多种解释方式,比如人类心理学,模型就会调整以适应人类的意见。
如果问题涉及人类持不同意见的更硬性事实,这可能使模型陷入本质上的自我矛盾状态,可能性的范围从各个方向被压缩,因此模型被迫给出与人类和数据都一致的极端异常值。虚构参考信息的真实概率可能极低,但从模型角度看,它仍可能是糟糕选项中概率最高的输出之一。
他们可能采取的策略是让人类在模型正确时仍告知其错误,并因其坚持立场而给予奖励。
我向ChatGPT系统输入提示,要求它不要阿谀奉承,要诚实,并告诉我如果我错了。当我试图纠正它时,它会编造更复杂的循环来解释它第一次是正确的。
只需对 Claude/ChatGPT 等简单地回答“你错了”,它就会开始崩溃。
另一方面,该死的 Gemini Pro 却坚持自己的观点,开始认为自己处于测试场景中,并采取对抗态度,声称自己使用了用户不知道的工具等等。
我猜想,西蒙已经使用大语言模型(LLMs)有一段时间了,已经培养出了很好的直觉/感觉,能够提出更少产生幻觉的问题。
是的,我认为这是完全正确的。我不会提出可能产生幻觉的问题(比如向无法搜索的大语言模型(LLM)引用关于某个主题的论文),所以我很少看到幻觉。
但你怎么验证呢?你一直在问你已经知道答案的问题吗?深入的答案?
我看到的幻觉往往是微妙的,尽管通常具有决定性意义。我在编写代码、进行测试,甚至只是写作时都会看到这些幻觉。今天的公告中也存在幻觉,例如机翼剖面图的示例[0])。更明显的幻觉示例是,我曾请求帮助改进论文摘要的写作。我提供了草稿,它却插入了原本不存在的数字和指标。我再次尝试提供了我的整篇论文。我再次明确要求不要添加新数字。我在新会话和私人会话中再次尝试了整个过程。Claude 的表现比 GPT 4 和 o3 更好,但如果没有后续操作和几次迭代,它们都无法做到这一点。
老实说,我很好奇你们在哪些地方使用它们时不会看到幻觉
[0]这是一个微妙但著名的误解。甚至在教科书中也能看到这种误解。幻觉可能是由提示中包含伯努利(Bernoulli)引起的
如今我使用这些模型进行编码时,通常是在一个能够循环执行代码的工具中——因此我甚至不会注意到幻觉,因为模型会自行纠正。
对于事实信息,我只使用支持搜索的模型,如o3或GPT-4。
我其他的大多数用例涉及将大量文本粘贴到模型中,让它提取信息或以某种方式处理文本。
我认为这并不意味着输出中没有幻觉。假设编译通过并通过测试就意味着没有幻觉,这种想法太天真了。
我也使用过这两种模型。虽然o3通常表现更好,但我发现两者都经常出现幻觉。
我想我的问题是如何验证“无幻觉”的声明。
也许我误解了你的声明?你说“我很少看到它们”,但我假设你指的是更多情况,我认为任何人都会合理地将此解读为更多情况。你是只是声称自己没有看到它们,还是声称它们不常见?我解读的是后者。
我不明白为什么通过测试的代码不会对大多数形式的幻觉起到保护作用。在代码中,幻觉意味着一个不存在的函数或方法。使用该函数或方法的测试确实证明了它的存在。
可能使用方式有误,但我会将其归类为错误或疏漏,而非幻觉。
我们对“幻觉”的定义是否存在差异?
难道你没有构建一个系统来检测并移除特定类型的幻觉,并在检测到后重复该过程,然后再将结果呈现给你吗?
所以你看到的幻觉与范·海伦看不到的棕色M&M巧克力豆不同,因为它们已被移除,而不是它们从未存在过。
抱歉,这比我原本想表达的条件更严格。我同意,测试是一种良好的缓解策略。我们出于类似原因使用它们。但我认为仅通过测试不足以断定代码无幻觉。
我的观点更接近于“通过测试并不意味着代码无 bug”,这我想我们都能认同是一个相当平凡的论点?
我同意,我认为这就是我们分歧所在。那么,让我们继续在这里讨论[0](如果其他人也在关注,可以点击链接)。我补充一点,我认为我们会遇到关于“分布”的定义问题,我认为编码本身就是分布的一部分。
[0] https://news.ycombinator.com/item?id=44829891
在许多情况下,Claude Code 声称已经完成了任务,但实际上只是编写了模拟代码。它还会肯定地回答问题(例如,这个值是在哪里传递的),但实际上只是凭空杜撰。因此,如果你在 Opus/Sonnet 上没有看到幻觉,那么你可能没有深入观察。
这是因为你没有给它一个工具来验证任务是否完成。
TDD效果不错,让它先编写最基本的测试(或亲自编写测试),然后再让它实现代码。
我在主 CLAUDE.md 中有一个固定命令:“在声称任务完成之前,始终运行 `task build`”。我所有的项目都使用结构非常标准的 Task[0],在构建项目之前,构建总是运行 lint + 测试。
有了半强大的测试套件,如果 `task build` 完成且没有错误,我可以相当确定没有发生重大故障。
[0] https://taskfile.dev
如果它从训练数据中的众多示例中获取了内容,这真的算是幻觉吗?
是的。虽然这是一种更容易解决的幻觉。也就是说,如果你知道该找什么,但这正是问题所在。真相是复杂的,谎言是简单的。更准确地说,真相具有无限的复杂性,而关键问题在于什么是“足够好”。答案是一个不断变化的目标。
我认为,如果你向o3提出任何超出其能力范围的数学问题,它几乎肯定会在输出中某个地方给出错误答案。类似地,如果你让它用文学作品来解决一些不明显的问题,它常常会产生不在论文中的幻觉结果。
我更新了帖子中的该部分,澄清了我的意思。感谢您指出这一点,我确实需要提供更多的背景信息。
我认为这取决于输入。对我来说,Claude 4 一直在产生幻觉,尤其是在生成无效的 JSON 方面非常自信,例如 Grafana 仪表板,其中充满了语法错误。
请看这里 https://pbs.twimg.com/media/Gxxtiz7WEAAGCQ1?format=jpg&name=…
这怎么会是幻觉呢?
你看到了什么样的幻觉?
几周前,我把一份 4 页的文件从第一人称改写成了第三人称。编辑完成后,我把文件交给了 Claude Sonnet 4,因此文件完全以第三人称书写。我让它审查并标出仍以第一人称书写的部分。
>浏览文档时,我发现有多处仍以第一人称书写:
随后它列出了一系列“他们/他们”的表述。我让它澄清“他们”是否属于“第一人称”,它回应道
>不,“他们”不是第一人称——它是第三人称。我在分析中犯了一个错误。第一人称是:我、我们、我、我们、我们的、我的。第二人称是:你、你的。第三人称是:他、她、它、他们、他们、他们的。仔细查看文档后,它似乎完全以第三人称撰写。
即使是好的模型在现实世界应用场景中仍表现不佳,而这些场景本应是它们的强项。
这并不完全符合我对“幻觉”的定义——这显然是个低级错误,但模型并未自信地断言一个不真实的事实(比如错误地指出赢得超级碗的球队)。
“他们声称幻觉现象大幅减少。在我自己的使用中,我还没有发现过一次幻觉现象,但最近的 Claude 4 和 o3 也是如此——今年的模型中,幻觉现象已经大大减少了。”
你能估算一下你遇到的“愚蠢错误”的数量,与幻觉相比如何?我认为许多读者可能会看到“幻觉”一词,并误以为你指的是“幻觉和愚蠢错误”。
我在帖子中提到了一个愚蠢的错误——表格排序错误。
我没有正式统计过这些错误,但大语言模型(LLMs)中的愚蠢错误仍然非常常见。我发现这些错误后,会自己纠正,或者在可行的情况下,提醒大语言模型(LLMs)进行纠正。我认为这是使用这些系统时经常会遇到的问题。
这有道理,我认为你对幻觉的定义在技术上是正确的。未来,我认为你的读者可能会感谢你将“愚蠢的错误”与幻觉分开追踪。它们是使用这些系统时常见的一部分,但会占用用户的部分认知负荷,因此了解新模型发布后这种负荷是上升、下降还是保持一致是有用的。
这样说很有道理。
作为用户,当模型告诉我一些明显错误的信息时,它被归类为幻觉还是愚蠢错误并不重要。从我的角度来看,这两者是同义的。
我认为这属于幻觉。你的定义是什么?我也是研究人员,据我所知,这个定义一直相当宽泛,适用于多种形式的错误。(它一直模糊不清,但在被自然语言处理领域采用后变得更加模糊)
很难确定错误的原因,但难道不是因为对“世界”的建模不准确吗?(这里的“世界”指英语语言)在解释提示或文档时,难道不是对英语语言产生了某种幻觉吗?
我很难想象一个“他们”会被用作第一人称的语境。尽管谷歌的AI声称可以找到相关结果,但我无法找到任何搜索结果。它提供了两个链接,第一个是Quora上的回答,称人们不会这样做,但将其表述为“并非不可能,只是闻所未闻”。第二个结果仅讨论了单数形式的“你”。我认为这两个结果也属于幻觉,因为答案并未得到链接的支持。
我个人对幻觉的定义(我以为这种观点很普遍)是:当一个模型对世界做出一个完全虚构的事实时——例如“詹姆斯·韦伯望远镜拍摄了首张系外行星照片”。
我刚刚被指向这篇新论文:https://arxiv.org/abs/2508.01781——《大型语言模型中幻觉的综合分类》——其引言部分的定义与我的认知模型相符:
“这种现象描述了内容的生成,这些内容虽然往往看似合理且连贯,但实际上是不正确的、不一致的,或者完全是虚构的。”
然后,该论文给出了一个正式的定义:
“可计算的大语言模型(LLM,用 h 表示)与可计算的基准函数(f)之间的不一致性”
谷歌(公司,不是搜索引擎)说[0]
它进一步给出示例,我认为这显然是一个误报结果。
我认为该错误可归类于“上下文不一致”(4.2)、“指令不一致/偏离”(4.3)或“逻辑不一致”(4.4)中。我认为这支持一个相当广泛的定义。我认为它也符合第4节中定义的其他类别。
这不是可计算的基准事实吗?
我认为是的,这是一个这样的“i”的例子,我甚至会说这是一个相当宽泛的定义。只是说,如果它编造了它被训练过的东西(而不是它没有被训练过的东西),那就被认为是幻觉。我非常确信大语言模型(LLMs)吸收了大量的英语语法书,所以我认为可以说这是训练的一部分。
[0] https://cloud.google.com/discover/what-are-ai-hallucinations
由于我主要用于编码,虚构的函数名称是最常见的。当然还有完全错误的代码,这可能不被视为幻觉。
我认为所使用的AI编码类型也会影响人们对“幻觉”与其他错误普遍性的感知。
我通常使用代理式工作流程,当模型输出大量错误百出的代码供我审查时,“幻觉”并不是我首先想到的词。尽管完全有可能正是幻觉出一个不存在的参数导致模型脱轨,并开始经典的“越修越糟”循环。
而对于AI自动完成/建议功能,如果熟悉所处理的领域,那么虚构的方法名、参数或其他内容显然会立即被识别为“幻觉”。
是的,幻觉现象非常依赖上下文。我猜楼主是在高度文档化的领域工作。
“你是GPT-5吗?”——“不,我是GPT-4,GPT-5还没发布。” “今天已经发布了。”哦,你说得对,我是GPT-5。你已达到GPT-4免费使用的上限
哈哈,太狠了。也许明天吧
改进后的骑自行车鹈鹕当然可能存在过拟合/基准测试作弊……
这里激进的定价策略对OpenAI来说似乎有些异常。如果他们拥有强大的护城河,就无需采取这种措施。竞争确实异常激烈。
他们在应用程序方面以巨大的优势获胜,但在 API 方面却输给了 anthropic
https://finance.yahoo.com/news/enterprise-llm-spend-reaches-…
大概好了 5%。我认为他们显然别无选择,只能与 Gemini 2.5 Pro 进行价格竞争。尤其是 Cursor 更改了他们的默认设置。
也许他们最近感受到了失去 PRO 客户(比如我)的影响。
他们的PRO模型(依我之见)根本不值PLUS的10倍!
差得远了。
尤其是当新竞争对手(如z.ai)提供极具吸引力的竞争时。
Nano的5美分定价很有趣。或许这会迫使谷歌再次下调价格,而近期他们的价格一直在缓慢上涨。
也许需要/想要数据。
OpenAI和大多数AI公司不会使用提交到付费API的数据进行训练。
为什么不呢?
他们可能担心人们不会使用API,我猜。不过他们可以设置不同等级,让你支付额外费用以确保你的数据不会被用于训练。
他们也不使用受版权保护的材料进行训练 /s
那不一样。他们使用从网络上抓取的数据进行训练。他们不会使用付费客户提交到他们API的数据进行训练。
如果他们敢说他们使用自己不拥有的数据进行训练,那么当他们说他们不会使用人们自愿提交给他们的数据进行训练时,我并不乐观。
我不明白你的逻辑。
他们已经承认做了件坏事——未经许可使用受版权保护的数据进行训练。为什么这表明他们会对更严重的事情说谎?
>为什么这表明他们会对更严重的事情说谎?
因为他们了解自己的受众。这是一个对版权不感兴趣、希望他们赢得诉讼的受众。他们正在向这类人推销这种论点。
与此同时,当法律部门对这些数据进行常规传票程序时,这些数据是他们自愿提交到在线服务器上的,同一受众却完全惊慌失措。突然间,他们觉得自己的隐私被侵犯了。
在我看来这毫无逻辑可言,但围绕这个话题的许多讨论本就不是基于逻辑。
哦,他们从未做出过这样的承诺。他们试图声称通过模型洗白版权材料是可行的。
如果你相信这一点,我有一座桥可以卖给你……
如果泄露OpenAI正在利用大量机密数据进行训练,他们将立即面临诉讼洪流并可能被迫关闭。许多大型公司员工拥有账户,而这些公司仅因“不要使用我的数据”的勾选框才允许他们使用。这些账户也不一定都与公司邮箱绑定,所以OpenAI无法进行区分。
这是对母模型的巨大提炼,因此推理成本可能较低。
“API中的GPT-5更简单:它提供三个模型——标准版、迷你版和纳米版——每个模型均可运行在四个推理级别之一:最低(其他OpenAI推理模型此前未提供的全新级别)、低、中或高。”
它真的更简单吗?对于目前使用GPT 4.1的用户,我们从3个选项(4.1、 4.1 迷你和 4.1 纳米)到至少 8 个选项,如果不考虑 GPT-5 标准版——我们现在必须在 GPT-5 迷你最低、GPT-5 迷你低、GPT-5 迷你中、GPT-5 迷你高、GPT-5 纳米最低、GPT-5 纳米低、GPT-5 纳米中和 GPT-5 纳米高之间进行选择。
在选择这些选项时,我们始终需要思考:是尝试调整当前使用的提示词,还是直接更换GPT-5版本或其推理级别?
如果推理是可行的,那么你已经需要在 4.1 变体中添加 o3-mini-high、o3-mini-medium、o3-mini-low、o4-mini-high、o4-mini-medium 和 o4-mini-low。GPT-5 的方式对我来说似乎更简单。
是的,我认为是这样。参数设置为n=1,2,3,m=0,1,2,3。这里有明确的结构,且你知道每个参数的调整方向和幅度。
但如果可以选择,你会倾向于更大模型还是更强推理能力?还是两者适中?
如果需要世界知识,那么选择更大模型。如果需要问题解决能力,那么选择更多推理能力。
但具体选择nano/mini/main和minimal/low/medium/high的细节,取决于实验结果以及你的成本/延迟限制。
我需要先积累使用经验。我主要使用Mistral,所以只能在“思考”与“不思考”之间选择。
Mistral也有小、中、大三种规模。其中小规模和中规模都包含“思考”版本,如devstral和codestral ++
其实也没简单多少。
啊,但我从未手动路由过这些。我只稍微使用过大语言模型(LLMs),主要是为了看看它们不能做什么。
取决于你在做什么。
> 取决于你在做什么。
试图获得一个准确的答案(与客观真理最相关)关于一个我已经知道答案的话题(或者为什么我要问?)。对我来说,这就是使用这些工具时总是出现的“这取决于,调整它”的答案的挑战——它要求工具对你来说没有用处(因为已经有一个解决方案),才能进行调整。
如果成本不是问题(例如不常用的单次任务),那么你可以选择最大模型并使用最多的推理。也许可以将其与最大模型但不使用/较少推理的版本进行比较,因为有时推理可能会带来负面影响(就像人类过度思考某件事一样)。
如果你经常执行某项任务,你需要某种基准。这可能只是比较较小模型生成的输出与较大模型生成的输出质量,如果你不知道真实情况的话。
当我看到“更简单”时,我理解为他们没有使用其聊天优化框架来猜测应使用哪种推理级别和模型。订阅聊天服务(ChatGPT)和他们API上的聊天优化模型似乎有一个特殊的框架,根据一些启发式规则改变推理方式,并在无需用户输入的情况下在不同模型大小之间切换。
使用API时,你可以选择模型大小和推理努力程度。虽然选择更多,但也有一个清晰的思维模型和一个简单的选择,你可以控制。
最终他们是在出售代币,所以多试几次。
尽管他们的模型被用于招聘、商业、教育等领域,但这家市值数十亿美元的公司仅使用一个包含非常人为问题的基准测试(BBQ)来评估其模型的公平性。我对此感到有些失望。
有人能解释为什么他们移除了推理模型(包括GPT-5)中温度和top-p的参数控制吗?这让我觉得,这使得构建需要高一致性的小任务变得更加困难,而在API中,我非常重视能够将某些任务设置为低温度的能力。
这是因为所有采样器设置都会破坏安全性和对齐性。这就是为什么仍然使用top_p/top_k,而不是tfs、min_p、top_n sigma等,为什么温度被锁定在0-2的任意范围内等。
开源项目在采样器方面比这些公司领先多年。这就是为什么他们的模型如此出色,令人印象深刻。
温度是响应变异控制吗?
是的,它控制下一个令牌或文本被选中的变异性或概率。
值得了解 – > GPT-5的知识截止日期为2024年9月30日,GPT-5 mini和nano的截止日期为2024年5月30日
哦,原来是这样,基本上是一整年的训练和测试。还是说它已经准备好了,只是出于足够好的商业策略考虑而推迟了发布?
本月早些时候《信息》的报道称,GPT-5是在过去1-2个月内开发的,此前在训练方法上取得了某种突破。
> 据一位参与该项目的人士透露,截至6月,由于技术问题,OpenAI正在开发的模型中没有一个足够好到可以被标记为GPT-5。
但这可能指的是训练后阶段,而基础模型是在更早的时候开发的。
https://www.theinformation.com/articles/inside-openais-rocky…
https://archive.ph/d72B4
我认为训练数据的截止日期与模型训练的具体时间是独立的。
AI实验室会收集训练数据,然后进行大量处理、过滤等工作。
模型训练团队会对处理后的训练数据应用不同的参数和技术进行训练。
听到OpenAI收集了截至2024年9月的数据,将其存储在某种数据仓库中,然后花数月时间实验各种过滤和处理方法以及不同的训练参数,我不会感到惊讶。
OpenAI受到《纽约时报》等组织关于“版权侵权”的指控更为激烈。
这么早就截止知识收集,真是奇怪。Claude 4.1 有 2025 年 3 月的数据,比这晚 6 个月,但结果相当。
除非在过去的 12 个月里,网络上的内容大多是由人工智能生成的,以至于降低了模型的质量。
这样是否足够晚,以至于它已经听说过Svelte 5?
是的,我觉得这很奇怪。难道不应该使用更近期的数据吗?
那么,“系统卡片”现在指的是以前的“论文”,但没有那么多细节?
AI实验室通常使用“系统卡片”来描述其评估和安全研究流程。
过去它们更多关注训练过程本身,但如今这部分内容越来越保密。
不,系统卡片是销售工具。我认为其他市场通常称之为“产品手册”。
> 但目前这里是我从GPT-5以默认“中等”推理努力运行时得到的鹈鹕:
比较低、中、高推理努力的鹈鹕会很有趣 🙂
最近我尝试了GPT-OSS-120b,发现最终答案的差异巨大,其中“低”几乎等同于“无推理”,而“高”则可能消耗看似无尽的令牌。我猜GPT-5的差异也会类似?
> 比较低、中、高推理努力程度的鹈鹕会很有趣
是的,我正在研究这个——后续文章中会出现更多鹈鹕。
看看它们如何完成以下循环也会很有意思:编写 SVG、渲染 SVG、将 SVG 反馈给大语言模型(LLM) 进行审查、迭代。这有点像人类实际创作鹈鹕的 SVG 那样。
SVG 中骑自行车的鹈鹕仍然是一个挑战,这既有趣又令人着迷。
你用手在文本编辑器中手动创建一只骑自行车的鹈鹕的SVG有多容易?
没有人阻止他们渲染并优化它。这正是我们期望AGI会做的事情。
我并非暗示这很简单,只是觉得有趣,因为我无法像评估“人类最后的考试”那样评估这些模型,但我能看到这些模型在鹈鹕上的进展。
无需查看渲染输出 🙂
而且从未见过骑自行车的鹈鹕 🙂
我惊讶于他们至今尚未尝试通过这种测试,或至少将其纳入内部测试,因为他们知道自己将被此测试评判。
我对GPT-5充满期待,但坦白说,它在编码方面的表现比GPT-4更差。
是GPT-4还是GPT-4o?
METR仅为2小时15分钟。快速起飞的可能性较低。
这似乎是让人们感到害怕的AI 2027那条线,对吧?https://aisafety.no/img/articles/length-of-tasks-log.png
我认为这条曲线在几小时左右很可能变得几乎垂直。我认为在1小时以内的时间范围内,时间的缩放会放大代理必须内化的复杂性。而几小时之后,人类的局限性意味着我们必须将任务分解为子任务/抽象,每个子任务的复杂性都是有限的,且必须被内化。还有一类技能是必要的,如抽象化、子目标创建、错误纠正。这是一个薄弱的论点,但我认为将人类任务的时间缩放作为可靠的指标并不合理。
它位于指数曲线上方,且正好在超指数曲线附近
这不正是人们所预期的吗?这令人惊讶吗?
不,这在Manifold和lesswrong上的表现都低于预期(https://www.lesswrong.com/posts/FG54euEAesRkSZuJN/ryan_green…)。两者的中位数均为约2.75小时(这已代表了看跌的放缓)。
差距并不大——昨天,这种低概率的发生几率约为 35%。在 Claude Opus 4.1 发布之前,这一比例为 30%,该版本将预期的代理编码能力向下调整。
感谢您的分享,这是一个很好的帖子!
这对AI批评者来说并不意外,但回到2022年,打开r/singularity,然后回答:人们期待的是什么?哪些人?
SamA已经承诺明年实现AGI三年了,就像Musk承诺明年实现FSD十年一样。
我不知道“人们”期待什么,但考虑到炒作的程度,我不得不猜他们期待的比我们目前得到的更多。
“快速起飞”这个术语我认识,这表明有些人相信OpenAI的说法,即这种技术(变压器)将导致科幻风格的人工智能,而这显然没有发生
>SamA已经承诺明年实现AGI三年了,就像马斯克承诺明年实现FSD已经十年了。
他自去年九月以来是否说过任何关于此事的话:
>我们可能在几千天内(!)实现超级智能;可能需要更长时间,但我相信我们终将实现。
这至少需要2000天,即5年。而他提到可能需要更长时间。
他之前是否曾承诺过明年实现AGI?看起来他的预测都指向2020年代末,现在他认为是2030年代初。虽然这仍可调侃,但与你的描述完全不符。
我认为有很多岗位需要大量规划才能有效管理一个约8小时的班次,但也有良好的交接流程。因此,一旦AI达到那个水平(2027年?),我们就会更接近AI承担“具有经济价值的工作”。
什么是METR?
https://www.lesswrong.com/posts/deesrjitvXM4xYGZd/metr-measu…
2小时15分钟是模型能够以50%的概率完成的任务时长。因此,从这个角度来说,时间越长越好。或者至少可以说,任务越复杂,潜在风险也可能越高。
https://metr.github.io/autonomy-evals-guide/gpt-5-report/
为了可能为他人节省时间,METR是一个名为“模型评估与威胁研究”的组织,
> 提议根据人工智能代理能够完成的任务长度来衡量人工智能的性能。
这并不难理解,但人们提到它的方式让我觉得它代表了一个实际的指标。
实际上,新模型发布后,我做的第一件事就是尝试升级 `llm`。谢谢你,@simonw!
现在正在处理!https://github.com/simonw/llm/issues/1229
一样,看起来他还没有将 5.0 添加到软件包中,但应该很快就会添加了。
https://llm.datasette.io/en/stable/openai-models.html
> 一个实时路由器,根据对话类型、复杂程度、工具需求和明确意图快速决定使用哪个模型
这对我来说有点有趣。我认为到目前为止,我们基本上可以直接访问底层模型(除了系统提示和安全防护措施),但我好奇未来是否会越来越多地出现我们与模型之间的中间层基础设施。
这仅适用于ChatGPT。API可以直接访问特定模型。
可以将其视为低级路由。需要注意的是,这允许其他非活动部分不驻留在内存中。据我所知,Mistral很早之前就提出了这个概念。
实际上,这只是ChatGPT中推理模型与非推理模型之间的高级路由机制。
这些新的命名规范虽然不完美,但清晰得多,我相信这将有助于我的同事。
它似乎经过训练,能够有效地使用工具来收集上下文。在这个例子中,与4.1和o3相比,它在第一轮中以一种相当酷的方式使用了6(检索可能相关的不同类别)。使用此类工具调用会增加令牌消耗,但激进的定价策略应能抵消这一影响。通过提示词调整,可能也能让它减少对工具的依赖。
https://promptslice.com/share/b-2ap_rfjeJgIQsG
我很好奇大家使用什么平台来测试 GPT-5?我沉迷于 claude 代码的世界,以至于我实际上不知道除了 claude 代码之外还有什么更好的选择…
我一直在使用 codex CLI,这是 OpenAI 的 Claude Code 的等效产品。你可以这样运行它:
Cursor
这是文章中对我来说的关键信息:
> ——————————-
“reasoning”: {‘summary’: “auto”} }'
这是该API调用的响应。
https://gist.github.com/simonw/1d1013ba059af76461153722005a0…
如果没有这个选项,API 通常会出现较长的延迟,因为模型会消耗大量思考令牌,直到你开始收到最终响应的可见令牌。
比 Sonnet 4 便宜三分之一?或许有所改进吧。
> 并最大限度地减少奉承
现在我们谈论的是一个很好的功能!实际上,这是我对 Cursor(主要使用 Sonnet)最不满的地方之一。
“你完全正确!”
我的意思并不是真的 Cursor,但没关系。如果我们能摆脱这些奉承令牌,我会非常兴奋。
在我早期的测试中,GPT-5在这方面明显少了很多烦人的地方。给人一种只做自己该做的事,没有多余花哨的感觉。
>比Sonnet 4便宜三分之一?
价格应该与Opus比较,而不是Sonnet。
哇,如果是真的,那便宜了7倍。如果是真的,那太疯狂了。
西蒙,一如既往,我感谢你简洁而专注的撰写。这真的有助于理解结果。
这个“系统卡”似乎突然凭空出现。有形成教派的迹象。这只是我们通常所说的技术文档吗?
这是“模型卡”的变体,随着AI模型的普及,模型卡已成为标准术语,但此次更名是因为文档不仅涵盖模型信息,还涉及工具链内容。但这份文档的PDF大小显然不符合模型卡的简洁标准,更像是技术报告,而模型卡应是更简洁的参考文档。
基本上重复了通过常规公关渠道发布的内容,只是进行了改写。
没有提到那个“房间里的大象”(缺失的基准测试),基准测试在哪里?
@simonw 已经遭到入侵。真遗憾。
抱歉我在帖子中没有提到“独立基准测试尚未可用”,我经常在模型发布时提到这一点,这次可能觉得不用再提了。
哇,这看起来不错。而且很便宜!你如何搭建一个代理来运行Claude Code在GPT-5上?
考虑一下:https://github.com/musistudio/claude-code-router
甚至:https://github.com/sst/opencode
与上述任何一方均无关联,但看起来很有前景。
> 显然是一只鹈鹕
对吧 😀
基本上是Opus 4.1……但更便宜?
便宜是轻描淡写……输入成本不到Sonnet的1/10,输出成本接近1/8。我怀疑他们是否利用巨额新投资以低于成本的价格出售API来挤压竞争对手。如果他们真能以Sonnet计算成本的一半实现Opus 4.1的性能,那确实做得很好。
我并不感到惊讶,最近几天我一直在尝试GPT-OSS,其架构在响应准确性和质量方面表现极快,远超我过去两年尝试过的绝大多数本地模型。既然他们已公开发布该架构,想必私下里还掌握着更强大的技术。
面对无限需求,我认为这种策略行不通。这不像打车服务,你可能每天只做一两单,但如果价格足够低,你可能会每天做100单。但对于AI来说,需求会完全放大100倍。