外媒推测 DeepSeek R2 发布计划受阻,因 CEO 梁文峰对性能不满

6 月 26 日——中国人工智能初创公司 DeepSeek 尚未确定其 R2 模型的发布时间,因 CEO 梁文峰对该模型的性能不满意,The Information 于周四报道,援引两位知情人士的消息。

R2是DeepSeek广受欢迎的R1推理模型的继任者,原计划于5月发布,目标是提升编码和在英语以外语言中的推理能力, 今年早些时候曾报道。

过去数月,DeepSeek的工程师一直在对R2进行优化,直至梁博士批准发布,据《The Information》报道。

报告称,DeepSeek已与部分中国云公司联系,向其提供技术规格以指导其在服务器上部署和分发该模型的计划。

《The Information》称,目前使用R1的云客户中,大多数正在使用Nvidia的H20芯片运行该模型。

特朗普政府4月实施的新出口限制措施已阻止Nvidia向中国市场销售其H20芯片——这是当时该公司唯一可合法出口至中国的AI处理器。

共有 148 条讨论

  1. 文章标题为《DeepSeek R2 发布受阻,因 CEO 对进展持保留态度》,但文章正文中指出发布受阻的原因是由于出口限制导致的 GPU 容量不足,而非进展不足。文章正文中甚至未提及“进展”一词。

    我无法想象R2的需求会比R1更高,除非它有重大突破。也许R2会是一款更大、性能更低、价格更高的型号?

    Deepseek可以在美国或欧盟的数据中心部署……但那将意味着承认失败。

    1. 文章中提到:

      >6月26日 (路透社) – 中国人工智能初创公司DeepSeek尚未确定R2模型的发布时间,因为CEO梁文峰对它的性能不满意,

      >据《信息》报道,过去几个月,DeepSeek的工程师一直在完善R2,直到梁文峰批准发布。

      但是的,文章的大部分内容都与缺乏GPU有关,这确实很奇怪。

      1. 我敢肯定《信息》杂志没有获得DeepSeek的内部信息或来源。他们最多是基于那些关注中国人工智能的人在网上随意讨论的内容来撰写文章。

        1. 想必CEO应该有过相关声明。如果DeepSeek之前说5月发布,但现在都快7月了,他们应该对此作出解释。

          虽然我希望了解“这是因为芯片制裁”这一角度的来源。中芯国际声称他们可以制造5纳米芯片,而且大量7纳米芯片可以达到与英伟达生产的任何芯片相同的计算能力。这不会是市场领先的竞争,但推迟发布几个月不会改变这一点。我实在看不出来DeepSeek的生产发布日期与芯片制裁之间有何关联。除非他们只是顺带提了一下。

            1. 从表述上看,这可能是三个来自Reddit的匿名随机用户,他们在线上听说过DeepSeek。

              1. 引用来源的表述极为规范,这意味着记者已核实了来源的身份(无论是内部人士还是掌握内部信息的人士)。

                1. 这有什么关系?

                  如果记者本身就不值得完全信任……那么相信他们会严格遵守即使是最规范的规则,似乎就更不可能了。

              1. 第二个观点(对新闻业的准确性保持批判态度)并不必然从第一个观点(存在不良记者)中推导出来。

                尤其是因为替代方案是生活在一个没有事实的世界中。

                有些人可能喜欢这样,但我更希望我的现实是由客观性而非权威构建的。

            2. 实际上,我认为Deepseek的一位研究人员曾在推特上说过,但那条推文似乎已被删除。

          1. > 使用H20来支持DeepSeek V3/R1简直是超级低效。就像,R1是迄今为止发布的最不适合H20的模型。

            为什么?有没有相关链接可以阅读,解释为什么会这样?

            1. MLA为了节省内存带宽会消耗更多浮点运算,而H20拥有充足的内存带宽且几乎没有浮点运算需求。MLA在H100/H800上是有意义的,但在H20上基于GQA的模型是更好的选择。

              1. 不确定你指的是什么——是否有技术文档的链接可供参考?在训练和推理过程中,MLA的浮点运算次数远低于MHA(金标准),但准确性(模型性能)远优于GQA(参见DeepSeek论文中的对比,或尝试DeepSeek模型与LLAMA在长上下文中的对比)。

                更一般地说,无论使用何种硬件架构,你都可以通过平衡架构的其他参数来优化吞吐量以实现主要目标(初始训练;后续推理)。即使训练效果不佳,如果你想通过公开模型产生全球影响,你应瞄准下一代NVIDIA推理硬件。

              2. MLA指的是多头潜在注意力吗?

              3. Deepseek是否已经解决了如何使用混合精度进行训练的问题,从而从显卡中获得更多性能,并且许多训练步骤能够以传统上在训练后量化类型精度(块压缩)下运行?

    2. > 由于出口限制导致的GPU容量不足

      人类进步本应惠及所有人,却被少数权势集团为了维护自身壁垒而阻碍。我们生活的世界真是令人悲哀。

        1. 媒体主导的叙事真精彩。

          真正的原因是美国无法公平竞争

          1. 在你的书中,肆意盗用知识产权和企业间谍活动被认为是公平的吗?

            1. 你指的是谁的肆意盗用知识产权?

              1. 好莱坞从爱迪生开始…

                > 托马斯·爱迪生在电影业早期阶段的激进专利执法,尤其是他对电影技术的控制,在好莱坞成为电影产业中心的发展过程中发挥了重要作用。出于控制市场和消除竞争的欲望,爱迪生的诉讼和商业行为迫使独立制片人向西迁移,最终促使他们在洛杉矶建立制片厂,远离爱迪生的法律管辖范围。

              2. 在这种背景下,中国显然是显而易见的答案。

                    1. 现在我想起了“住在玻璃房子里的人不该扔石头”这句话? 🙂

    3. 但DeepSee其实不需要托管推理服务,对吧?如果他们开源的话。我看不出来这些公司为什么要托管推理服务。DeepSee不需要推广(大家都知道他们),而对SOTA的巨大需求会迫使西方公司不得不托管它们。

      1. 发布模型在提升知名度和做出重大地缘政治及文化声明方面取得了巨大成功。

        但他们会继续发布权重,还是像OpenAI那样找个理由不再发布?

        归根结底,即使他们发布权重,他们可能也想通过托管模型API和消费者移动应用来赚钱并利用品牌影响力。

        1. 如果他们继续发布权重+详细报告说明他们做了什么,我真的不明白为什么。我的意思是这很酷。我就是不明白为什么。这是一个竞争激烈的环境,每一丝护城河都至关重要。我不认为他们天真。我认为我天真。

          1. 如果你不出现,你就消失了。

            现在他们已经牢牢地站在了地图上,这应该有助于招聘、做交易、影响力。如果他们停止发布某些内容,他们就有可能被贴上“一炮而红的幸运儿”的标签。

            如果他们有理由相信未来不久能取得更好的成绩,那么发布当前技术或许是有意义的。

          2. 如果加快速度是首要目标,那么开源人工智能可能比闭源人工智能发展得更快,因为它无需对隐私问题过于担忧,并能欢迎外部贡献。

          3. 我认为这些公司都没有将从客户的推理定价中获利作为长期目标。

            1. > 我认为这些公司都没有将从客户的推理定价中获利作为长期目标。

              如果不是这个目标,DeepSeek目前唯一收费的服务是什么?他们声称自己的推理端点有545%的成本利润率,这可能是真的也可能不是,但他们提到这一点本身似乎表明这对他们和他人来说具有某种重要性。

              1. 当然,在过渡期内,他们能从推理中收回部分成本是有帮助的。我只是说,未来拥有更高智能的系统可以以比向客户收取交互费用更好的方式赚钱。例如,它可以开展研究项目,如果成功,这些项目可以产生巨额收入。

      2. 也许他们从收集的使用数据中受益?

    4. 我对整个事情的真实性持怀疑态度。这篇文章链接到另一篇文章,而那篇文章恰好在付费墙后面,说“GPU出口制裁正在发挥作用”是美国政府、民众和投资者都想听到的消息,所以我认为这里很可能将缺乏依据的猜测和一厢情愿的想法当作事实来呈现。

    5. > …但那将等于承认失败。

      鉴于DeepSeek被中国军队使用,我怀疑他们将服务器托管在美国是否合理,因为这项技术的能力远不止于盈利。

    6. 缺乏GPU容量的说法听起来像是胡说八道,而且没有来源。你不能把它作为次要功能提供,就像O-3或只是启用推理功能一样。

      1. 也许他们只是在等待看看是否能在中国生产的硅片上运行?只是猜测

        1. 我认为我真正的问题是,它的速度有多慢是容易提前预测的。如果它在速度上达不到设定的目标,他们可以选择更小的型号。

          只有质量在训练前是不可预测的。

  2. 他们最近发布了r1-0528模型,相较于原始R1模型实现了重大升级,其性能已与当前最佳的西方专有模型大致相当。让他们慢慢开发R2吧。

    1. 目前我使用的模型仅限于o3/o3-pro和R1-0528。OpenAI模型在处理数据和进行推理方面更出色,而DeepSeek模型在处理文本本身方面更擅长——即适用于所有写作和编辑任务。

      有了这个组合,我没有理由使用Claude/Gemini进行任何任务。

      人们没有意识到新Deepseek模型有多好。

      1. 我使用R1-0528生成Python代码的体验很糟糕。但当时我设置的上下文长度为100k令牌,这可能是原因。它在lmarena代码排行榜上的表现还不错,那里上下文长度较短。

        1. 如果可能的话,我很想看看涉及的系统/用户提示。

          个人而言,我让它生成的代码与我手动编写的代码相同,显然我认为这是可用的代码,但似乎他人的体验与我相差甚远,因此好奇原因何在。我已对系统提示进行了大量迭代,可能问题就出在这里。

          1. 我使用Gemini的主要原因是它在100k上下文长度下仍能完成任务。其他模型在3万上下就开始表现疲软,到5万时完全无法工作。

            1. 我避免使用Gemini(以及我尝试过的所有谷歌模型)的主要原因是我无法让它们生成与我手动编写相同的代码,而OpenAI的模型则相对容易实现。

              模型中似乎存在某种更深层的机制,可以通过系统/用户提示进行引导/编程,但不知为何仍会生成质量低劣的代码。或者我尚未找到正确提示谷歌模型的方法,这也可能是原因,但同样的提示方式对OpenAI、Anthropic等模型有效,我不确定该如何解释。

              1. 我使用Gemini时也遇到了相同的问题,当上下文长度超过约5万字符时,它开始输出质量极差的随机代码,即使给出明确指令也是如此。它经常混淆各种API。我花了很多时间通过少量示例反复指导它不要编写此类代码,但似乎毫无效果。它似乎变得“困惑”了。

                较长的上下文长度是一个巨大优势,但似乎无法有效利用它。您认为OpenAI模型是否不存在这个问题?

            2. 对我来说是新概念:更多的上下文是否更糟?是否存在一个理想的上下文长度,其分布类似于钟形曲线或其他形式?

              1. 对我来说是个新问题:更多的上下文会更糟糕吗?

                是的,绝对如此。对于我使用和/或测试过的每个模型,即使在上下文限制范围内,上下文越多,输出结果就越糟糕。

                当我使用聊天 UI 时(诚然,我越来越少使用了),我绝不会让聊天超出我的消息和 LLM 的一个响应。如果回复有问题,我会分析需要修改提示词的内容,然后重新开始聊天/编辑第一条消息并重新尝试,直到成功。每次我尝试用“不,我的意思是……”或“很好,现在改成……”这类方式时,回复质量都会急剧下降。

          2. 您使用的是DeepSeek托管的R1模型,还是自定义模型?

            已发布的模型附有强烈建议,要求您完全不要使用系统提示,所有指令都应以用户消息形式发送,因此我只是好奇您是否使用系统提示以及使用体验如何。

            也许托管服务会透明地将系统提示转换为用户消息……

            1. > 您使用的是DeepSeek托管的R1版本,还是自定义版本?

              主要使用托管版本。

              > 已发布的模型中有一个注释,强烈建议不要使用系统提示

              我认为这已过时,新版本(deepseek-ai/DeepSeek-R1-0528)的README中包含以下内容:

              > 与之前版本的DeepSeek-R1相比,DeepSeek-R1-0528的使用建议有以下变化:现在支持系统提示。

              之前的版本虽然建议将所有内容放在用户提示中,但似乎仍可通过系统提示进行引导/编程,只是效果可能不如其他模型显著。

              但除此之外,系统提示(显然也包括用户提示)的使用非常频繁。

  3. 当中国不可避免地推出自有竞争芯片时,Nvidia 的股价将大幅下跌。不过我对他们不直接授权并大量生产 AMD 芯片感到困惑。Nvidia 目前领先,但优势并不像想象中那么大。

    我的消费级AMD显卡(7900 XTX)性能超越了我之前使用的价格高出15倍的Nvidia服务器芯片(L40S)。

      1. 他们在建设自身能力时面临的问题是,ASML不被允许向中国出口最新设备。美国甚至施压要求其停止维护已在中国的一些设备。他们多年来一直在努力打造自己的ASML竞争对手,但至今未果。

        1. 这只是时间问题。他们可以等待,因为美国目前正处于自我毁灭的过程中。

          如果我是中国,我会更担心另一个正在崛起的世界强国——印度。

          1. 确实,一旦西方政府最终意识到印度移民的问题,他们就不得不另寻他处。

        2. > 他们在建设自身能力时面临的问题是,ASML不允许向中国出口最新设备。

          建设自身能力意味着在中国本土完成全部生产,即整个半导体生态系统。只需看看中国企业生产的智能手机和电动汽车便知。

      2. 中国自晶体管发明之前便一直追求统一。

  4. 我好奇如果CPU和GPU的供应链在全球范围内更加分散,情况会有多不同:如果我们处于这样一个阶段,即硬件模型(编辑:指硬件,我之前用词不当)在欧盟以及世界其他地区开发和生产。

    也许那时我们就不会受制于英伟达的意愿(在购买其显卡和成本方面存在问题,而英特尔试图通过其Pro系列显卡解决这个问题,但最终软件支持更差,以及进口成本),也不会受制于某个特定政府。我不知道我们是否能生活在这样的世界中。

    1. > 如果我们处于这样一个阶段,即模型在欧盟以及世界其他地区开发和生产。

      但目前已有模型在美國以外地區開發和生產,包括亞洲和歐洲。當然,看到更多來自南美洲和非洲的模型會很酷,但競爭舞台已不再僅限於美國,特別是在開放式API(這似乎更像是「全球利益」而非封閉式API)方面,美國已遠遠落後。

      1. > 在开放权限(这似乎比封闭API更具“全球效益”)方面,美国已远远落后。

        Llama(不考虑v4)和Gemma(尤其是v3)在我看来并不算“远远落后”……

        1. > Llama(不考虑v4)和Gemma(特别是v3)在我看来并不算落后太多…

          虽然 Llama 确实很出色,并且无疑为生态系统的发展奠定了基础,因此功劳应归功于它,但这两个项目都存在“开放但不完全开放”的问题,因为它们附带了大量“可接受使用”文档,明确规定了用户可以对权重模型进行哪些操作,而中国同行则直接为权重模型贴上开源兼容许可证的标签,就此了事。

          我们可以讨论这种做法是否最佳,甚至在考虑其训练数据的(可能)来源时是否合法,但最终结果依然不变:中国公司正在进行开源发布,而美国公司则采取了更类似于BSL/混合开放发布的方式。

          当某家公司的法律部门将模型+权重称为“专有”时,而其市场部门继续将同一模型+权重称为“开源”,这应该能说明一些问题。我知道在这两者中,我更信任哪一方的准确性。

          我猜这就是为什么我认为美国公司落后于中国公司,尽管他们确实发布了“某些东西”。

          1. > 这两者都存在“开放但不完全开放”的问题,因为它们附带了大量“可接受使用”文档,详细规定了用户可以和不可以对权重模型进行的操作

            更糟糕的是,“可接受使用”文档是一个独立的网页,可以随时更新。没有任何机制能阻止它被更新为“公司X不再被允许使用这些权重模型”。

            这些中国和欧洲模型的“FOSS兼容”许可证是独立的,不会突然发生变化。它们也没有“使用范围”限制,并且由于实际上是将传统的FOSS许可证应用于略显特殊的对象(它们最初是为源代码设计的,而非大量数值数据),因此已经广为人知,从而降低了出现意外问题的风险。

  5. 这延迟肯定不是因为GPU,哈哈。DeepSeek可能已经准备好R2了。R1-0528已经把期望值抬得太高了。如果R2表现平平,人们就会开始怀疑。

    或者

    谁知道呢,也许他们只是在悠闲地看着西实验室如何烧钱,让评估指标发生变化。然后在OAI/Claude信任度曲线略微下降时推出R2

  6. “极受欢迎”?或许发布时确实引起了很大兴趣,但如今还有谁在使用R1呢?我之前通过Perplexity使用过它,但O3/Gemini Pro模型要好得多,我很少再去阅读它的回复。

    根据OpenRouter https://openrouter.ai/rankings?view=month的排名,它甚至不在前十名。

    1. V3在你的列表中排名第5。R1-0528(免费)排名第11,R1(免费)排名第15。Openrouter将免费版本(在你分享的前20名列表中)与付费版本(排名更靠后)的V3和R1分开统计,当然它也不计算直接连接到服务商的实例,或是各种自建解决方案(包括许多在敏感领域工作的公司,其中不乏我的朋友)。

  7. 坦白说,AI 进展因这些出口限制而受阻。一个能与 Gemini Pro 2.5 和 o3 竞争的开源模型对世界有利,对 AI 有利。

    1. 你对这个问题的主张将因你对未来五年与中国发生冲突的概率评估而大相径庭。我认为在讨论出口管制成本与收益之前,这个数字应该首先接受审查。

      1. 我不是美国人。自从我懂事以来,唯一一个在世界各地不断发动战争的国家就是美国。对我来说,一个无所不能的美国人工智能比一个开源的中国人工智能更令人恐惧。

        1. 我们确实看到了迹象和报道,你只要仔细观察就能发现。大语言模型(LLMs)正在被应用于战争,无论是无人机还是其他领域,都取得了进展,但目前还未达到“产生重大影响”的程度。从该领域的进展来看,5 年是一个很长的时间——试着将今天的大语言模型与 2020 年的大语言模型进行比较就知道了。

    2. > 坦白说,人工智能的进步正因这些出口限制而受阻。一个能与Gemini Pro 2.5和o3竞争的开源模型对世界有利,对人工智能也有利。

      DeepSeek并非慈善机构,他们是中国最大的对冲基金,与华尔街的典型基金并无二致。他们不会仅仅因为某件事物有益于世界,就花费数十亿美元将其开放和免费提供。

      当模型能够产生可观的收入,或有确凿证据表明封闭模式能带来更高利润时,它就会被封闭。

  8. [delete]

    你可以购买任何你想要的东西。出口管制基本上是虚构的。试图阻止全球贸易就像试图用赤手空拳阻止一条河流。

  9. > 《信息》周四报道,援引两位知情人士的消息。

    我怀念过去的新闻业,那时他们可能会觉得有必要让读者知道,他们的间接消息来源几乎完全由一位为成为DeepSeek主要竞争对手(Meta)老板的密友而拼命工作的人所创造的财富资助。

    为那些从《信息》获取新闻却缺乏这一关键背景信息的人感到遗憾。

    1. 我认为TI与FB的利益冲突并不广为人知。我本人直到最近才得知此事。你可以与许多人讨论这类问题,却无人指出这一点。

      1. 完全同意。我认为,Facebook在美国风险投资领域的影响力,尤其是其已全面渗透大多数基金的有限合伙人(LP)和普通合伙人(GP)层级,是一个更大且更重要的故事。这让我深刻意识到,我们必须努力保持全球其他资本市场的自由与开放——这是我当前工作的重点。

        你永远无法预知《信息》不会报道哪些故事,或是哪些“负面”文章实际上是转移视线的手段。同样,你永远不知道哪些令人惊叹的初创公司被排除在融资之外,而许多创业者对融资轮次和“一夕成名”背后暗箱操作的程度一无所知。

        像我这样的HN上的普通人本不应成为这些信息的来源。希望有人能挺身而出,但我们正处于一个令人震惊的懦弱时代。

    2. 我怀念HN评论区过去的日子,那时评论者可能会直接告诉读者他们在谈论谁,而无需解开一个六步谜题。

  10. 唉,这次他们不能再非法获取一批GPU,然后直接用OpenAI的输出结果训练模型了。R1被炒得太过了

  11. “我们难以访问OpenAI,我们的数据提供商。”/s

    1. 传闻称DeepSeek使用了OpenAI推理模型(当时为o1)的推理步骤输出,来训练DeepSeek的大型推理模型R1。

      1. 这更像是Altman在没有证据的情况下直接(且极具争议性)的指控。事实上,这两个模型几乎没有任何共同点,而且o1推理链本身也无法获取。

      2. 也许他们也这么做,但我处理的是一类其他模型尚未攻克的问题*,除了R1之外,至今仍无人能解。

        请记住,DeepSeek是某对冲基金的分支机构,该基金早已广泛应用机器学习技术,因此他们可能拥有海量高质量数据集和源代码仓库用于训练。此外,他们可能还掌握了中国互联网领域更高质量的数据。

        * 当然我不会详细说明我的问题类别,否则我的基准测试将迅速失去实用性。我只说这是一个计算机科学本科水平的任务,需要相当多的推理能力。

      3. Deepseek在OpenAI之前就发布了思考轨迹,而不是之后。

      4. 我不这么认为。他们提出了一种新的强化学习算法,只是更好。

      5. OpenAI使用了整个人类拥有的所有可用文本来训练o1/o3。

        那又怎样?

    2. 我的猜测是,OpenAI在r1之后吸取了教训,为o3设置了o1没有的安全措施,因此导致了延迟。

      1. 我认为这种可能性不大。

        DeepSeek-R1 0528在AI质量基准测试中的表现几乎与o3相当。因此,要么OpenAI没有限制访问权限,要么DeepSeek并未使用OpenAI的输出结果,要么使用OpenAI的输出结果对DeepSeek的性能没有实质性影响。

        https://artificialanalysis.ai/?models=gpt-4-1%2Co4-mini%2Co3

          1. 并非所有写下的内容都值得阅读,更不用说从中得出结论了。该基准测试每次运行时显示不同的结果,这应该能让你明白其中的问题。它还将grok-3-beta与gpt-4.5-preview归类在GPT家族中,使得前者看起来像是基于后者进行训练的。如果你查看发布日期,这显然说不通。此前它将gpt-4.5-preview归类为与4o完全不同的分支(这在某种程度上说得通,但现在情况不同了)。

            EQBench,同一作者的另一个“粗糙基准测试”,同样值得怀疑,他大部分工作也是如此,例如antislop采样器,试图以程序化方式解决一个NLP任务。

    3. 如果这是真的,批评DeepSeek就显得虚伪了,因为OpenAI和其他该领域的所有主要玩家都在用他们能获取的一切数据训练模型,完全不考虑法律或道德问题。锅,认识一下壶吧。

    4. 我不太明白为什么你会被点赞,但OpenAI确实宣布他们正在调查Deepseek对他们输出结果的(滥用)使用,并且他们正在加强API访问者的验证,以防止滥用。

      对我来说,这似乎是一个合理的推测,尽管尚未得到证实。

      1. 我仍然觉得称之为“滥用”很有趣。没有哪家AI公司曾经要求过训练许可。

      2. 正是因为措辞暗示发帖者清楚这是原因。如果这是个明确的推测,并且附上了你提到的OAI公告链接作为额外证据,我不会给它点赞。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: