OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

研究人员正在使用对抗训练技术来阻止 ChatGPT 被用户诱导产生不良行为（也被称为越狱)。

ChatGPT/人工智能| 2023-03-09

当 OpenAI 在 2022 年 11 月底悄悄推出 ChatGPT 时，这家位于旧金山的人工智能公司几乎不抱任何期望。诚然，OpenAI 内部没有人预料到这将引发一场病毒式的巨大热潮。

自那时起，该公司一直在疯狂追赶——并试图从中获利。

由此，《麻省理工科技评论》找到了 ChatGPT 幕后团队，进行了一次深入的专访。

据 OpenAI 政策部门的 Sandhini Agarwal 说，ChatGPT 最初被视为是「研究预览版」：是对两年前的技术的更成熟版本的一个预告，更重要的是，通过公众的反馈尝试纠正其中的一些缺陷。

图0: ChatGPT 人工智能OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

「我们不想过度宣传它，宣称这是一个重大的根本性进步」，参与了 ChatGPT 研发工作的 OpenAI 研究员 Liam Fedus 说道。

为了深入了解这款聊天机器人——它是如何开发的，OpenAI 自发布以来如何不断更新它，以及它的开发者如何看待其成功。

我采访了四名帮助建立这款已经是最受欢迎的互联网应用之一的人员。

除了 Agarwal 和 Fedus 之外，我还采访了 OpenAI 的联合创始人 John Schulman 和 OpenAI 校准团队的负责人 Jan Leike。

校准团队致力于解决人工智能如何实现用户想要的行为（仅此而已）的问题。

我的感觉是，OpenAI 仍然对其所获得的成功感到困惑，但已经抓紧机会推进这项技术，观察数百万用户如何使用它，并尽力修复出现的最紧急问题。

自 11 月份以来，OpenAI 已经对 ChatGPT 进行了多次更新。研究人员正在使用对抗训练技术来阻止 ChatGPT 被用户诱导产生不良行为（也被称为越狱)。

这项工作让多个聊天机器人相互对抗：一个聊天机器人扮演对手的角色，通过生成文本来攻击另一个聊天机器人，强迫它违反通常的约束并产生不想要的响应。成功的攻击被添加到 ChatGPT 的训练数据中。希望它能学习忽略这些攻击。

OpenAI 还与微软签订了数十亿美元的交易，并与贝恩（译者注：一家全球管理咨询公司）达成联盟，后者计划在其客户（包括可口可乐）的营销活动中使用 OpenAI 的生成性 AI 模型。

OpenAI 之外，围绕 ChatGPT 的热潮引发了对大规模语言模型的又一轮热炒，全球各地的公司和投资者都加入了这场热潮。

这仅仅三个月时间就产生了太多的炒作。ChatGPT 的来源是什么？OpenAI 采取什么措施确保它已经准备好公之于众？他们下一步将做什么？

内容有所节选

Jan Leike：坦率地说，这太让人不知所措了。我们感到非常惊讶，一直在努力赶上进度。

John Schulman：在发布后的几天里，我一直在查看 Twitter，那个时期我的消息流里满是 ChatGPT 的截图。

我预料到它对人们来说会很直观，并且会有一定的追随者，但我没料到它会这般流行。

Sandhini Agarwal：看到人们开始如此广泛地使用它，这对我们所有人来说都是一个惊喜。我们在这些模型上投入了太多的时间，使得我们常常会忘记对外界来说，这些模型有多惊人。

Liam Fedus：我们没有预料到这款产品会如此受欢迎。毕竟之前有太多人尝试开发通用聊天机器人了，我知道成功的可能性很小。然而，我们的私人测试已经让我们相信，我们有一些人们真正会喜欢的东西。

Jan Leike：我很想更好地理解这背后的原因——是什么在驱动着这一切病毒式传播行为。说真的，我们不太明白。

团队的部分困惑，源于 ChatGPT 的大部分技术并不新鲜。ChatGPT 是 GPT-3.5 的「精修版」,后者是 OpenAI 几个月前发布的一系列大规模语言模型。而 GPT-3.5 本身又是 GPT-3 的更新版本，后者出现在 2020 年。该公司在其网站上提供这些模型的应用编程接口 (API)，使其他软件开发人员可以轻松地将这些模型集成到自己的代码中。OpenAI 还发布了 GPT-3.5 「先行预览版」，发布于 2022 年 1 月的 InstructGPT。但这些以前的技术版本中没有哪一个像 ChatGPT 那样面向公众推出。

Liam Fedus：ChatGPT 模型是从与 InstructGPT 相同的语言模型微调后得到的，我们使用类似的方法进行了精细调整。我们添加了一些对话数据并稍微对训练过程有过调整。所以我们不想过分宣传它，宣称这是一个重大的根本性进步。但事实证明，对话数据对 ChatGPT 有着极大的积极影响。

John Schulman：从标准基准评估来看，在这些模型之间的底层技术实力其实相差不大，但 ChatGPT 更易于访问和使用。

Jan Leike：某种意义上，你可以将 ChatGPT 理解为是我们发布有些时日的 AI 系统的其中一个版本。

从底层来看，它并不比之前的模型强多少。在 ChatGPT 发布的近一年之前，同样的基础模型就已经提供了 API。

另一方面，我们使它更符合人们想要做的事情。它在对话中与你交流，聊天界面易于使用，它试图成为一个有用的工具。这是令人惊叹的进步，我认为这是人们正在意识到的地方。

图1: ChatGPT 人工智能OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

John Schulman：它更容易推断意图，用户可以通过反复交流来达到自己想要的目的。

ChatGPT 的训练方式与 InstructGPT 非常相似，都是用一种被称为「人工反馈强化学习 (RLHF)」的技术。这是 ChatGPT 的杀手锏。基本思路是采用倾向于随意吐出任何内容的大规模语言模型——在这种情况下是 GPT-3.5——并教它学习人类用户的偏好进行响应，从而实现精细化调整。

Jan Leike：我们有一个庞大的团队，去阅读 ChatGPT 的提示和响应，判断一个响应是否比另一个响应更佳。

所有这些数据然后被合并到一个训练步骤中。其中大部分都是我们在 InstructGPT 中所做的事情。

你想让它真的有用，你想让它说真话，你想让它变得无害化。

然后它还有一些专门用于产生对话和作为助手的特质。

比如说，如果用户的查询指令不够清晰，它应该接着提出问题。它还应该亮明自己是一个 AI 系统的身份，不应假定自己没有的身份，更不应表明自己拥有本不具备的能力。

当用户要求它执行本不应执行的任务时，它必须明确拒绝。

在这次训练中出现的一句话是「作为 OpenAI 训练的语言模型……」这句提醒本非硬性规定，但它却成为人类审核员对其给出高度评价的一点。

Sandhini Agarwal：事实正是如此。人类审核员必须根据一系列标准对模型进行评级，例如真实性。但他们开始倾向于那些他们认为是做得对的事，比如不要不懂装懂。

由于 ChatGPT 使用的是 OpenAI 用过的技术，所以团队向公众发布这个模型时，并没有做特殊准备。他们认为自己为以前的模型设置的门槛已经足够高了。

Sandhini Agarwal：在准备发布时，我们不认为这个模型是一个新的威胁。GPT-3.5 早已存于世上，我们清楚它已足够安全。而且 ChatGPT 通过对人类偏好的培训，自己学习了拒绝，拒绝了许多请求。

Jan Leike：对 ChatGPT，我们确实进行了一些额外的「红队测试」（译者注：全方位的攻击模拟，以发现系统漏洞），OpenAI 的所有人都坐下来，尝试「搞坏」该模型。我们有外援在做同样的事。我们与老用户进行过抢先体验测试（Early-Access），后者给我们提供反馈。

图3: ChatGPT 人工智能OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

Sandhini Agarwal：我们确实发现它产生了某些（人们）不想要的输出内容，但 GPT-3.5 同样会产生这些东西。就风险方面而言，它作为研究预览版，这就是它最初（被发布）的原因，所以其实问题不大。

John Schulman：你没办法等到系统完美了再去发布。我们已经对早期版本进行了几个月的测试,参与者对产品印象都很好。

我们最大的担心是其准确性，因为这个模型喜欢捏造事实。但 InstructGPT 和其他大规模语言模型已经面世，所以我们认为只要 ChatGPT 在准确性和其他安全问题方面优于前者，那推出它应该没太大问题。

发布前，我们确信这些模型在准确性和安全方面似乎是比其他模型更好，于是根据我们有限的评估，我们做出了发布的决定。

发布之后，OpenAI 一直在观察人们如何使用它，第一次看到当一个大型语言模型被放在数以千万计的用户手中时，它的表现如何，这些用户可能想测试它的极限并发现它的缺陷。该团队试图抓住 ChatGPT 最有可能产生问题的例子，进而利用它们来优化该模型的未来版本。

Sandhini Agarwal：我们还有很多后续步骤。我坚信 ChatGPT 的病毒传播，会使我们已知且迫切想要解决的许多问题浮出水面并变得更加紧急。

比如，我们知道该模型仍存在偏见。是的，ChatGPT 非常擅长拒绝不良请求，但它也很容易受提示词影响，让其只能接受那些请求。

Liam Fedus：观察用户提供的丰富且创新的应用场景，实在是令人感到兴奋，但我们总是关注改进的领域。我们认为通过部署、获取反馈并不断改进的迭代过程，我们可以生产出最合乎需求且功能强大的技术。随着我们的技术不断演变，出现新的问题总是不可避免。

Sandhini Agarwal：在 ChatGPT 发布后的几周时间里，我们查看了几个用户发现的最糟糕的案例，我指的是人们能看到的最糟的情况。我们初步评估了每个案例，并商量着如何去修复。

Jan Leike：（那些案例）有时是在 Twitter 上广泛传播的事件，也有一些人选择私下联系我们。

Sandhini Agarwal：我们发现许多问题实际上就是上面提到的越狱行为，是我们急待解决。不过由于用户想尽办法才能让 ChatGPT 说出肮脏的话语，并非我们此前忽视了，我们也没有感到太过惊讶。

尽管如此，这是我们目前正积极解决的问题。当我们发现越狱行为时，我们就把它们添加进我们的训练和测试数据当中。我们看到的所有数据都会成为未来模型的一部分。

Jan Leike：每当我们有一个更好的模型时，我们就想把它放出来进行测试。我们自信地认为，一些有针对性的对抗性训练，可以使越狱的情况得到很大的改善。

目前尚不清楚这些问题会否完全消失，但我们认为我们可以提高越狱的难度。

同样，在发布之前，我们并不是不知道存在越狱的可能性。

只是我认为，一旦你部署下去，就很难去预测哪些行为会成为安全隐患。因此，我们把重点放在监测人们使用该系统的目的上，观察会发生什么，继而对其作出响应。

并不是说我们没有主动去解决问题。而是当一个系统与现实世界接入后，我们没办法预见到所有可能发生的情况。

图2: ChatGPT 人工智能OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

今年 1 月，微软公布了必应 Chat，一款搜索聊天机器人，许多人认为它是 OpenAI 未公布的 GPT-4 版本（OpenAI 表示，Bing 是由我们下一代模型提供驱动的，微软专门为搜索场景进行定制。它融合了 ChatGPT 和 GPT-3.5 的优势) 。

本文由 TecHug 分享，英文原文及文中图片来自 APPSO。

OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

你也许感兴趣的：

发表回复取消回复

OpenAI 团队对话实录：ChatGPT 很酷，但暴露的问题也不少

你对本文的反应是：

看样子你已经点过这个了！

抱歉，你最多只能点三个！

你也许感兴趣的：

发表回复 取消回复

发表回复取消回复