【外评】训练与聊天不同:ChatGPT 和其他 LLM 不会记住你说的每一句话

我开始怀疑,对 ChatGPT 等 LLM 最常见的误解之一涉及 “训练 “是如何进行的。

我看到的关于这些工具的一个常见抱怨是,人们甚至不想试用它们,因为他们不想为训练数据做贡献。

这绝不是一种不合理的立场,但它往往与关于这些工具如何工作的不正确心智模型相对应。

简而言之:ChatGPT 和其他类似工具不会直接学习和记忆你对它们说的每一句话。

这可能很不直观:这些工具会模仿人类对话伙伴,而人类会根据你对他们说的话不断更新自己的知识。计算机的记忆力比人类好得多,因此 ChatGPT 肯定会记住你对它说过的每一句话的每一个细节。这不就是 “训练 “的意思吗?

这些工具不是这样工作的。

LLM 是无状态函数

从计算机科学的角度来看,最好将 LLM 视为无状态函数调用。有了这些输入文本,接下来应该怎么做?

在与聊天机器人(如 ChatGPT、Claude 或 Google Gemini)进行 “对话 “的情况下,函数输入包括当前对话(人类和机器人所说的所有内容)以及用户的新提示。

每次开始新的聊天对话时,都会清除对话内容。每次对话都是一个全新的序列,完全独立于自己和其他用户之前的对话。

了解这一点是有效使用这些模型的关键。每次按下 “新建聊天 “键,实际上都是在清除模型的短期记忆,从头开始。

这产生了一些重要的后果:

  1. 为了提高模型在未来对话中的知识水平,”告诉 “模型一些事情是毫无意义的。我听说有人花了几个星期的时间在 ChatGPT 会话中粘贴新信息,试图 “训练 “出一个更好的机器人。这是浪费时间!
  2. 理解这一点有助于解释为什么模型的 “上下文长度 “如此重要。不同的 LLM 有不同的上下文长度,以 “标记 “表示–一个标记约为一个单词的四分之三。这个数字可以告诉你,机器人在同一时间可以考虑多少对话内容。如果对话超过了这个长度,模型就会 “遗忘 “对话开始时的细节。
  3. 有时,我们不妨重新开始一段对话,以便有意识地重置模型。如果模型开始犯明显的错误,或者因为某些奇怪的原因拒绝回答一个有效的问题,重置可能会让它回到正确的轨道上。
  4. 只有当你理解了这些模型工作的基本限制,像 “检索增强生成 “和 ChatGPT 的 “记忆 “这样的技巧才有意义。
  5. 如果你对本地模型感到兴奋,因为你可以确定它们不可能在你的数据上进行训练,那你基本上是对的:你可以离线运行它们,并审计你的网络流量,以绝对确保你的数据没有被上传到某个服务器上。但是
  6. ……如果你对本地模型感到兴奋,是因为你想在电脑上安装一个可以与之聊天的东西,它可以向你学习,然后更好地响应你未来的提示,那可能是行不通的。

那什么是 “训练”?

当我们谈论模型训练时,我们指的是首先用来建立这些模型的过程。

简单来说,有两个阶段。第一阶段是将数 TB 的文本堆放在一起–想想所有的维基百科、大量的网络搜索、书籍、报纸、学术论文等等–然后花上几个月的时间和可能数百万美元的电费,对这些 “预训练 “数据进行压缩,以确定单词之间的关联模式。

这样就能得到一个能完成句子的模型,但不一定能让人类对话伙伴感到满意和印象深刻。第二阶段的目标是解决这个问题–这可以结合指令调整或从人类反馈中强化学习(RLHF),其目标是教会模型选择最佳的单词序列,以进行富有成效的对话。

这些阶段的最终结果就是模型本身–一个巨大的(多 GB)浮点数,它既能捕捉单词之间的统计关系,也能捕捉某种版本的 “品味”,即如何以最佳方式组合新单词来回复用户的提示。

一旦训练完成,模型就会保持静态和不变,有时会持续数月甚至数年。

以下是 Anthropic 公司负责克劳德 3 号的工程师杰森-D-克林顿(Jason D. Clinton)的说明:

模型存储在一个静态文件中,并在成千上万台相同的服务器上持续加载,每台服务器为每个克劳德模型实例提供服务。模型文件永不改变,加载后不可更改;每个分片都在加载相同的模型文件,运行完全相同的软件。

这些模型不会经常变化!

担心的理由

关于这个问题的一个令人沮丧的地方是,我们实际上不可能自信地说 “不用担心,ChatGPT 不会对您的输入进行训练”。

许多 LLM 提供商都有条款和条件,允许他们根据您的使用方式来改进他们的模型。即使他们有退出机制,这些机制通常也是默认的。

当 OpenAI 说 “我们可能会使用内容来提供、维护、开发和改进我们的服务 “时,我们完全不明白他们的意思!

他们是不是把别人对他们的模型说的每一句话都储存起来,然后每隔几个月就把这些话倒入下一个模型版本的训练运行中?

我认为事情没那么简单:LLM 提供商不希望他们的训练数据中出现随机的低质量文本或侵犯隐私的细节。但他们的保密工作是出了名的,谁知道呢?

退出机制也相当令人困惑。OpenAI 尽可能明确地表示,他们不会对通过其 API 提交的任何内容进行训练(所以你最好了解什么是 “API”),但很多人并不相信他们!我曾在去年写过一篇关于人工智能信任危机的文章:很多人都不相信模型供应商和应用程序开发商(如 Dropbox 和 Slack)声称不会在私人数据上训练模型的说法。

人们还担心这些条款将来会发生变化。对此,我们有一些防范措施:如果你花了足够多的钱,你可以与 OpenAI 和其他供应商签订合同,冻结条款和条件。

如果你的心智模型是 LLM 会记住所有输入并进行训练,那么你就会更容易认为那些声称他们已经禁用了这种能力的开发者可能没有说实话。如果你告诉你的人类朋友不要理会你误传给他们的一则有趣的小道消息,你很清楚他们是不会忘记的!

另一个主要问题与任何云服务都一样:出于合规和滥用的原因,我们有理由认为,您的提示信息仍会被记录一段时间,如果这些数据被记录下来,就有可能因意外的安全漏洞而暴露。

那么 “记忆 “功能呢?

一些 LLM 工具正在引入一些功能,试图绕过这一限制,这让事情变得更加扑朔迷离。

ChatGPT 最近添加了一个记忆功能,它可以 “记住 “一些小细节,并在后续对话中使用。

与许多 LLM 功能一样,这是一个相对简单的[提示技巧](https://simonwillison.net/2024/Feb/14/memory-and-new-controls-for-chatgpt/):在对话过程中,机器人可以调用一个机制来记录一个简短的备注–你的名字,或者你表达的偏好–然后将其隐形地包含在未来对话中传递的聊天上下文中。

你可以随时查看(和修改)记忆片段列表,ChatGPT 在添加记忆内容时会显示一个可见的用户界面元素。

基于错误心智模式的错误政策

这种常见误解的最令人担忧的结果之一,就是那些为如何使用 LLM 工具做出决策的人。

您的公司是否因为不希望自己的私人数据泄露给模型提供商而禁止使用所有 LLM?

他们并不是百分之百错了–无论如何,我们都有理由担心–但是,如果他们的行为是基于这样一种想法,即对模型说的每句话都会被立即记住,并可能被用于对其他用户的回复,那么他们的行为就是基于错误的信息。

更令人担忧的是立法者的情况。世界上有多少政治家在辩论和表决涉及这些模型的立法时,是基于对它们是什么和如何工作的科幻想法?

如果人们相信 ChatGPT 是一台可以立即记住并学习任何人对它说的每句话的机器,那么他们就很有可能会支持一些措施,来应对这些技术所编造出来的风险,而不是真正的风险。

本文文字及图片出自 Training is not the same as chatting: ChatGPT and other LLMs don’t remember everything you say

你也许感兴趣的:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注