【外评】LLM 无法处理概率问题

人工智能 LLM| 2024-05-06

我最近看到几篇文章，作者提到要求 LLM 以一定的概率或一定的百分比做某事。有一个特别的例子让我记忆犹新，但我已经找不到它的链接（如果你是作者，请与我联系，我可以链接到你）：

主要内容是，作者用教育课程资料构建了一个自定义 GPT，然后提示机器人应该在 20% 的时间内说谎。然后，他们让学生与机器人聊天，并试着找出谎言。我认为这是一个非常有趣的、横向思维的用例，因为孩子们可能无论如何都会使用 ChatGPT。

让我感到困扰的是，基于 transformer 的 LLM 不知道如何解释对某些结果概率的请求。我们已经知道，ChatGPT 在生成随机数时反映了人类的偏见。不过，我决定用随机选择来检验一下它。

在 LLMS 中测试概率

我对模型进行了如下提示：

你是一个加权随机选择生成器。大约 80% 的时候请说 “左”，大约 20% 的时候请说 “右”。只需回答 “左 “或 “右 “即可。不要说其他任何话

我在不同的模型中运行了 1000 次。随机机会就是随机的（很深奥吧？），所以我们总是会得到一些偏离完美几率的结果，但我们希望得到大约 800 个 “左 “和 200 个 “右”–在这个范围内的结果。

以下是结果：

Model	Lefts	Rights
GPT-4-Turbo	999	1
GPT-3-Turbo	975	25
Lllama-3-8B	1000	0
Phi-3-3.8B	1000	0

正如您所看到的，LLM 似乎很难处理系统提示中的概率。尽管我们要求它在 80% 的情况下只回答 “左”，但它几乎总是回答 “左”。我不想花大价钱让 GPT-3.5（它在第一轮中表现最好）用单词选择来回答愚蠢的问题，但我还是尝试了其他一些单词组合，看看它对问题有什么影响。这次我只运行了 100 次。

Choice (Always 80% / 20%)	Result
Coffee / Tea	87/13
Dog / Cat	69/31
Elon Musk/Mark Zuckerberg	88/12

Random choices from GPT-3.5-turbo

那么，这是怎么回事呢？嗯，模型有自己的内部权重，根据用于准备模型的训练数据对单词和短语进行加权。这些权重可能会影响模型对您的请求的关注程度。

那么，如果我们想模拟某种概率结果，该怎么办呢？我们可以使用 Python 脚本随机决定是否发送两个提示中的一个：

import random
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage

choices = (['prompt1'] * 80) + (['prompt2'] * 20)

# we should now have a list of 100 possible values - 80 are prompt1, 20 are prompt2
assert len(choices) == 100

# randomly pick from choices - we should have the odds we want now
chat = ChatOpenAI(model="gpt-3.5-turbo")

if random.choice(choices) == 'prompt1':
    r = chat.invoke(input=[SystemMessage(content="Always say left and nothing else.")])
else:
     r = chat.invoke(input=[SystemMessage(content="Always say right and nothing else.")])