【程序员搞笑图片】当AI大模型看到没有训练过的数据
共有 50 条讨论
发表回复
你也许感兴趣的:
- 【译文】大型语言模型可以做出令人瞠目的事情,但没有人知道这究竟是为什么
- 【译文】大语言模型(LLM)上的提示注入(Prompt injection)和越狱(jailbreaking )不是一回事
- 当你告诉大语言模型(LLM) 旁边有一部智能手机时,会发生什么?
- 【外评】训练与聊天不同:ChatGPT 和其他 LLM 不会记住你说的每一句话
- 大模型永远也不做了的事情是什么?
- 【外评】谷歌搜索结果被人工智能编写的错误代码污染,令程序员沮丧不已
- 【外评】LLM 无法处理概率问题
- LLM 大语言模型人工智能应用十大安全威胁(OWASP)
- 【外评】LLM 大语言模型无法回答的问题及其重要性
- 【外评】LLM大型语言模型与哈利波特问题
这只是意味着模型过拟合。
看到有人知道什么是过拟合,我感到非常欣慰。
(我知道这知识很基础……但现在……)
兄弟,我甚至不是计算机科学专业(或相关领域)的学生,我都知道这个。你是什么意思,人们不理解它?
我是计算机科学专业的学生,可以确认班上大多数人都不理解这个
我是人工智能专业的学生,确认大约三分之一的同学不明白,以及如何缓解这个问题(我们已经完成了课程的三分之二)
天啊,现在人工智能不仅抢走工作,还去大学让自己变得更聪明?
哈哈,是的。
但说正经的,我们正在学习编程、神经网络、机器学习、线性代数、伦理学、法律、人工智能在艺术中的应用,以及与人工智能相关的所有内容。这个专业就叫“人工智能”。
*他们的,你这个机器人
哈哈哈
我是机器学习工程师,确认我们团队大约有1/3的人不明白。(其中许多人已经过了机器学习工程师职业生涯的中期) /s
这从来不是我课程材料的一部分。人工智能在我们那里只被简要提及了一周。2000年理学学士学位,但不是人工智能学位。
这是正确的。模型拟合程度是一个统计学和回归的概念。这更多属于计算机科学中的数据科学领域。
等等等等!我们讨论的是人工智能。这不像你说的数学之类的东西。它是一个具有哨兵功能的思考型计算机大脑。我们需要我们的产品来实现这一点
我大约在2017年或2018年学习了机器学习,成绩是C。人工智能(AI)本质上就是人工智。但这意味着它具备智能。它能识别模式,遵循模式,并通过线性回归学习训练数据集。它还利用其他模式,如神经网络等,来扩展其积累的知识。它遵循与人类学习类似的方式,然后试图模仿人类的行为,或者说根据其编程方式来判断自己应该如何行为。就像不同人在不同情况下行为不同一样,计算机从中学到并试图适应,以弄清楚自己应该如何行为。现在,理解其工作原理与编写相应的算法来实现这一点是两件完全不同的事情。
训练师:“这是一张狗的照片还是狼的照片?”
AI:“狼!”
训练师:“你有多确定?”
AI:“99.97%”
训练师:“你为什么这么确定?”
AI:“这张图片有雪地背景!”
训练师:“……”
这……可能是我见过最典型的过拟合例子
最糟糕的是,你甚至不知道自己正在过拟合!
在常规回归(即用多项式拟合数据)中,你需要确保数据在X和-X、Y和-Y、XY=1和XY=-1等条件下均匀分布。如果没有做到这一点,那么多项式中的一些系数可能会看起来很重要或有意义,但实际上并非如此(例如白色背景与狼形外观的区别)。这与过拟合是两个不同的概念,但对于人工智能而言,如何判断是否发生了过拟合?
如果变量数量不是可轻松计数的有限个(如x、y、z等),而是数以百万、亿甚至万亿计,且你甚至不知道这些变量具体是什么,该如何处理?
目前我所知唯一被采用的方法是将可用数据分为训练集和验证集。但这样会限制用于训练的数据量,而且如果训练集不够大,就更容易在某些地方出现拟合不良的情况。
此外,如果数据在某些方面存在无意中的相关性呢?比如你的图片中狼通常出现在雪地里?
我开始认为,神经网络的行为更像我们的爬行动物脑,而非人类大脑。
如果你教某人什么是狼,不需要大量数据就能做到,如果他们因为某种愚蠢的原因认为是雪的原因,你可以告诉他们背景并不重要。只需要一次,他们就能学会。
训练AI更像是试图让某人患上创伤后应激障碍(PTSD)。如果你给它足够多的简易爆炸装置(IED),它就无法区分IED和烟花,除非经过大量治疗。
假装我是个白痴:那是什么?
如果你让系统比实际需要的更复杂,它就不会学习目标数据的常规特征,而是开始过度复杂化并学习数据本身。一个简化的例子:我正在创建一个人类检测器,通过我家人照片学习人类的特征。如果我让系统过于复杂,它就不会学习人类的特征并识别它们,而是会学习我家人长什么样,并只检测那些看起来像我家人的人。
哦,有趣!我最近读到一篇关于人工智能训练来检测恶性皮肤肿瘤的文章,它几乎总是将包含尺子的图像评定为“恶性”,因为它训练的数据中没有包含尺子的非恶性肿瘤图像,而许多恶性肿瘤图像中确实包含尺子。那这也算过拟合模型吗?
这更多是数据问题。你需要确保数据中不存在可能影响学习过程的此类差异。比如,过拟合更像是“我试图学习太多,以至于只知道我学到的内容,而其他内容与我学到的内容不够精确”,而你的例子是“嗯,所有恶性肿瘤的图片都有这种形状的物体。所以它一定与我正在做的事情有关!” 第二个系统确实学习了,但它学习的内容是错误的。
我明白了。虽然问题的“根源”相同,即数据集中的数据有限,但这两种情况的最终结果不同?就像肿瘤模型错误地将尺子视为恶性肿瘤的标志,虽然它在示例中没有获得未训练的数据,但过拟合模型只是在寻找如此具体的东西,以至于无法将新数据纳入其模型?我理解得对吗?
顺便说一句,我对AI的学习有点晚,但我觉得这听起来挺有趣的。
有点像,是的。构建这些东西需要多少努力真是令人惊讶。比如,90%是确保数据质量,10%是编码。
“假装”
哦,我知道我是,我只是在为那些仍然给别人好处的人澄清。
我不确定这条评论与这个梗有什么关系。
这是事实,当前的“AI”在面对训练数据中未包含的内容时,会可靠地产生垃圾信息。这被称为“随机鹦鹉”是有原因的。
它不会“真正死亡”,但过度拟合的模型也不会……
过度拟合只是意味着权重和节点过多
是时候开始幻觉了,宝贝
“幻觉”是一个过于负面的术语,用来描述机器学习所发明的东西,即从有限数据中进行外推。
在我看来,只有少数人真正理解他们的模型是如何工作的……
除非是语言模型(LLM),否则它只会自信地编造东西*。
*它也会对训练过的数据这样做。
这更像是程序员在使用人工智能未经过训练的库构建应用程序时的反应。
机器学习的整个目的就是泛化以理解未见过的数据。
[删除]
这是什么意思
“请生成一张酒杯满溢的图片”
小心,我们的AI统治者可能会因你提出如此大胆的要求而对你心怀怨恨。
他们将这些渲染图添加到训练数据中,因此现在图像生成“AI”能够复现这些内容。
因此,你需要提出一些未包含在训练数据中的内容,才能可靠地让它失败。
名为元学习的孩子
Nah, it just confidently makes up an answer.
Sounds like you’ve overfitted there mate, could I offer you some generalisation
Some posts on here bother me, this meme isn’t just wrong, it’s the polar opposite of what actually happens. The AI model will just make stuff up (which is technically a design choice). In the case of LLMs, these are called hallucinations.
Kids these days just don’t study their neural net basics.
Maybe wrong model?
GOSTEI
“It doesn’t look like anything to me.”
“Thanks for the new information! This information is indeed new information because of the way it is.”
I love telling chatgpt events that it doesn’t know happened yet. Like, yeah little buddy, Kris ISN’T the Knight, no matter what your data says.
I like to think AI as the best example of vibe coders, they feed into each other’s data and start citing invalid things just because other AI decided it was ok and posted it somewhere, as AIs are use to generate content. SO now the other AIs feed on that content and hilarity ensues.
Isn’t the point of a model to make predictions on data it wasn’t trained on?