苹果智能基础语言模型技术报告 2025
我们介绍了两种多语言、多模态基础语言模型,这些模型为苹果设备和服务中的苹果智能功能提供支持:(i) 一个约30亿参数的设备端模型,通过架构创新(如KV缓存共享和2位量化感知训练)针对苹果硅芯片进行了优化; 以及 (ii) 基于新型并行轨迹专家混合模型(PT-MoE)变压器的可扩展服务器模型,该模型通过结合轨迹并行性、专家混合稀疏计算和交错全局-局部注意力机制,在苹果私有云计算平台上实现高质量与成本竞争力的平衡。这两个模型均在通过负责任的网络爬取、授权语料库和高质量合成数据获取的大规模多语言和多模态数据集上进行训练,随后在新的异步平台上通过监督式微调和强化学习进一步优化。生成的模型支持多种额外语言,同时能够理解图像并执行工具调用。在公开基准测试和人类评估中,服务器模型和设备端模型均与同等规模的开源基线模型持平或超越。

一个以Swift为中心的Foundation Models框架提供了引导式生成、受限工具调用和LoRA适配器微调功能,使开发者能够通过几行代码集成这些功能。苹果智能模型最新进展基于我们的负责任AI方法,包含内容过滤和地区特定评估等安全措施,以及通过Private Cloud Compute等创新技术保护用户隐私的承诺。
以下是论文的核心内容摘要:
1. 模型架构与优化
- 高效设计:AIM 采用高效的 Transformer 架构,优化了内存使用和计算效率,使其能在 iPhone、iPad 和 Mac 等设备上本地运行。
- 规模灵活:提供不同参数规模的模型(从 3B 到 34B),平衡性能与设备兼容性。
- 设备端优先:通过量化、蒸馏和硬件感知优化(如 Apple Neural Engine 加速),确保低延迟和隐私保护。
2. 训练与数据
- 高质量数据:使用经过严格筛选的多样化数据集,涵盖代码、数学、多语言文本等,同时避免低质量或有害内容。
- 训练优化:采用高效的分布式训练框架,减少能耗,并利用课程学习(curriculum learning)提升收敛速度。
3. 关键技术创新
- 高效推理:通过 “自适应计算” 技术,动态调整计算资源,提高响应速度。
- 隐私保护:所有推理在设备端完成,避免数据上传云端,符合 Apple 的隐私标准。
- 多模态扩展:部分模型支持图像、音频等多模态输入,为 Siri 等应用提供更自然的交互。
4. 性能评估
- 超越同类模型:AIM 在设备端模型中表现优异,尤其在语言理解、代码生成和任务规划方面接近云端大模型(如 GPT-4)。
- 能效比突出:相同硬件条件下,AIM 的推理速度比竞品快 2-3 倍,同时降低功耗。
5. 应用场景
- Siri 增强:更自然的对话、复杂任务处理(如日程规划)。
- 开发者工具:通过 Core ML 提供 API,支持本地化 AI 应用开发。
- 系统级整合:用于邮件摘要、文档生成、实时翻译等生产力功能。
6. 未来方向
- 继续优化模型效率,探索更大的设备端模型(如 70B+)。
- 加强多模态和个性化学习,同时坚持隐私优先原则。
总结:AIM 是 Apple 在设备端 AI 领域的重要突破,通过架构优化和隐私保护设计,为 Apple 生态提供了强大的本地化 AI 能力,同时为行业树立了高效、安全的语言模型新标准。
本文提供了关于苹果公司于2025年6月9日在此帖子中介绍的设备端和服务器端基础语言模型更新的技术细节。
> 我们相信使用多样化和高质量的数据来训练我们的模型。这包括我们从出版商处获得许可的数据、从公开可用或开源数据集中整理的数据,以及由我们的网络爬虫AppleBot爬取的公开可用信息。
> 我们不会在训练基础模型时使用用户的私人数据或用户互动数据。此外,我们会采取措施应用过滤器,移除某些类别的个人身份信息,并排除粗俗语言和不安全内容。
> 此外,我们继续遵循道德网络爬虫的最佳实践,包括遵循广泛采用的robots.txt协议,允许网络出版商选择不让其内容用于训练苹果的生成式基础模型。网络出版商可以精细控制Applebot可以访问的页面以及这些页面如何被使用,同时这些页面仍可在Siri和Spotlight的搜索结果中显示。
尊重。
当苹果不可避免地与OpenAI或Anthropic合作时,根据他们的定义,这并不属于“道德爬取”,我不知道该如何解读这一点。
他们已经与OpenAI合作了,对吧?
为了以折扣价使用他们的API,那又怎样?
苹果没有向OpenAI支付任何费用:
https://www.bloomberg.com/news/articles/2024-06-12/apple-to-…
这可是个大折扣
他们是用曝光度支付的,毫不夸张。
这可真是个大折扣! 😉
谈判的艺术
理论上,苹果可以将他们的训练数据提供给OpenAI/Anthropic使用。
这不是“苹果专有”数据,可以提供给OpenAI。
更大的问题是,用较小的数据集无法训练出好的模型。模型会表现不佳。
“好艺术家模仿;伟大艺术家偷窃”
– 著名已故人士
我的意思是,他们也会从供应链实践不如自己的公司采购。我认为除了承认“良好实践”与“拒绝与不达标者合作”之间存在巨大差异外,无需对此有其他感受。
和其他供应链环节一样吧。
你不应该相信科技巨头的公关声明。
他们在人工智能领域落后了几十年。我长期关注人工智能研究。过去15年里,你可以找到微软、谷歌、脸书发表的最佳论文,但没有苹果的。我不知道为什么,但他们根本不关心人工智能。
我认为这是公关,用来为他们的人工智能现状辩护。
苹果曾处于人工智能的前沿。他们在“人工智能助手”流行之前就推出了Siri,是首批在消费级硬件中搭载专用神经网络处理单元(NPU)并将其应用于用户常用功能的公司之一。他们还引领了计算摄影技术。他们没有发表研究论文,因为他们是苹果,但他们确实做了这些工作。
然后他们就……放弃了?
我不知道他们发生了什么。当人工智能取得突破时,我本以为他们会奋力一搏。但他们从未这样做过。
>我不知道他们发生了什么。
蒂姆·库克上任了。鱼腐从头开始。
更像是“史蒂夫·乔布斯去世了”。我不确定有人能取代他。
>我不知道他们发生了什么。当人工智能取得突破时,我本以为他们会奋力一搏。但他们从未这样做过。
苹果一直拥有时间的优势。他们专注于深度整合生态系统,无需担心最新技术发展的速度。例如,小工具是2023年iOS的特色功能。他们虽然行动迟缓,但做得很好。
大语言模型(LLM)领域的开发速度太快,苹果无法参与竞争。他们通常会铺平自己的道路,作为领导者坚持自己的路线。如果谷歌、Meta、OpenAI、微软每 2-3 个月就超越苹果的模型,那么苹果的品牌形象就会受到影响。这完全不符合苹果品牌的形象。
苹果在此处的做法存在一个问题:他们在公布相关活动细节并告知用户如何通过 robots.txt 文件排除数据之前,就已经开始从网络上抓取训练数据。
他们在2015年就已记录此事:https://www.macrumors.com/2015/05/06/applebot-web-crawler-si…
不近人情。
robots.txt 已经是让机器人避免抓取网站的既定机制。
人们通常会在其中使用特定的用户代理,而如果你事先不知道用户代理是什么,这会很困难!
这似乎是 robots.txt “标准”中一个潜在的非常有用的补充:爬虫类别。
希望禁止大语言模型(LLM)训练(或可选地只禁止封闭权重模型的训练),但鼓励搜索索引甚至响应用户查询的大语言模型检索,似乎相当流行。
如果你使用特定的用户代理,那就意味着“我希望这个特定的用户代理遵循这条规则,而其他用户代理则不遵循”。当新的机器人按照你的指示行事时,不要感到惊讶!如果你不希望任何机器人阅读某些内容,请使用通配符。
是的,但鉴于缺乏通用的“机器人类型”(例如“允许算法搜索爬虫、允许存档、拒绝大语言模型(LLM) 训练爬虫”),在新的爬虫迅速出现(而且通常像这里一样,只有在出现之后才会公布)的时代,选择加入或选择退出似乎都不是特别好的选择。
当然,但我仍然认为,当苹果公司声称“我们的此前保密的训练数据爬虫遵守robots.txt规则,因此您可以随时选择退出!”时,我们有理由对此表示怀疑。
我从网络出现之前就开始上网了,这是我第一次看到在部署爬虫之前必须事先通知用户的隐含义务这一想法。在我看来,人们是因为不喜欢苹果和/或大语言模型(LLMs),所以才临时制定了新规则。
我坚持我之前的说法。
苹果公司表示,您可以通过 robots.txt 文件选择退出他们的训练数据收集。
但……他们在告诉人们如何选择退出之前就已经收集了训练数据。
我不明白为什么我指出这一点会被认为是“令人惊讶”的。
这并不争议,只是生态系统运作方式不同。从未有人期望有人提前通知即将进行的爬取行为。
如果存在行为良好的机器人可遵循的分类规则(如上所述)或许不错,但即便如此,对于那些不属于现有分类的新型机器人,问题依然存在。
我的抱怨不是他们做了什么,而是他们解释为“这是如何退出”时,信息已经太晚,无法让人们退出。
我认为他们这样做是不诚实的。
自1994年以来,这对于运行网页服务器的人来说已是常识。
我认为你没有完整阅读我的帖子。
假设是行为良好的机器人。
> 通过我们的网页爬取策略,我们收集了配对的图像及其对应的替代文本。
对于反AI人士而言,正如在Bluesky上所见,他们往往也是那些“坚持要求为所有图像撰写替代文本”的人。但目前替代文本的主要用途正是如此,因此他们本质上是在免费进行标注工作。
我认为,即使你个人不喜欢替代文本被用于训练AI模型,为无障碍访问提供替代文本在道德上是完全一致的。
如果你愿意这样做当然没问题,但我认为他们应该考虑基本上没有人会阅读它。如果这对社会很重要,照片应用程序会提示你在图像中嵌入它,就像EXIF一样。
计算机视觉已经足够好,可以生成它;它必须这样做,因为现实世界中的物体没有替代文本。
我实际上使用 Claude 来生成我大部分替代文本的初稿,但我仍然会手动审查它,因为大语言模型(LLMs) 通常没有足够的内容来完全理解我试图通过图像传达的信息:https://simonwillison.net/2025/Mar/2/accessibility-and-gen-a…
上下文而非内容。
为什么照片应用要去做对社会“重要”的事情?
标注照片需要时间和精力,我完全可以想象照片应用会对用户进行此类提示持抵触态度,其中一些用户无疑会觉得烦人,更多人则会感到困惑。
然而,我认为不能因此断定标注对视力障碍用户没有帮助或不重要(至少在最近之前,即高质量自动图像标注广泛可用之前)。
换句话说,照片编辑软件的主要用户群体并非最能从中受益的人群,这或许就是为什么我们首先在社交媒体上看到“替代文本提示”功能出现,因为社交媒体同时考虑了内容生产者和消费者(至少比照片编辑软件更注重这一点)。
> 为什么照片应用会做对社会“重要”的事情?
人们希望它们能响应用户需求。我应该说Lightroom确实有一个替代文本字段,但手机相机应用没有。
苹果公司对无障碍功能确实非常重视(但在社交媒体方面表现不佳),而且我认为它从未倡导过人们互相描述自己的照片。
> 对于反人工智能的人来说,正如在Bluesky上所见,他们往往也是那些“坚持要求为所有图片添加替代文本”的人。但目前替代文本的主要用途就是这个,所以他们本质上是在免费做标注工作。
你是如何得出这两个群体重叠如此显著的结论的?
这是一个众所周知的事实。一群人工智能研究人员试图从Twitter迁移到该平台,但遭到了其他用户的大量仇恨言论和死亡威胁,因此他们又回去了。Bluesky对人工智能有着相当强烈的偏见,而尽管如此,讨论这一问题的社区规模非常小。
这很简单,我读过他们的帖子,他们就是这么说的。
所以你找到几个表达这种矛盾观点的人,就认为这适用于更大群体?听起来不太可靠,但我经常看到这种情况,如果把它视为解释世界的一种机制,倒也说得通。
替代文本提供2000个字符。我只想说,其中包含大量有毒数据
尊重,但与其他公司相比,这将非常糟糕。你只能自我设限到一定程度。
尊重行动,而非言辞和公关。
必须打磨这片遮羞布,以掩盖苹果公司对用户隐私的真实态度:arstechnica.com/tech-policy/2023/12/apple-admits-to-secretly-giving-governments-push-notification-data/
> 苹果公司在提供给Ars的声明中确认,美国联邦政府“禁止”该公司“分享任何信息”,
我的意思是,如果你排除所有相反的例子,我想你只剩下你想要相信的简单缺乏细微差别
所有与什么相反的例子?承认被联邦政府封口?
你需要多少空间来阐述你的相反观点。圣贝纳迪诺枪手预言了这一点吗?
你实际上说我们应该忽略这个例子,而专注于另一个例子所证明的“真实”情况。
这与说“如果你忽略正面,这些硬币真的总是出现反面”完全相同。
切乌巴卡论证方法现在还管用吗?
我只能说,我今天问了Siri(原话):75华氏度等于多少摄氏度,85华氏度等于多少摄氏度——它却给出了一个关于华氏度的网页搜索结果。“和”这个词完全禁用了它最基本的单位换算功能。
所以,看到苹果在做研究并讨论它,这很好,但我们在这里等待,仍在等待,希望在我们这些价值千美元的设备上能得到一些有用的东西,这些设备实际上将我们与世界连接,并包含我们整个生活数据。这是我对世界上最有价值的公司之一所期待的。
你在一个一次只能问一个问题的系统里问了两个问题。把这两个问题分开,Siri 就能很好地回答了。你的使用方法不对。
一个能同时处理多个问题的工具非常有用。现代的大语言模型(LLMs) 可以轻松做到这一点。因此,对这种限制提出批评是完全合理的。
当然,不合理的是,他们明知 Siri 不是现代的大语言模型(LLM),却期望它能做到这一点。他们提出了一个他们知道 Siri 无法处理的问题,只是为了批评它。我不会因为 5 功能计算器无法像计算机一样一次性计算出复杂的方程式而批评它。
虽然 Siri 每次只能做一件事,但我更相信它的答案,因为它是在做真正的计算,而不是像大语言模型(LLM)那样猜测最可能的答案。我们需要为合适的工作选择合适的工具。坦率地说,我认为大语言模型(LLM)并不适合此类对话,将多个问题混在一起提出是人们为了在一天中更好地利用大语言模型(LLM)而采取的一种做法,这是对大语言模型(LLM)免费版本(有时是速度)的限制的一种适应。
在安卓手机上,同等的语音助手(Gemini)可以优雅地处理这个问题。无论你对谷歌有什么看法,拥有一个深度集成到手机操作系统中的单键大语言模型(LLM)语音助手是一个非常有用的功能,而苹果距离开发出竞争版本还相去甚远。他们要么购买,要么放弃。
这并不不合理
亚马逊几个月前就已经对 Alexa 进行了改造,使其由大语言模型 (LLM) 提供支持,但他们推迟了这项工作。
你是在告诉我苹果无法对 Siri 进行同样的改造吗?
不合理的是,他们明知 Siri 并未进行过大的 LLM 更新,却表现得好像它已经进行了更新一样。就像期望任何著名且延迟或未公布的特性会神奇地出现一样,这是不合理的。
亚马逊只需要一个通用的大型语言模型(LLM)。从目前的情况来看,苹果似乎正在尝试实现与操作系统和设备端数据的深度集成。这是一个需要解决的不同问题。他们似乎还在努力在尊重用户隐私的前提下实现这一目标,而大多数其他公司都忽视了这一点。
我看不出来这有什么大不了的。我宁愿等待一个好的产品,也不愿看到他们仓促推出一个敷衍了事的“跟风”聊天机器人,这种机器人与我能直接下载的其他数十个聊天机器人毫无区别。
如果我们相信克雷格·费德里吉的话,他们确实有东西,只是当谈到将它推广到 10 亿台设备时,它还达不到他们的标准。这很公平,我经常遇到来自 ChatGPT 和其他大语言模型(LLMs) 的不良数据。让它再成熟一点并不是坏事。
ChatGPT花了几个月时间让我的父亲对一项选择性心脏手术充满信心;他几乎以一种傲慢的态度进入手术室,认为ChatGPT已经给了他所有可能需要的信息和对现实的平衡看法。现实在他进入重症监护室时狠狠地击中了他。他给我发了一些他与ChatGPT的对话记录,其中充满了相互吹捧的内容。他利用ChatGPT淡化医生提出的负面信息,并放大正面信息。虽然保持自信是好事,但我认为这已经走得太远了。我整周都在医院里试图让他摆脱抑郁情绪,并调整ChatGPT强化了的不切实际的期望。我希望苹果能找到更负责任的方式。如果这需要时间,那也没关系。
为什么在讨论大语言模型(LLMs)和苹果智能时会提到 Siri?他们已经发布了 Siri 2.0 吗?还是我错过了什么?
原帖指出苹果落后了。他们可能在发布研究成果,但这对购买他们产品的最终用户来说完全无用。
苹果平台上提供了大量的大语言模型(LLMs)。如果有人想要一个聊天机器人,他们可以在苹果产品上获得一个聊天机器人。这并不难。
所有的安卓用户都只使用 Gemini 吗?所有的 Windows 用户都只使用 Copilot 吗?原生的 Linux 桌面大语言模型在哪里?
我真的不明白这种批评。如果Siri能做更多事情当然很好。但我无法容忍Siri在过去需要真实数学计算的简单问题上开始胡乱猜测。我是否有其他选择在过渡期兼顾两者优势?当然有。困难在哪里?
Siri 是默认的、唯一能够访问手机上所有数据的语音助手。无论我的 iPhone 上安装了 ChatGPT、Claude、Gemini 还是其他 SOTA 模型,我都无法在汽车或其他免提情况下轻松激活它们,也无法将它们与 iPhone 上的其他应用程序或数据一起使用。
将“大语言模型(LLMs)”替换为“竞争对手”,也许您就会明白我的意思了。
大语言模型并不一定是竞争对手。苹果并不需要拥有最全面的大语言模型。他们需要创建一个能够与他们的操作系统和用户存储在这些系统上的数据完美整合的人工智能。除此之外,他们还需要一个良好的系统,以连接到用户可能想要/需要的任何其他通用大语言模型。对于基本问题来说,拥有一个不错的现成产品是不错的,但能够轻松切换到领先的专业公司或最适合用户需求的公司,远比只使用一个第一方选项要好得多。从ChatGPT在苹果设置中的呈现方式来看,我不会对这种计划感到意外。
就像互联网一样,苹果无需重新发明每个网站就能掌控一切。通过苹果平台,用户可以访问亚马逊、谷歌或其他任何服务。苹果并未创造互联网,而是提供了通向互联网的入口。人工智能也可以采用大致相同的方式。这样,无论谁获胜,苹果都能支持它。归根结底,大语言模型(LLM)并不是独立存在的,它需要通过人们喜欢使用的硬件/软件来访问,而不是又一个需要充电和携带的设备。苹果拥有非常受欢迎的手机和最受欢迎的可穿戴设备。这使他们处于非常有利的位置。他们往往迟到,但往往穿着最时尚。第一代iPhone甚至没有视频功能,人们因此嘲笑它,而如今iPhone的视频功能已被广泛认为是智能手机领域中最优秀的之一。
别忘了,1983年我的Apple ][+上运行的Infocom游戏就能处理此类命令。
(当然,前提是有多个直接宾语。)
“握持方式错误”正是描述iPhone天线桥接问题时最恰当的表述。这是苹果产品的缺陷。
“你没有将这个简单到可笑的查询扭曲到足以让这个脆弱的工具正常工作的程度。下次扔鸡骨头时要更用力些。”
这种情况已经持续了十多年。如果有人到现在还没弄明白,那也只能怪他们自己。
我甚至不确定为什么要把这两个问题合并成一个问题。这样提问的方式显得非常不自然。大多数人都会被这个问题难倒,尤其是如果这是口头提问的话。
> 这种提问方式显得非常不自然。大多数人都会被这种问题难倒
我猜GP只是举了个例子。作为一个经常使用的人,我遗憾地确认,Siri几乎对每一个多部分问题都会出错。
如果没有其他基于语音的AI消费产品能够完美处理此类请求,这或许可以原谅。
而苹果已经整合了其中之一——ChatGPT——来做到这一点。
如果他们想要大语言模型(LLM)的答案,他们本可以得到一个。他们只是为了攻击苹果而大费周章。
我无法在我的苹果设备上与ChatGPT进行免提对话,但我可以与ChatGPT对话。
除此之外,许多人没有安装任何应用程序,而苹果没有预装一个合理的语言模型(LLM)来满足这个市场,这似乎非常不符合他们的风格。
而且,有足够的可靠报道和人员调整表明,它尚未推出是因为他们未能使其正常工作,而不是因为他们没有尝试。
原帖作者并非在询问如何使用Siri完成这个人为设计的任务。原帖作者认为,2025年的Siri应该能够处理这个相对简单但人为设计的任务。
> 75华氏度等于多少摄氏度,85华氏度等于多少摄氏度
嗯,什么?作为一名以英语为母语的人类,这个问题对我来说也相当困惑!
首先,英语世界的大多数人并非以英语为母语。
“截至2022年,英语母语者约有4亿人。包括将英语作为第二语言的人群,英语使用者总数估计在15亿至20亿之间。”
其次,我测试的所有流行模型在该查询上表现良好,包括Android上的Gemini(即“OK Google”),唯独苹果的模型例外。
https://en.m.wikipedia.org/wiki/English-speaking_world
我不确定你为何要讨论英语国家等话题。无论如何,你测试的这些模型(我不确定为何我们认为这是个好基准)是在无线设备上运行的本地模型,还是使用数据中心并仅传输文本?
我相当确定Siri仍会将用户语音样本发送至数据中心。至少有一段时间,它曾使用多路径TCP来降低多个可用网络连接的延迟,如果我没有记错的话。
一些现代苹果设备支持“本地Siri”,但其语音识别性能和功能都是有限的子集。
我刚在手机上试了一下,只弹出了两个转换结果,而且是快速连续出现的。
>> 75华氏度等于多少摄氏度,85华氏度等于多少摄氏度
可能不会有太大区别,但陈述的后半部分并不完全清楚。85华氏度是什么?
我认为当你将这两个独立的计算串联起来时,在显示结果时会遇到问题。
将“75华氏度等于多少摄氏度,85华氏度等于多少摄氏度”这句话输入ChatGPT,它能给出正确结果(它推断第二个“度”指的是摄氏度),并提供了一个清晰的转换公式。
所以,苹果在这方面确实落后了。
事实上,Gemini的回应是:75华氏度等于23.89摄氏度,85摄氏度等于185.00华氏度。
与此同时,用户已经习惯于期待一个能够理解多个查询并给予适当回答的系统。
没错。但对于我们大多数人来说,这只是过去一年的事情。我有一些朋友/亲戚仍然从未与大语言模型(LLM)交谈过。
你今天对 Siri 的使用(可能是在旧版本的 iOS 上)坦率地说与我们正在讨论的文章毫无关系。很抱歉这么说,但这需要时间。将运行在大数据中心的ChatGPT与在手机设备上本地运行的模型进行性能比较……再给它几年时间。
人们已经给Siri几年时间了,这已经持续了十年。Siri曾经在数据中心运行(对于旧硬件和HomePod等设备仍然如此),而且它从未支持过复合查询。
Siri 需要被带到后院枪毙。升级 Siri 的问题在于,为了保持与 Siri 以往所有功能的向后兼容性,他们不得不试图将现有 Siri 功能(以及现有 Siri 工程师)与任何大型语言模型(LLM)结合使用。这导致了灾难,所有功能都无法正常工作,而且只是让整个系统变得更慢。多年来,他们一直在尝试打造一个由大语言模型(LLM)辅助的 Siri,这是该公司一段时间以来最公开的灾难。是时候重新开始了。
作为用户,我乐意选择一个整合程度稍低、能够理解我需求的新版 Siri。
如果有必要,可以在它前面搭建一个粗略的路由器,或者让它能够访问“旧版 Siri”作为可调用的工具,然后让大语言模型(LLM) 决定是返回自己的响应还是 Siri 生成的响应!
我敢打赌,即使是更小的大语言模型(LLMs),在给定用户输入和 Siri 响应对的情况下,也能判断出请求是否得到了合理的回答,或者模型本身能否做得更好,或者至少解释说该请求目前超出了其能力范围。
> 如果必须的话,可以在它前面建立一个粗略的路由器,或者让它访问“旧的 Siri”作为它可以调用的工具,然后让大语言模型(LLM)决定是返回自己的响应还是 Siri 生成的响应!
这两种方法都曾在内部尝试过,甚至包括让大语言模型(LLM)重写“工具版 Siri”的响应,但都没有成功,因为它们都太糟糕了。在前面放置一个路由器会使多轮对话(当 Siri 要求确认或消除歧义时)的实现成为一场噩梦,而“工具版 Siri”也面临同样的问题。当旧版 Siri 进行歧义消除时会发生什么?大语言模型(LLM) 会尝试猜测一个选项吗?它会将提示转发给用户吗?那么,像在发送短信时 Siri 会说“我将发送此信息”的倒计时器这样的“智能 UI”呢?它只是直接传递吗?大语言模型(LLM) 何时知道如何/何时干预 Siri 工具给出的响应?
这一切都是整合上的噩梦,也是这些功能未被采用的主要原因。(当然,还有大语言模型(LLM)表现欠佳,以及设备上的模型本身不够智能。它只是一个更慢、更易出错的 Siri,没有任何新功能。
答案是,他们需要放弃“私人” Siri 的承诺,承认他们获得理想体验的唯一途径是在云端运行一个巨大的、包含大量用户上下文的大语言模型(LLM),并且不要因为与 Siri 的向后兼容性而阻碍它。给它一个可以与 MCP 一起使用的工具箱,将 LoRA 或其他工具融入库存工具中,然后让它自己找出最佳的用户体验。如果这是一个前沿质量的大语言模型 (LLM),那么它从第一天起就会比 Siri 更好,而苹果除了想出一个好的系统提示之外,无需做任何其他事情。
问题是,苹果不愿承认整个隐私问题已陷入死胡同,因此他们将继续尝试推进设备端模型,而这种做法在可预见的未来将继续令人失望,且“达不到我们的质量标准”。
关于为什么仅仅添加一个大语言模型(LLM)并不是那么简单,你提供了非常好的细节,我之前真的没有考虑过,谢谢!
但关于苹果不愿承认客户端计算不够的问题:他们基本上已经通过私有云计算等技术做到了这一点,不是吗?我相信,至少根据我的私人计算隐私日志,校对和 Safari 摘要功能甚至无法在设备上完全运行。
这些小问题已经存在了一段时间,现在最好是咬咬牙,将大语言模型(LLM)整合到 Siri 中。
> 你今天对 Siri 的使用(可能是在旧版本的 iOS 上)与我们正在讨论的文章毫无关系。
是的,但这难道不令人沮丧吗?这项技术是存在的!正如这篇文章所证明的,它甚至存在于提供Siri的同一家公司中!
至少我每次与它互动时都感到如此——或者说,我的Google Home音箱,讽刺的是,它是由发明变压器网络的公司制造和运营的。
尽管有“苹果是邪恶的”或“苹果落后了”(因为他们不做邪恶的事)。不过,他们用基础模型(Foundation Model)做出的成果确实很棒。他们用Swift语言构建了一个系统,允许你指定结构化数据模型(structs),就像在现代编程语言中使用其他模型一样,而且你确实能得到以该格式生成的数据,这真的很棒。与其他许多AI不同,你可能在精心构造请求后得到格式良好的JSON响应,但仍无法完全确定结果,需要实现大量安全措施。显然这只是开始,其他工具也可能实现类似功能。但作为iOS开发者,这让AI的使用变得简单得多。尤其是通过与外部AI的桥接,仍可将结果映射回类型安全的结构化Swift模型。我尽量不做批评者,任何进展,即使最初看起来缓慢或令人失望,也可能带来其他方面的改进。
苹果确实落后了。人们忘记了谷歌在 2019 年就推出了基于变压器的移动级大语言模型(LLMs):https://github.com/google-research/bert
等到苹果准备好人工智能原生产品时,人们已经会将其与非人性化和法西斯主义联系在一起了。
我认为苹果在将硬核大语言模型(LLM)纳入所有产品时保持谨慎是一个很好的举措。它们对普通用户来说并不是那么有用。
除了微软之外,没有人会强迫任何人使用“硬核大语言模型(LLM)”功能。这就像“我很高兴苹果汽车不会发生碰撞,不会威胁到人们的生命”一样,尽管事实上……你知道的,苹果真的想把它推向市场。
Siri、侧载和人工智能功能都是如此;给人们提供选择,没有人会抱怨。
如果他们给 Siri 配备大语言模型(LLMs),就会出现头条新闻说它导致孩子们自杀。人们真的不需要大语言模型。
侧载对业务不利。大多数用户并不关心。请记住,我们这些开发人员并不是核心目标/最大消费者。他们的目标受众是那些不精通技术的年轻人群。
其他提供商将引导生成称为“结构化输出”?
部分生成的内容流媒体功能很棒,我还没在其他地方见过。
抱歉如果我没用对术语。我还没跟上所有从母语中来的术语。;) 但确实,模型不同参数部分可通过流式传输输出结果实现异步完成,这一点非常独特。苹果/Swift在异步/等待机制上稍显滞后,但整体设计应能与“Never”(我知道)的异步和响应式编程良好兼容。
这个问题在于,当你强行将模型输出结构化时,模型质量会大幅下降,因为这超出了模型的分布范围。
(我敢肯定,这正是让微软悉尼团队抓狂的原因。)
推理模型在这方面表现更好,因为它们可以先生成良好的自由格式输出,然后再进行转换处理。
我正在编写一个玩具代理,我总是笑自己这个人类编写了一个生成人类可读标记的代码,然后将它输入到大语言模型(LLM)中,要求它生成一个json,这样我就可以(通过我编写的代码或它编写的代码)进行解析,并以人类可读的形式输出。
我正在考虑让它输出自由格式,然后使用另一个模型将其强制转换为结构化格式。
我发现这种方法确实能带来略微更好的结果。让模型用自然语言“思考”,然后将其结论转换为JSON。(已验证,未进行基准测试)
据我所知,YAML对模型来说比JSON更容易,因为不需要那么多递归语法。
我怀疑这已经不再成立,如果曾经成立过的话。两者都需要字符串转义,这是真正的障碍。而且它们在工具调用方面都是基于JSON进行大量训练的。
我认为这是可能的,因为我认为训练数据集中包含的 yaml 比 json 多得多。我的意思是……你知道每秒钟会产生多少 yaml 吗?
你认为它们在幕后是如何实现的?我几乎可以肯定,这只是“结构化输出”的一种变体,许多推理提供商或大语言模型(LLM)库早已支持这种输出。
嗯?基于语法的采样已经普遍存在多年。这是个基本功能,且保证符合规范。其中不存在任何“精心设计”的成分,包括安全措施。
每次看到苹果的论文,我都会想,那为什么我的iPhone到现在还没实现这些功能呢?
既然你们还没让Siri使用这个功能,为什么要把它交给开发者?是无法实现还是有什么问题?我想等开发者开始尝试制作东西时就会知道了
> 为什么我的iPhone到现在还没实现这些功能?
你具体指的是什么?iPhone上确实运行着模型,而且现在有一些功能会利用这一点。
不过这些功能一点都不有趣。图像游乐场是个笑话,Siri是个笑话,那个生成表情符号的功能也是个笑话。
关于摄影的人工智能功能倒是有的,但那更像是机器学习。
照片修饰功能……偶尔能用?
你到底对什么印象深刻?
该功能在iOS 26中向所有应用开放;用户可通过快捷指令直接访问。
我目前在测试版中,有一个快捷指令能提取各种上下文信息并直接 feeding 给设备端模型。
有没有其他模型能与之大致相当?
主要功能包括文本摘要、搜索和写作工具。
是的,这些功能都毫无意义。
‘写作工具’现在在文本弹出窗口中取代了‘查找’选项,即使你在网页上选择文本时也是如此。这只是碍事且无用。
我同意。你可以解决这个界面问题。进入设置,然后进入屏幕时间,接着进入内容和隐私限制并启用该功能。在限制中的Apple智能部分,你可以禁用单个功能。
那位匿名朋友(即设置面板的作者)想说明,这并非他们最初的意图,但你尽情享受吧。
(由于该功能本意是限制儿童使用,若用于自我限制,可能会禁用某些让你逃避限制的功能。具体细节我记不清了,但可能无法更改时间等设置。)
> 为什么我的iPhone还没有做这些事情?
> 好吧,它在4或5个产品中做了,但那是个笑话。
并非每个AI产品都是聊天机器人。
笑话在于它做得糟糕,而不是它是否做了。
哇。
是的,但为什么我必须打开第三方应用来做这些事情,而苹果公司——正是这家主要推动了整个移动语音助手类别的公司——完全可以将这些功能整合到自己的产品中?
我的意思是,这个功能甚至允许我明确要求它询问ChatGPT!但为什么我需要这样做呢?
这是一个很好的问题。
我不能代表苹果发言,但你一定能理解,在提供基本功能和提供应用程序之间存在一个微妙的平衡。苹果努力提供开发者可以利用的工具,同时尽量不踩到这些开发者的脚趾。界定哪些功能应该内置,哪些应该作为附加功能,需要谨慎处理,而且往往是自然形成的。
我们讨论的难道不是那个因行为引发“Sherlock”一词的苹果公司吗?
没错,就是同一家。
Q: 搜索功能应属于核心功能还是第三方功能?
> 为什么我的iPhone至今还没实现这些功能?
可能是苹果正在优化模型,以便它们能在你的手机上本地运行。记住,Siri的大部分,如果不是全部,都在你的设备上运行。语音处理完全不需要往返传输。
此外,对于较大的模型,每个请求都会创建一次性虚拟机,因此构建这种基础设施需要时间。
它说有两个模型——一个本地模型。我认为它已经发布给应用开发者用于本地使用(它在WWDC的主题演讲中出现过)。
目前向开发者提供的模型(处于测试阶段,未在正式版本的 iOS 中发布)与驱动 iOS 18 中备受诟病的通知摘要等功能的模型相同。因此,你的手机确实具备由该技术驱动的功能……只是你可能并未对这些功能特别印象深刻。
这正是我的观点——它只能实现这类功能吗?如果它具备更强大的能力,为何至今仍未推出更多应用?我们已经等待了很长时间……
根据我在开发者测试版中的体验,我的猜测是,是的,这就是它目前的能力范围。
他们刚刚大张旗鼓地推出了“私有云计算”,以实现服务器端的大语言模型(LLM)处理,因此,考虑到这一点以及 Siri 自诞生以来大部分时间都是基于服务器的(本地处理是相当新的功能),我认为这并不是他们目前的主要限制。
不过,“私有云计算”确实运行在苹果专有硬件上,因此可用性可能是个问题(假设他们不想开始收费)。
苹果硅统一内存对于运行像ollama这样的应用非常出色。你不需要等待他们发布自己的应用程序。
我明白苹果公司行事谨慎,不会轻易透露底牌,但我禁不住觉得他们之所以发布所有这些研究成果,是因为他们尚未将任何研究成果整合到手机中,也未为用户提供令人信服的人工智能功能。这是他们唯一能说“我们的人工智能技术也很出色”的方式。
据我所知,这是首个试图以“负责任采购”为卖点的商业模型。我很喜欢,但似乎围绕这一问题的喧嚣已经平息。这是为了法律保护?还是更多的苹果隐私营销?
股东们正在起诉苹果公司关于“苹果智能”的问题。显然是为了法律保护。
“抱歉,我们在行业中远远落后于其他人,尽管我们多年来一直大肆宣传‘苹果智能’。只是为了满足Bluesky帖子和《纽约时报》律师的要求,我们自己打自己的脸。”
人们对小数据集有意见吗?我猜这其实不算商业用途。
Siri简直就是个笑话!
我儿子(他现在11岁,对主要AI工具如ChatGPT、Gemini等都相当熟练)和我每隔一个月左右就会测试一下Siri,这次我们只是笑了起来。它连基本问题都处理不了——听错问题、卡顿、停顿,还把我们带到一些随机网页等等。
“她简直一团糟!”他说道。
苹果必须立即解决这个问题!
苹果无法承担运行模型的成本,因为iPhone数量太多而数据中心不足。
在设备上运行也存在风险,因为处理器性能限制会让它显得笨拙。
看起来不错。我只是希望他们能改进iPhone和Mac上的语音识别模型,以实现更高的准确性和实时多语言转录。
我真的很想在我的4GB GPU卡上使用这个3B模型!它看起来在合理重量下非常强大。也许有一天会在HuggingFace上看到它
这已不是我记忆中的苹果。产品整合在每个环节都支离破碎,但别担心——我们有大量令人印象深刻的技术文档来弥补。我敢肯定,乔布斯看到他的“它就是能用”哲学被“它勉强能用,但附带一份50页的PDF解释原因”取代时,一定会欣喜若狂。
哲学是一样的,既然在乔布斯的传奇时代从未实现,实践也是一样的。所以他会像当年一样兴奋吗?
我无法理解这是如何发生的。过去十年苹果到底发生了什么变化?
作为在苹果破产前就已加入的人,情况相同,乔布斯已不在,苹果正回归吉尔·阿梅里奥时代的风格。
蒂姆·库克或许更擅长榨取利润,但他并非产品专家。
此次他们需要另一种解决方案,否则无论拥有多少资金,都将停留在iOS/iPad公司阶段,鉴于macOS在全球桌面市场的重要性。
我认为iOS 7主题更新让他们的脑子都坏了。
我好奇未来是否会看到这些模型在手机(aiPhone)硬件上运行。
可以。你可以在iOS 26测试版上直接使用它——无需编写任何代码,我就可以通过快捷指令在我的16 Pro上玩弄设备上的模型。它不是为了成为一个通用聊天机器人……但在飞行模式下,它可以作为一个通用聊天机器人工作,这是一种新奇的体验。
https://share.icloud.com/photos/018AYAPEm06ALXciiJAsLGyuA
https://share.icloud.com/photos/0f9IzuYQwmhLIcUIhIuDiudFw
以上内容生成时间约为 3 秒。那个标有“On-device”的小方框可以在“On-device”、“Private Cloud Compute”和“ChatGPT”之间切换。
他们的 LLM 使用 ANE 低功耗电池,并保留了 GPU。
看看 ANE 和 GPU 在推理方面的 tok/s 比较会很有意思。我猜这些小型模型比那些“理论上”能装进手机但没有GPU就无法加速的7B/12B模型要友好得多。
我以为GPU和ANE的最大区别在于无法用ANE进行训练。GPU在推理时真的也更快吗?这是因为 ANE 更注重效率,还是有其他更重要的原因?
GPU 在推理时通常更快,因为它们拥有更多的 ALU/FPU,但它们的效率也较低。
在仅有 8GB 内存的手机上运行 7B 模型确实令人印象深刻。
如果未来苹果硅芯片提供额外的硬件支持,可能会带来哪些改进,这令人期待。
将计算任务指向私有云计算的成本是多少?这不可能是免费的,对吧?
它是“免费的”,也就是说它不会向你收取任何费用,也不需要订阅:它是Apple Intelligence的一部分,基本上是随设备一起购买的。它存储在云端,因此理论上不需要使用最新款的iPhone或Mac,但实际上确实需要。
如有人提到的,该模型在iOS 26的测试版中可用;它也是macOS 26、iPadOS 26和visionOS 26的一部分。任何拥有免费开发者账户的人都可以安装开发者测试版;公开测试版预计下周发布。
有一段WWDC视频《了解基础模型框架》[1])。
[1]: https://developer.apple.com/videos/play/wwdc2025/286
> 新的基礎模型框架使開發者能夠開始利用約 30 億參數的裝置端語言模型,打造可靠且符合生產環境品質的生成式 AI 功能。Apple Intelligence 核心的約 30 億參數語言基礎模型在摘要、實體提取、文本理解、精煉、短對話、生成創意內容等多元文本任務上表現卓越。虽然我们已针对这些任务对设备端模型进行了优化,但它并非设计为通用知识聊天机器人。我们鼓励应用开发者利用此框架设计符合其应用需求的实用功能
> 约30亿参数的设备端模型
GitHub上已存在一些本地AFM到OpenAI API的桥接项目,可让您将几乎任何兼容OpenAI的客户端指向本地模型。这对基本摘要和文本补全非常有用。
我原本以为“设备”指的是Mac mini,而不是iPhone。(我已经在MacBook Pro上运行模型了。)
我越是思考苹果,就越意识到苹果已经远远落后。当其他公司(OpenAI、Anthropic、谷歌等)都在突破界限时,苹果的野心似乎小得多。
而这还是在他们去年凭借Apple Intelligence做出大胆承诺、让所有人都信服之后。
这就像在慢动作中目睹一场火车脱轨事故。
苹果的野心实际上比 openai 或 anthropopic 更大。只有谷歌的野心(出人意料)与之相似。苹果从根本上希望大语言模型 (LLM) 成为一种工具。它不希望大语言模型成为产品。
我认为这对苹果来说是正确的策略。
他们不是一家模范公司。向用户部署半成品的风险是不可接受的。他们正在稳步推进,并试图以不损害/侵蚀其品牌的方式进行。
等待最佳模型浮出水面(并让幻觉问题得到充分缓解),然后与专有提供商合作或部署开源模型。这比花费数十亿美元训练一个新的基础模型更有意义
这是一个合理的策略,但遗憾的是,它忽略了苹果之所以如此成功的关键。苹果是品牌控制的高手。苹果不喜欢突出其供应商。没有人知道iPhone的显示屏、传感器或内存是由哪家公司生产的。
他们喜欢“发明”自己控制的品牌,以便将底层供应商商品化。用户们,这是视网膜显示屏,不要担心它是 LG 还是三星制造的。
苹果曾尝试将人工智能命名为“苹果智能”。遗憾的是,这并没有成功。现在,苹果不得不出来说“配备 ChatGPT 的 iPhone”或“配备 Claude 的 Siri”。而苹果非常讨厌这样做。非常讨厌。
人们会开始将智能与 ChatGPT 或 Claude 联系在一起,苹果将失去控制权,而 OpenAI/Anthropic 的影响力将上升。
苹果已经把自己逼入绝境。正如我在其他地方所说,这是一场慢动作的火车事故。
请重新观看史蒂夫·乔布斯(Steve Jobs)的 iPhone 主题演讲。每个人都记得开头;但似乎很少有人记得他邀请了另外3位CEO,以突出iPhone与这些公司的集成。
或者考虑一下,他们在离开专有的PowerPC架构后,花了十年时间强调他们的电脑由英特尔驱动——再次,在史蒂夫·乔布斯的领导下。
或者回到1997年,史蒂夫·乔布斯在Macworld上让比尔·盖茨出现在屏幕上,并宣布IE将成为Mac的默认浏览器。
很容易陷入对苹果的刻板印象,认为他们坚持一切都自己做。更准确的说法是,当他们认为自己有更好的想法时,他们不害怕自己做。但他们也不害怕在当前情况下做交易,如果这是最好的前进方式。
他们已经部署了不成熟的模型(例如,由于新闻摘要质量太差,不得不关闭该功能),并且在苹果智能的其他方面也未能兑现承诺。这很难说是谨慎,而是他们无法跟上步伐。
完全正确。另一个对客户产生负面影响的移动.me时刻,比制作一个有用且能正常工作的东西更糟糕。任何“需要”AI的人都可以使用一个应用程序。
苹果的AI摘要篡改了BBC关于Luigi Mangione的头条新闻
https://www.theverge.com/2024/12/13/24320689/apple-intellige…
苹果被敦促撤回“失控”的AI新闻提醒
https://www.bbc.com/news/articles/cge93de21n0o
iOS 18.3暂时移除新闻通知摘要
https://www.reddit.com/r/apple/comments/1i2w65j/ios_183_temp…
只有当你认为他们必须与互联网上的大型模型竞争时。
我认为苹果暂时在旁观是没问题的。
我不会像GP那样极端,但确实,他们必须与互联网上的大型模型竞争。如今,客户已经习惯于向计算机提问并获得比“我只是对你说的话进行了网页搜索,以下是未经筛选、未总结的结果”更好的答案。
是的,这正是人们想要的。苹果是全球最大的公司(别在这点上纠缠,你们知道我的意思),理应能提供这种体验。当然,如果能在设备上实现当然更好,但这并非当前选项,而客户目前对基于网页的服务如ChatGPT似乎也满意。现在说苹果在做其他事情而非手忙脚乱,只是在自欺欺人。
呃,你听说过一种叫做“应用程序”的东西吗?这是一个神奇的概念,其他公司可以在你的 iPhone 上运行代码,并提供你刚刚提到的所有功能。
我不太理解为什么苹果必须提供直接嵌入到其软件中的 ChatGPT 产品。苹果为什么想要参与最便宜的大语言模型 (LLMs) 的竞争呢?苹果公司并不生产商品,而是将商品打包成更独特的产品,从而获得真正的竞争优势,因此人们愿意为苹果的产品支付更高的价格,而不是只购买最便宜的商品。
苹果公司只提供大语言模型(LLM)是没有意义的。OpenAI、Anthropic、谷歌等公司已经这样做了,而苹果公司永远不会进入他们提供的按次付费的 API 服务领域。使用设备端计算提供AI体验,这是OpenAI、Anthropic和谷歌无法构建的,这意味着苹果可以轻松为此收取溢价,前提是他们构建了它。
> 我不明白为什么苹果必须提供一个ChatGPT产品
控制。归根结底是控制。如果你拥有一个平台,你会希望你的“供应商”(在本例中是指应用程序)尽可能地可替代。
如果人们开始将 ChatGPT、Claude 或 Gemini 作为购买手机的主要原因,那么在未来的某个时刻,他们会想:哎呀,我在手机上做的大部分事情都是与 $app 互动,而我可以在其他地方获得 $app。
对于谷歌这样的公司来说,这种用例司空见惯,他们过去会永久存储并显示你的位置信息,但这不符合苹果的风格。
当你将所有请求发送到远程服务器,且这些请求以明文形式存储,时间长短无人知晓时,要谈“隐私”就很难了。
目前,还没有一种方法可以在保护隐私的情况下运行大型大语言模型(LLMs)。这种方法根本不存在。你无法对这些服务进行 E2EE 加密,因为计算是在服务器上进行的,所以必须进行解密。
有些服务会随机化你的实例之类的东西,但这种做法会破坏大语言模型(LLMs) 的一个重要功能,即上下文。除非我们能够在本地运行这些模型,否则无法绕过其隐私噩梦般的特性。
阅读https://security.apple.com/documentation/private-cloud-compu…。这篇文章非常全面,堪称此类研究的典范。
即使它不起作用也没关系。据所有报道,Apple Intelligence 是一团糟。
Siri,即使经过数十年的投资,也只是个笑话。苹果公司没有人才或能力来提供人们想要的东西。
> 我不会像GP那样极端,但确实,他们必须与互联网上的大型模型竞争
运行大型模型的人希望收取月费。
我接受一个在设备上运行的免费模型,且不收集我的数据。
我认为情况恰恰相反。苹果公司绝对有能力主导“聊天”领域。我并不担心他们很快就能理清头绪——最终,我们将会看到大型语言模型(LLM)被整合到iPhone中,无论它被称为Siri还是其他名称。
随着我的个人数据被加密存储在云端,以及苹果公司在隐私保护方面建立的信任……我认为他们最终会处理得很好。
但如果传言属实,他们正在为即将推出的 LLM 产品更加强烈地转向 OpenAI/Anthropic,那么他们实际上已经承认了大部分战略的失败。
这是十多年来我第一次看到苹果处于如此被动的地位。他们通常会推出定义整个类别的产品,这些产品远远领先于竞争对手,即使在解决第一版中的“缺点”后,它们仍然遥遥领先。OS X、iPhone和iPad都是如此。他们在苹果硅芯片方面也远远领先于竞争对手。
我对他们的设备端策略至少在短期到中期内并不抱太大信心。几乎所有设备都缺乏足够的内存,即使有,SLM 技术也远落后于用户对 AI 的认知——即使是免费的 ChatGPT 计划也比设备端最佳的 3B 参数模型领先数年。或许未来会实现巨大的效率提升。
据我所知,私有云目前几乎没有实际应用场景。或许从长期来看会更有趣,但目前由于缺乏合适的(即非中文)、大型(>500亿参数)模型,其实用性有限。如果他们将该功能推广到数十亿台iOS设备,尤其是添加大量使用令牌的功能时,他们将难以实现规模化。
然后他们可以通过API接入OpenAI/Gemini/Anthropic。但这完全违背了他们关于私有云的宣传,并赋予这些提供商对苹果的巨大潜在控制权,而这并非苹果通常所处的地位。此外,为数十亿 iOS/Mac 设备支付按令牌计费的系统级功能费用将极为昂贵,除非他们能通过某种订阅模式回收成本,否则将严重影响服务利润率。
在我看来,未来“操作系统”的发展将大量依赖于代理工具调用。这些需要良好的模型,具有较大的上下文窗口和大量的令牌——这在设备上肯定行不通。事实上,这就是Siri演示中提到的内容。
我确信他们可以实现出色的用户体验(尽管这些失误让我对此产生怀疑)。但将如此核心的功能外包出去,不会让他们处于有利地位。
你关于内存的观点当然正确。苹果无疑需要提升内存配置。同时,这显然是“苹果aiPhone 17 Max”的顶级功能。但这将付出高昂代价。
据我所知,私有云目前几乎没有实际应用场景。
使用苹果基础模型的应用程序可以从设备上的模型无缝切换到私有计算云。
研究已经表明,大语言模型(LLMs)可用于人们最亲密的关系和医疗问题。通常的嫌疑人会试图从中获利,这就是为什么私有云计算从一开始就存在的原因。
> 然后,他们通过 API 获得了 OpenAI/Gemini/Anthropic。但这完全违背了他们所有的私有云信息传递。
目前通过Siri使用ChatGPT时,不会向OpenAI共享任何个人身份信息,且这些提示词不会用于训练。我怀疑苹果会希望对谷歌、Anthropic等公司采取类似措施。
最终,AI平台将不可避免地走向商业化以回收风险投资的巨额资金,这意味着广告,但使用基础模型应用的苹果用户不会受到影响。
> 几乎所有设备都缺乏足够的内存,
自2020年M1芯片起,所有苹果硅Mac均可运行Apple Intelligence。仅需8GB内存即可。所有iPhone 15 Pro、Pro Max及整个16系列均可运行Apple Intelligence。
旗舰iPhone 17型号预计将配备12GB内存,而所有当前Mac型号均至少配备16GB内存。
苹果每年销售超过2亿部iPhone。
毫无疑问,苹果在人工智能领域起步较慢;但这只是早期阶段。他们绝不能被低估。
8GB内存对于一款半不错的型号来说不够用,我认为12/16GB更好(4GB用于模型,8GB用于操作系统)。如果你真的要对设备进行高强度使用,你可能需要更多内存,比如32GB(24GB用于模型,8GB用于其他一切——这样你就能运行一个具有更大上下文大小的130亿参数模型)。
即便如此,人们已经习惯了大型前沿模型的质量,因此在许多任务中会感觉像是重大降级。所有这些问题的核心在于链式工具调用。它会迅速消耗上下文,而上下文需要大量(V)内存。这也会完全削弱你提出的隐私论点,因为如果使用OpenAI,它需要请求个人数据并将其放入提示中。
是的,我注意到苹果开始提供更高内存的设备,但要让这一变化影响到大量用户群体还需要数年时间。而且人们已经逐渐习惯使用像ChatGPT这样的应用程序,而不是系统级功能。更不用说苹果智能1.0的失败了。
他们面临的关键问题是,他们对隐私保护非常重视(这意味着很难与全面采用第三方API相兼容),但他们历史上对内存的分配也非常吝啬,这严重限制了他们在设备上的选项。私有计算是一个有趣的中间方案,但目前他们的模型选项非常有限。
> 我认为8GB内存对于一个半不错的模型来说是不够的。
苹果的约30亿参数设备端模型在智能手机上已经相当不错,尤其是在它设计的功能上:撰写和完善文本、优先处理和总结通知、为对话创建图像以及执行应用内操作。
每台Mac都配备至少16GB内存;而每部iPhone都配备8GB内存,部分iPhone 17型号将升级至12GB。
需注意,使用设备端模型的应用可通过私有云计算无缝切换至更大规模模型,且无需用户操作。
若用户启用该功能,苹果的基础模型可通过保护隐私的方式使用 ChatGPT。到今年秋季,Gemini 和 Sonnet/Opus 也可能成为可选方案。
再次强调,ChatGPT 以保护隐私的方式使用;无需账户: “在 iPhone 上使用 Apple Intelligence 访问 ChatGPT” [1].
[1]: https://support.apple.com/guide/iphone/use-chatgpt-with-appl…
如果认为苹果与其他公司处于同一竞争赛道,那么它确实“落后”了。但苹果从未表现出对开发前沿模型或承担巨额研发成本的兴趣。
你甚至看过苹果智能的广告吗?他们确实参与了这场竞争,只是有点操之过急。
他们宣传的特性与其他公司现在提供的并无二致。将手机对准某物,它就能告诉你正在查看的内容。或总结新闻文章等。结果我们得到的却是……表情符号之类的东西
我有些困惑,你认为人们会因为Siri不如ChatGPT而停止购买iPhone吗?你认为苹果用户会蜂拥至Pixel手机使用Gemini吗?
你这是在幻想什么灾难?
这篇论文读起来很不错,他们做了很多有创意的事情。可惜这个模型无法直接访问,只能集成在某些应用中。
> 遗憾的是,这个模型无法直接访问,只能集成到某些应用中。
通过快捷指令,即使是非开发者也能访问它 “iOS 26 快捷指令 + 苹果智能是强大的 ”(YouTube)[1].
[1]: https://youtu.be/Msde-lZwOxg?si=KJqTgtWjpdNDxneh
当黑莓称霸全球时,人们曾问:“为什么苹果不做智能手机?”
我觉得这是今天关于 AI 在 hn 上最令人兴奋的消息。我真的希望苹果能证明小型模型与大型模型一样强大。也许他们让 Perplexity 团队在研究这些小型模型。
以随机顺序列出数十位“贡献者”,这或许是一种防止人才流失的策略?
虽然无法确定具体原因,但论文以扁平结构列出贡献者(无论是随机还是按字母顺序)确实有诸多其他考量。尤其在合作者数量庞大的情况下。
“参考文献”部分某种程度上已经缩小了范围。
作为一个姓氏在字母表末尾的人,看到那页时我并没有首先想到这一点。
既然Meta已经有了Ruoming,他显然可以给他们一个按优先级排序的名单。
他的团队大多是前谷歌高管,所以GDM知道谁是优秀的。
在LinkedIn上查找人员并确定核心研究人员并不难。我认为这只是一篇非常浅层的概述性论文,涵盖了不同团队开展的多个不同研究项目,因此很难以任何有意义的方式对贡献者进行排序。
考虑到贡献者中很大一部分人的名字源自一种与英语任意字母排序毫无关联的脚本和语言,这种列表配置与其他任何方式一样合理。
哈哈,然而,谷歌的屏幕阅读器TalkBack在苹果之前就已具备AI图像描述功能。苹果本应是无障碍功能的领军者。但借助AI技术,他们却做不到,尽管他们显然可以访问具备视觉识别能力的ChatGPT。当然,我不知道谷歌使用的是哪种模型,因为科技新闻不会对Android无障碍套件APK进行拆解分析,但它的效果相当不错,速度也很快。
苹果的VoiceOver难道不是已经支持AI图像描述五年了吗?https://www.idropnews.com/ios-14/ios-14-adds-ai-based-voiceo…
我的问题是……
这是第一次有数百万人在自己的设备上下载并运行模型。
问题是……苹果公司会不断调整这些模型,还是仅在系统升级时进行调整?
我个人非常喜欢本地软件。尽管有人认为我老派,但我喜欢当一家公司不会随时在服务器上更改软件,也不会频繁将结果上传至服务器以从用户群体中获取更多利润。
> 问题是……苹果公司会不断调整这些模型,还是仅在操作系统升级时进行调整?
当然,当新更新发布时(例如从macOS 26升级到26.1)。
如果必要,他们可以在两次发布之间推送模型更新。
根据本文中的PDF文件:
> “工具包生成的适配器与基础模型框架完全兼容。然而,每个适配器仅与特定版本的基础模型兼容,这意味着每次基础模型版本更新时,都必须重新训练对应的适配器。”
任何更改都将要求重新训练第三方开发者构建并分发的LoRA适配器,因此我认为他们不会在操作系统更新之外随意更新模型。
LoRA适配器可通过背景资产分发,但基础模型本身应与操作系统版本绑定(例如iOS 26.0 → 26.1),且仅在苹果发布新操作系统镜像时进行更新。
有道理;感谢澄清。
模型大小达数千兆字节,因此我怀疑他们会频繁推送更新。
请指教:是否存在通过修改模型参数(仅更改少量参数)来实现更新包体积更小的方案?
是的,LoRAs。苹果公司使用LoRAs将单一模型专用于不同场景。
谢谢!非常有趣。主要发明人爱德华·胡在这段视频中对LoRAs及其应用进行了极佳的阐述:
https://youtu.be/DhRoTONcyZE?si=vM2N5zNslbQ5z8gv
与此同时,当我让Siri设置一个15分钟的计时器时,大约10%到15%的情况下,它只会说:“关于设置15分钟计时器,我找到了以下信息”,而不是实际设置计时器。