你的笔记本电脑尚未准备好迎接大型语言模型,这种状况即将改变

NPU在低精度运算方面也往往比笔记本GPU提供更优支持。人工智能模型常采用低精度运算来降低便携硬件(如笔记本电脑)的计算和内存需求。

本地人工智能正推动笔记本电脑数十年来最重大的变革

如今,大多数用户通过基于浏览器的在线界面与大型语言模型交互。技术能力更强的用户可能会使用应用程序编程接口或命令行界面。无论哪种方式,查询请求都会被发送到托管运行模型的数据中心。这种模式运行良好,直到出现故障——数据中心停机可能导致模型离线数小时。此外,部分用户可能不愿将个人数据发送至匿名实体。

在本地计算机运行模型可带来显著优势:更低延迟、更精准的个性化需求理解,以及数据驻留本地带来的隐私保障。

元素周期表

然而对于使用超过一年的普通笔记本电脑而言,能在本地运行的实用AI模型数量接近于零。这类笔记本可能仅配备四至八核处理器(CPU),没有专用图形处理器芯片( GPU)或神经处理单元(NPU),仅配备16GB内存RAM,难以胜任大型语言模型(LLM)的运算需求。

即便配备NPU和GPU的新款高端PC笔记本电脑也常显吃力。最大的AI模型拥有超过万亿个参数,需要数百GB的内存。虽然存在大量精简版本的模型,但它们往往缺乏大型模型的智能,而只有专门的AI数据中心才能处理这些大型模型。

若考虑其他旨在增强模型能力的AI特性,情况更为严峻。运行于本地硬件的小型语言模型(SLMs)要么削减这些功能,要么直接省略。图像和视频生成同样难以在笔记本电脑本地运行,直至近期仍仅限高端塔式台式机处理。

这成为人工智能普及的障碍。

要实现本地运行AI模型,笔记本内部硬件及其运行软件都需要升级。这标志着笔记本设计变革的开端,工程师们将有机会摒弃旧时代的最后残余,从零开始重塑个人电脑。

NPU登场

提升PC人工智能性能最直接的方式,是在CPU旁配置强大的NPU。

NPU是专为矩阵乘法运算设计的专用芯片设计用于矩阵乘法运算,而多数人工智能模型都依赖此类运算。这类矩阵运算具有高度并行性,因此GPU(其在高度并行任务上的表现本就优于CPU)成为人工智能数据中心的首选方案。

然而,由于NPU专为处理矩阵运算而设计(而非3D图形等其他任务),其能效表现优于GPU。这对加速便携消费类设备的人工智能至关重要。NPU在低精度运算方面也往往比笔记本GPU提供更优支持。人工智能模型常采用低精度运算来降低便携硬件(如笔记本电脑)的计算和内存需求。

笔记本正被改造以运行大型语言模型

图0:你的笔记本电脑尚未准备好迎接大型语言模型。这种状况即将改变

当今的笔记本电脑可能尚不具备运行大型语言模型的能力,但未来或许能实现。为实现本地运行LLM的愿景,笔记本架构师正重新审视当前设计的诸多方面,由此引发的变革才刚刚开始显现。

ISTOCKPHOTO

  1. 新增NPU。 神经处理单元(NPU)——这类专用加速芯片能比CPU和GPU更快运行大型语言模型及其他AI模型——正被集成到笔记本电脑中。
  2. 扩充更大容量与更高速度的内存。 最大型语言模型需占用数百GB内存。为承载这些模型并快速向数据处理单元提供服务,笔记本正持续提升内存容量与运行速度。
  3. 内存整合。 当今大多数笔记本电脑采用分区内存架构,为GPU配备独立内存池。这种设计初现时颇具合理性:GPU所需的内存访问速度远超通用总线所能提供的。如今为满足人工智能的数据需求,笔记本架构师正重新审视这一决策,通过更快的互连技术实现内存池化。
  4. 单晶片集成多芯片。 为缩短至共享内存的路径,所有处理单元——CPU、GPU和NPU——正被集成于同一硅芯片。这有助于它们相互连接及接入内存,但将增加维护难度。
  5. 功耗管理。 当AI模型驱动微软Windows Recall等常驻功能或AI增强的Windows搜索时,功耗需求激增。低功耗NPU使笔记本电脑能运行这些模型而不致过度消耗电池。

微软技术院士史蒂文·巴蒂奇指出:“NPU的整体架构完全围绕张量数据类型[多维数组]设计。” NPU对此类工作负载具有更强的专属性。因此我们从每秒可处理三万亿次运算(TOPS)的CPU,转向采用高通 骁龙 X芯片,该芯片可驱动微软的Copilot+功能。其中包含Windows Recall功能,该功能通过分析截图生成可搜索的时间线,记录用户使用历史;以及 Windows照片生成式擦除功能,可移除图像背景或特定物体。

尽管高通堪称首个为Windows笔记本提供NPU的厂商,但其举措却引发了NPU TOPS性能竞赛,参与者还包括 AMD和英特尔参与其中,这场竞争正持续推动NPU性能提升。

2023年高通骁龙X系列问世前,搭载NPU的AMD芯片较为罕见,且性能仅约10 TOPS。如今AMD和英特尔的NPU性能已可与骁龙匹敌,提供40至50 TOPS

戴尔即将推出的Pro Max Plus AI电脑将搭载高通AI 100神经处理器,峰值性能达350 TOPS,较数年前顶尖NPU性能提升高达35倍。这条向上右移的趋势线预示着:具备数千TOPS运算能力的NPU将在数年内问世。

运行数亿参数的尖端模型需要多少TOPS?无人能确切知晓。当前消费级硬件无法运行这些模型,因此无法进行实际测试。但显然我们已触手可及。值得注意的是,NPU的应用场景远不止大型语言模型。Vinesh Sukumar, 高通公司人工智能与机器学习产品管理负责人指出,AI图像生成与处理正是缺乏NPU或高端GPU难以完成的典型任务。

打造均衡芯片,提升AI性能

更快的NPU能处理更多每秒令牌量,从而在使用AI模型时提供更流畅的体验。但在本地硬件上运行AI,并非仅靠更大更强的NPU就能解决问题。

AMD公司首席设计工程师Mike Clark指出,设计PC端AI加速芯片的企业不能将全部赌注押在NPU上。部分原因在于AI并非取代PC原有任务,而是对其功能的补充。

“我们必须擅长低延迟处理、小数据类型操作和分支代码——这些传统工作负载。我们不能放弃这些能力,但同时也要精通人工智能,”克拉克表示。他还指出,CPU在人工智能工作负载中承担着“数据准备”的职责,这意味着性能不足的CPU可能成为瓶颈。

NPU还需与GPU竞争或协作。在PC领域,这通常意味着配备大量内置存储的高端AMD或英伟达 GPU。英伟达GeForce RTX 5090的规格显示其AI性能高达3,352 TOPS,甚至让高通AI 100相形见绌。

但其存在重大缺陷:功耗。尽管性能极其强大,RTX 5090本身设计功耗高达575瓦。笔记本移动版功耗更低,但仍高达175瓦,足以迅速耗尽笔记本电池。

英特尔客户端AI产品经理Simon Ng表示,该公司“发现NPU能在更低功耗下实现更高效的运算”。AMD锐龙AI产品管理总监拉凯什·阿尼贡迪对此表示认同。他补充道,低功耗特性尤为关键,因为AI任务的运行周期通常比视频编码或图形渲染等高负荷任务更长。“这类应用需要持续运行较长时间,例如始终在线聆听指令的AI个人助理。”

这些相互冲突的优先级意味着芯片架构师和系统设计师需要在AI个人电脑中做出艰难抉择——特别是那些常依赖电池供电的设备(如笔记本电脑),如何分配硅片资源和功耗。

“我们必须精心设计系统级芯片,确保更大尺寸的SoC能在轻薄机身中满足性能需求,” AMD资深设计工程师马赫什·苏布拉莫尼如是说。

人工智能时代,内存至关重要

在CPU和GPU旁集成NPU虽能提升普通PC的AI任务处理能力,但这并非人工智能对PC架构带来的唯一革命性变革。另一项变革或许更为根本:内存架构。

当今多数PC采用分隔式内存架构其设计理念可追溯至25年前的决策。总线带宽的限制迫使GPU(及其他可能需要高带宽内存的扩展卡)放弃访问PC系统内存,转而依赖GPU自身的专用内存。因此,高性能PC通常拥有两个独立运行的内存池:系统内存和显存。

这对AI构成挑战。模型需要海量内存,且必须一次性加载至内存中。传统PC架构将内存分割为系统内存和GPU内存,与这一需求相悖。

“当我使用独立GPU时,它会挂载一个独立的内存子系统,”AMD副总裁兼首席技术官Joe Macri解释道。“当需要在CPU和GPU间共享数据时,必须先从主内存取出数据,通过PCI Express总线传输至GPU内存进行处理,再将结果全部移回主内存。”马奎指出这种机制会增加功耗并导致用户体验迟滞用户体验。

解决方案是采用统一内存架构,通过高速互联内存总线使所有系统资源共享同一内存池。苹果自研芯片或许是近期最具代表性的统一内存架构芯片案例,但该技术在现代个人电脑中仍属罕见。

AMD正将这一技术引入笔记本领域。该公司于2025年国际消费电子展上发布了面向高端笔记本的新款APU产品线——锐龙AI Max。(消费电子展)上发布了全新APU产品线,定位高端笔记本市场。

锐龙AI Max将公司的锐龙CPU核心与Radeon品牌GPU核心置于同一硅片上,并集成一枚50 TOPS级NPU,通过统一内存架构实现单芯片集成。由此,CPU、GPU和NPU均可访问高达128 GB系统内存。和NPU均可访问高达128 GB系统内存,该内存由三者共享。AMD认为该策略是消费级PC内存与性能管理的理想方案。“通过将所有组件整合于单一散热头下,整个功耗范围便可纳入我们的可控范围,”Subramony表示。

Ryzen AI Max已应用于多款笔记本电脑,包括惠普Zbook Ultra G1a和华硕ROG Flow Z13。它还为Framework Desktop以及若干小众品牌的迷你台式机提供动力,例如GMKtec EVO-X2 AI迷你电脑。

英特尔与英伟达也将加入这场盛宴,不过方式出人意料。去年9月,这两家昔日对手宣布结盟,将推出融合英特尔CPU核心与英伟达GPU核心的芯片。尽管具体细节尚未公开,但该芯片架构很可能包含统一内存及英特尔NPU。

此类芯片若能普及,将彻底改变PC架构。它们不仅能提供远超以往的内存池容量,更能将CPU、GPU和NPU集成于单片硅片,实现精准监控与协同控制。这些特性将使AI工作负载更易于调度至最适配的硬件执行单元。

但遗憾的是,统一内存架构的芯片通常将CPU、GPU、NPU和内存封装在主板上不可拆卸的单一封装中,这将使PC升级与维修难度倍增。传统PC架构中CPU、GPU和内存均可独立更换,与之形成鲜明对比。

微软对人工智能的乐观展望正在重塑Windows

MacOS因其美观直观的用户界面广受好评,而苹果自研芯片采用的统一内存架构对人工智能应用颇具优势。然而苹果的GPU性能不及PC领域顶尖产品,其面向开发者的AI工具普及度也相对有限。

专注人工智能营销的阿姆斯特丹Aigency公司联合创始人克莉茜·克雷默今年早些时候向我透露,尽管她个人偏爱macOS系统,但其机构并未使用Mac电脑进行人工智能工作。“我台式Mac的GPU几乎无法处理[我们的AI工作流程],而这台电脑并不算旧,”她坦言,“希望苹果能在这方面迎头赶上,毕竟他们曾经是创意工具的代名词。”

![橙蓝条纹背景上,人形玻璃罩下的笔记本电脑]

丹·佩奇

这为竞争对手提供了成为PC端AI首选的契机——微软对此心知肚明。

微软在2024年Build开发者大会上推出了Copilot+ PC系列。此次发布存在诸多问题,最突出的便是其核心功能Windows Recall的发布过程出现重大失误。该功能利用人工智能帮助用户搜索电脑上曾接触过的任何内容。尽管如此,此次发布仍成功推动了PC行业的发展。Windows Recall功能发布时遭遇重大失误。该功能利用AI技术帮助用户检索电脑上曾浏览或听过的内容。尽管如此,此次发布仍成功推动PC行业向NPU转型——AMD与英特尔均在2024年末推出了搭载升级版NPU的新款笔记本芯片。

在Build 2025大会上,微软还揭晓了Windows AI Foundry Local——这一“运行时堆栈”整合了热门开源大型语言模型的目录 。除微软自有模型外,目录还收录了来自阿里巴巴、 DeepSeek、Meta、Mistral AI、英伟达、OpenAI、Stability AI、xAI等机构。

一旦模型被选定并集成到应用程序中,Windows 便会通过 Windows ML 运行时在本地硬件上执行 AI 任务,该运行时会自动将任务分配给最适合处理该任务的 CPU、GPU 或 NPU 硬件。

AI Foundry 还提供本地知识检索和低秩适应(LoRA)API,这些高级功能允许开发者定制AI模型可参考的数据及其响应方式。微软同时宣布支持设备端语义搜索和检索增强生成功能,助力开发者构建可调用特定设备端信息的AI工具。

“[AI Foundry]的核心在于智能运用。它能高效调度所有可用处理器,在CPU、NPU等硬件间智能分配工作负载。这领域蕴藏着巨大的提升空间和广阔发展前景,”Bathiche如是说。

迈向个人电脑的通用人工智能

具备AI能力的个人电脑硬件快速演进,远不止是渐进式升级。它预示着个人电脑行业的变革浪潮,这场变革将彻底洗刷80年代、90年代乃至21世纪初设计的个人电脑架构的最后痕迹。

日益强大的NPU、统一内存架构与精密的软件优化技术相结合,正以令巴蒂奇等业内人士都感到惊讶的速度缩小本地与云端人工智能的性能差距。

这也将推动芯片设计师朝着集成度更高的芯片方向发展,这些芯片将拥有统一的内存子系统,并将CPU、GPU和NPU集成到单片硅片上——即使在高端笔记本电脑和台式机中也是如此。AMD的Subramony表示,目标是让用户”手持一台迷你工作站,无论是用于AI工作负载还是高性能计算。“用户无需再依赖云端服务。”

如此重大的变革不会一蹴而就。但显然,众多PC行业参与者正致力于以优化AI性能的方式重塑日常计算机。高通的Vinesh Sukumar甚至认为,平价消费级笔记本应像数据中心那样瞄准AGI目标。

“我期待看到完整的人工通用智能(AGI)在高通设备上运行,”他表示,“这正是我们努力推进的方向。”

元素周期表抱枕

共有{260}精彩评论

  1. 本月我正打算购置一台笔记本电脑。如今许多新款笔记本都主打AI功能,比如这款“惠普OmniBook 5新一代AI电脑”的宣传语:

    “骁龙X Plus处理器——凭借响应迅捷的性能实现日常高效,通过AI工具无缝多任务处理,提升生产力与连接性,同时提供持久续航”

    我可不想在笔记本上装这种垃圾,尤其是在电池供电时!在笔记本上运行AI就像用Xbox玩《星际争霸重制版》或用Steam Deck玩《工厂物语》。听说怀孕验孕棒也能运行《毁灭战士》——当然能运行,但体验绝对是糟糕透顶的折磨。

    说真的,这简直是当前AI过度炒作的典型案例。

    1. 笔记本厂商太急于在AI热潮中捞钱了。所谓“AI PC”根本没什么特别之处,不过是装了Windows Copilot的普通电脑——而这本来就是Windows的标准功能。

      >我可不想在笔记本上装这种垃圾,尤其是在电池供电时!

      唯一的好消息是它不会影响电池续航,因为它根本不进行本地处理,只是调用云端的LLM模型。

      1. 这种说法并不完全准确。高通骁龙芯片虽主打“AI”性能,但其内置的Hexagon DSP如今正被用于(或专为)AI应用。本质上这是个具备大向量尺寸的独立向量处理器。

      2. 这难道不会引发硬件制造商与微软之间的巨大矛盾吗?

        微软希望所有用户都在其崭新的数据中心运行Copilot,以便在过程中收集数据。

        笔记本制造商正在生产能本地运行大型语言模型的设备,但若没有本地可运行的模型(而Windows因Copilot不会提供),这毫无意义。难道他们要在新笔记本预装Llama模型?

        我们是否将迎来新用户分层?资深用户购买预装LLM的专用设备,普通用户则只能使用调用Copilot的设备?

        各位有何见解?

        1. 这些笔记本不仅预装Copilot,厂商还纷纷植入自家AI聊天应用。

          比如我新买的LG gram就预装了名为Chat的应用,不过键盘上的“AI按键”(其实就是右Alt或右Ctrl键,记不清了)默认跳转的是Copilot。

          如果真存在竞争,也只是争夺键盘上那个“AI按键”的默认应用——我猜这按键基本没人会用。

          1. 有意思。没错,这会成为争论焦点

        2. > 微软希望所有人都在他们崭新的数据中心运行Copilot,这样就能在传输过程中收集数据。

          微软根本不在乎数据存储位置,他们乐意直接翻遍你的C盘收集/挖掘所需数据——当然前提是你能避开他们那些诱导用户将所有文件存入OneDrive的黑暗模式。更别提他们还会通过Recall功能记录你与其他AI的所有交互记录。

          1. 我原以为他们需要用户使用量来证明数据中心投资的合理性,但你说得对,他们根本不在乎。

          2. 微软从一开始就不想要你的数据。没人关心或想要你的数据。你并不特殊。

        3. 这纯属营销噱头。笔记本厂商明知计算任务已转移至云端,却仍宣传本地运算能力能带来差异化体验。

          若要稍作宽容解读,代理式AI意味着本地设备仍处理大量任务,只是不包含推理环节本身。

      3. > 这不过是台装了Windows Copilot的普通电脑…而Copilot本就是Windows的标准功能。

        标榜“AI PC”的设备因搭载NPU而获得“Copilot+”及附加功能。尽管台式机GPU的TOPs性能最高可达要求值的50倍,却因某些原因无法获得全部功能https://www.thurrott.com/mobile/copilot-pc/323616/microsoft-

        1. 微软这是在帮NPU芯片厂商吗?

          Wintel联盟究竟何时才能实现?

          微软持有约1020亿美元现金(含短期投资)。英特尔市值约1760亿美元。

          我始终不明白微软为何数十年间持续为英特尔创造利润。

          随着Azure云服务的扩张,微软收购英特尔的动机更加强烈。

      4. AI电脑同样搭载NPU,据我推测可加速矩阵乘法运算,尽管加速效果不及优质独立显卡。

      5. 英特尔为AI PC设定的门槛本就不高,不过是让厂商有噱头可推。Ollama模型在配备8GB经典内存的Tiger Lake平台上运行4B模型完全游刃有余。

        但统一内存才是真正成就AI就绪PC的关键。苹果自研芯片已证明这一点。消费者愿意为此买单,我认为即便五年后没人再关注大型语言模型,统一内存技术仍将持续存在并带来价值。

      6. 即便只是收集数据并上传至云端,也会消耗电池寿命。我更希望设备只执行我的指令,而非让AI在后台持续运行——无论是试图提供帮助还是默默收集数据。

        1. Copilot本质就是ChatGPT的应用程序。

          不用它,对设备毫无影响。除非你主动粘贴内容,否则它不会向云端传输数据。

          1. 所以像回忆功能这类新AI特性不存在?

            Windows正深度融合AI,尽可能将其嵌入操作系统核心。它并非“应用程序”——即便现在如此,这种状态也难以持久。微软的战略已明确传达。

        2. >> 我更希望设备只执行我的指令

          Linux听到了你的呼声。选择权在你手中。行动吧。

          1. 遗憾的是,对多数人而言仍存在诸多障碍:

            AAA级游戏的反作弊系统不支持Linux

            视频编辑(DaVinci Resolve虽存在,但在多数发行版上部署繁琐;KDenLive/OpenShot难以满足主流需求)

            Adobe套件(特别是Photoshop/Lightroom,以及视频编辑的Premiere)——期待Affinity支持Linux但至今未实现。除非投入大量时间学习,否则GIMP和DarkTable难以替代。

            上月尝试在笔记本迁移Linux系统,坚持一个月后重装了Windows 11。遇到了WiFi芯片问题(最终修复但需修改系统底层配置文件,操作体验欠佳);Fedora系统启用LUKS加密后,内核更新导致键盘无法输入加密密钥;缺乏类似Windows Hello的面部识别支持。EndeavourOS表现最佳,但Arch系统对多数用户而言仍属折腾。

            系统状态已达历史最佳,但仍存障碍。

            1. > 那些搭载反作弊系统的AAA游戏根本不支持Linux。

              实在无法理解有人竟为玩游戏甘愿在设备上安装根套件。职业选手情有可原,但普通玩家这么做简直愚蠢。

              1. 多数时候他们根本不知情。我清楚《Valorant》(拳头公司出品)就这么干,过去我正因如此避开这款游戏。

                但很多时候纯粹是同伴压力——只为和根本不在乎的玩伴一起游戏。

            2. 据朋友反馈,Arc Raders在Linux上运行良好。所以本质上只是少数几款3A游戏需要运行反作弊程序——而且这些程序可能根本不起作用。你能举出Proton兼容性报告里标记为不兼容的3A游戏吗?

              Gimp虽非完美方案,但完全满足我的需求。Darktable的功能远超所需,偶尔崩溃也情有可原。Inkscape和Blender同样性能过剩。

              至于Adobe这用户敌对巨头,我简直想骂你几句来宣泄情绪…蠢货!

              是的,我已经感到愧疚,对此表示歉意。但抛开挑衅不谈,列举那些把用户当垃圾对待的应用程序,根本不足以成为继续留在同样糟糕平台的理由。

              我懂,有时忍受糟糕待遇值得——毕竟习惯了被轻视后,现状反而轻松。但逃避学习新工具的努力,绝不是纵容那些让世界更糟的垃圾公司招募更多受虐者的正当理由。

              你用它,不等于它值得推荐。

              1. 我基本不玩PC游戏了,现在用Xbox或笔记本集成显卡能跑的旧游戏。不过最近《战地6》确实让我心动,要是配了游戏主机肯定想玩。

                我知道Adobe是…混蛋公司,但他们的软件能成为行业标准自有道理。

                1. 《战地6》是近期的大作,若有游戏PC配置我肯定会想玩。

                  我们的游戏口味确实天差地别,就算付钱我也不碰那款。所以我们对Linux兼容性的预期都存在样本偏差。尤其EA和Adobe是同类公司。而且网上似乎认为他们存在作弊问题,真想知道实际严重程度如何,以及反作弊的成本是否值得。

                  它们之所以成为行业标准,是因为它们是先驱者,而非必然因为它们更优秀。它们确实拥有近乎无懈可击的功能集,连我都无法否认这一点。我只是想说,对我而言,尊重与公平远比内容感知填充功能重要得多。

                  另外,Adobe套件难道不能在Linux上运行吗?

          2. 我开始觉得Valve可能是Linux平台(在此领域)自Ubuntu以来最重大的利好。

      1. 赞同。我工作用的是基于ARM架构的T14s。

        虽然性能远不及MacBook,但它运行静音且电池续航超长——这与多数人使用的英特尔处理器笔记本简直天差地别。

        不过公司确实删减了大量AI冗余功能。

    2. > 在笔记本上运行AI就像用Xbox玩《星际争霸重制版》

      这个比喻很贴切——毕竟确实存在主机版《星际争霸》(任天堂64平台),体验相当别扭。还包含分屏多人模式。

    3. AI营销确实多半是噱头,但NPU本身并不妨碍使用,你完全不必强行启用。

    4. 不过《工厂物语》在笔记本上运行得相当流畅…

      但确实,新电脑必须重装系统。

  2. 作者似乎不知道苹果新款笔记本运行大型语言模型有多出色。这令人费解,也让人质疑本文所有论点的有效性。

    1. 若苹果推出内存超过24GB的合理价位笔记本(我此刻正用顶配Air撰写此文),我或许认同。我长期购买苹果笔记本,每次都选配最大内存。刚查证发现现在可选32GB了。但若要升级至64GB,MBMax型号需花费3700美元;128GB版本起价4500美元,几乎是32GB Air的三倍价格。

      据我所知,搭载M3芯片的Air在内存充足时完全能运行大型模型(尽管速度较慢)。

      1. 苹果内存定价确实令人不快,但需考量竞争格局——在本地运行超大规模模型(LLMs)的场景下,当前仅苹果或特定AMD处理器能提供可分配给GPU的大容量高速内存。

        搭载AMD 395+处理器和128GB内存的惠普Zbook官方售价4049美元[0]

        而配置相同的华硕ROG Flow z13售价2799美元[1]——虽低于苹果产品,但对笔记本而言仍是高价。

        [0] https://hothardware.com/reviews/hp-zbook-ultra-g1a-128gb-rev

        [1] https://www.hidevolution.com/asus-rog-flow-z13-gz302ea-xs99-

        1. 没错,我绝非指苹果在这方面独树一帜——这只是自初代M1芯片以来就困扰我的问题,远在本地LLM将其变成严重问题之前。增加内存永远是明智之举,再多的内存也永远不够用。

        2. 你可以买任何低配笔记本,只要它没有焊接内存条,直接升级到最大支持容量即可。

          未必非要买顶配型号。

          1. 这会是统一内存吗?即GPU和CPU共享内存?这对性能至关重要。

            1. 没错,不会。我承认在此语境下我的说法完全错误。

              感谢指正!

            2. 确实不会。你只能使用CPU和带宽较低的系统内存。

        3. 框架台式机能让你以2000美元的价格获得395+处理器和128GB内存。

      2. 诀窍在于购买二手设备。特别是M1系列,高内存型号具有极高性价比——相较于CPU,其内存规格在代际更迭中变化不大,而M1处理器本身已能胜任多数工作负载。最近入手一台M1 Max 64GB内存机型,记得是1400美元。

      3. 我认为价格只是讨论的维度之一——但让我们深入探讨。确实金额不菲,但你将这个价格与什么进行比较?

        据我所知,要解决在64GB以上显存上运行大型语言模型的问题,非苹果方案的成本至少是您提到的两倍,若想达到128GB规格,价格恐怕还要再加一个零?

      4. 苹果在内存和SSD升级价格上的暴利手段令人震惊(我用的M1芯片配64GB内存/4TB硬盘)。

        不过在DRAM短缺问题上,他们确实存在一定定价弹性。

        1. M系列的统一内存直接集成在芯片内部,并非独立组件。苹果当然要维持利润率,但这种设计导致内存成本高于DRAM的逻辑显而易见。当然当前市场定价或许是个例外,希望只是暂时的。

        2. 他们在内存和固态硬盘上定价偏高,但整体机器性价比远超Windows笔记本。

    2. 我认为作者清楚苹果自研芯片的情况。文章提到苹果采用统一内存架构,这对运行大型语言模型(LLMs)具有优势。

      1. 那我不明白为何说多数笔记本运行LLM效果差——苹果在笔记本市场占有率极高,即便是最便宜的机型在这方面也表现出色。而其PC竞争对手在内存配置上往往更为慷慨。

        > 然而对于使用超过一年的普通笔记本而言,能在本地运行的实用AI模型数量接近于零。

        这根本不是事实。

        1. 苹果笔记本市场份额仅10-18%,虽具规模但绝非“主流”。

          即便配备高端显卡,多数笔记本最多只能运行7-14B规模的模型——除非你写垃圾邮件,否则这些模型毫无实用价值。

          多数台式机虽配备充足系统内存,但无法用于高效运行超大规模模型——尤其当32-64GB内存只能处理需要频繁交互和人工干预的任务时。

          这还只是相对简单的推理环节,训练成本则高得多。

          1. 我的笔记本已使用四年,仅配备6GB显存。我主要运行4B和8B模型,它们在多种场景下极具实用价值。不能复现ChatGPT的功能绝不意味着它们没有应用场景。看来你对这些模型的能力知之甚少。更不用说特定场景的训练模型,或是功能更精简的模型如FunctionGemma或TTS/ASR模型了。(顺带一提,我也用6GB显存成功训练过模型)

            1. 我也来补充:我在2021款MacBook Pro M1上运行LM Studio毫无压力。

              我配有16GB内存,使用Qwen3和GPT-OSS这类非懒惰量化模型。通过Context7和Fetch等MCP服务器确保模型信息实时更新。在VSCode中使用continue.dev或OpenCode Agent配合LM Studio,还能直接编写Vulkan接口的C++代码。

              性能完全够用。速度快吗?未必。会卡顿吗?偶尔。是否持续优化?随着Hugging Face每次模型更新都在进步。

              月均成本:$0

            2. 希望能举些实用任务的例子。我确实缺乏想象力。

              1. 建议关注/r/localLLaMa社区,看看人们如何用小型模型实现各种酷炫功能。

          2. Max处理器可运行300亿参数的量化模型,内存容量完全够用。普通版和Pro版处理器则会受限于计算能力/带宽。当然Ultra处理器性能更强,但目前尚未应用于笔记本。

        2. 我注意到很多人都在苹果硬件上运行大型语言模型。但实际能运行什么有用的东西吗?运行速度够用吗?值得这个成本吗?因为上次我查的时候,这三个问题的答案似乎都是否定的。

          不过可能取决于具体做什么?(虽然如果只是做嵌入之类简单操作,本来就不需要苹果硬件。)

          1. 我坐在飞机上,旁边有个用MacBook Pro什么的家伙,正用本地LLM在Cursor里写代码。我们聊起来,他说虽然存在差异,但对于他这种“英语编程”风格(他描述的是用英语说明要写什么代码/改哪些文件,但显然比直接写代码更随意,否则他直接写代码就好了)效果非常好。他确实演示了效果——那个模型(我记得是开源的GPT)在他Next.js项目中表现出色且速度很快。

            1. 谢谢。我称这种方法为“动力编程”(类似动力装甲),你仍需完成所有操作,只是无需手动输入语法。

              我发现这种方法中模型越小效果越好——小型模型通常能胜任此类任务,而迭代速度带来的收益远超其他因素。

              我没有硬件能以接近交互速度运行任何小型大型语言模型,因此我使用API。最终选定的是Grok 4 Fast,因为它的运行速度快得离谱。

              ArtificialAnalysis网站设有“端到端”时间统计板块,该模型在此榜单长期占据首位,不过如今许多其他模型正在迎头赶上。

          2. 速度没问题,模型质量堪忧。

            我发现本地LLM唯一卓越的应用是垃圾邮件过滤。我编写了通过IMAP访问邮件服务器的“反垃圾工具”,读取新邮件后由LLM判定是否为垃圾邮件。在我的(极具挑战性的)测试语料库中,准确率达95.6%,实际使用中几乎完美。目前gpt-oss-20b是此场景的最佳模型。

            对于其他所有用途,参数量低于80B的模型对我而言都愚钝得毫无用处。我使用Clojure编程且不写冗余代码:代码直接体现业务逻辑,因此需要具备理解能力的LLM。Claude Code(尤其搭配Opus)在简单问题上表现出色,而所有本地模型相比之下都愚不可及且浪费时间,因此我尚未看到其吸引力。

            话虽如此,我的下一台笔记本仍会选择搭载M5 Max芯片和128GB内存的MacBook Pro,因为小型LLM正逐步提升性能。

          3. 我曾在配备24GB内存的MacBook Air上(通过Ollama)测试过gpt-oss:20b模型。实际体验中,其输出效果可媲美旧款模型,OpenAI基准测试数据也相当准确https://openai.com/index/introducing-gpt-oss/。运行速度完全可用——虽非即时响应,但输出速度约为每秒5个令牌。

          4. 我用的是配备64GB内存的MBP Max M3,能流畅运行大量任务(超大规模模型运行良好,扩散图像模型表现尚可,但速度不及3090显卡) 不过我的笔记本配置特殊,既非标准版MBP也非普通/Pro处理器版本。

          5. 在M1 Max搭配64GB内存的设备上,我完全能用本地模型编写代码,比如Devstral小型模型、量化版Granite模型,或是量化版Deep-Seek模型。

          6. 这当然取决于具体操作场景。

            你经常离线工作吗?

            这是必需的。

        3. 多数笔记本内存不超过16GB。记得一年多前苹果基础款笔记本仅配8GB内存,这对于运行大型语言模型实在捉襟见肘。

        4. 这里说的“PC”指非苹果设备。

          另外,macOS在全球桌面市场份额仅约10%。

              1. 这张图表中macOS和OS X被分开统计,而“未知”可能涵盖任何系统?这可能实际反映苹果安装基数接近20%。

        5. > 苹果在笔记本市场占有巨大份额

          来自加州以外的问候!

            1. 不到五分之一的市场份额不算庞大,
              但总比我手里的多!

              1. 苹果销量超越联想,这或许能换个视角看待问题。

    3. 但经济上,购买低配笔记本并按月订阅AI服务仍更划算。

      不过我认同文章观点:N年后人们会用笔记本运行大型LLM模型。尤其当硬件性能超越顶级LLM模型需求时。若手机能流畅运行512GB的LLM模型,谁会不想要?

      1. 你确定当风险资本洪流退去、倾销停止后,订阅费仍能负担得起?

        1. 百分之百确定。

          全球计算能力正以两年翻一番的速度增长,这源于持续投入的人工智能领域(!!)

          即便出现新投资枯竭、部分AI企业破产的极端情况,这些计算资源仍将寻找市场出路。

          推理服务商已实现盈利,硬件成本下降将进一步降低AI系统价格。

          1. 你或许该说明自己是某AI初创公司的CTO,我不得不点开个人简介才发现这点。

            全球计算能力正以两年翻一番的速度增长,这源于持续投入人工智能的巨额资金(!!)

            所有资源都流向了少数人手中,而他们很快就要为此付出代价。

            话虽如此,风险投资支持的科技公司几乎无一例外会在资金枯竭时抽走地毯。而历史上这些公司并不像当前计算硬件寡头垄断者那样背负数万亿美元的未来债务。我无法想象任何他们会提高收费的情境——尤其当他们已开始让普通人无力负担计算机之际。

            即便在成本触底后,人工智能仍为他们提供了无数新奇独特的敛财手段:或许强制用户使用更小/量化模型;或许向付费用户投放广告;或许直接在训练数据中植入宣传内容以增强隐蔽性;又或许根据硬件需求随机更换模型,让用户获得比现有大型语言模型更不稳定的服务。或许他们会按语义上下文收费(我看到你在咨询2015款福特福克斯维修问题。请订阅我们的“机械师+”套餐,月费5美元或24小时25美元)。或许他们会提高API访问费用。或许他们甚至会对“不”训练你的交互数据收费。

            恕不奉陪,谢谢。

            1. 我已不再担任AI初创公司的CTO。更新说明,但实在看不出这与主题有何关联。

              > 所有资源都将落入少数人手中,而他们很快就要付出代价。

              这群人可不小!在推理领域既有众多竞争供应商,用户也可自行租用GPU服务器。

              > 历史经验表明,这些竞争者从未背负当前计算硬件寡头垄断者那样的万亿级未来债务。我无法想象他们不提高收费的情景——尤其当普通人已难以负担计算机设备时。

              对此我强烈反对——这既违背竞争法则,也与当前市场结构相悖。

              以gpt-oss-120B为例。它虽未达前沿水平,但差距甚微,且为开源模型划定了明确的智能下限红线。

              托管服务商市场存在充分竞争,其定价可参见:https://artificialanalysis.ai/models/gpt-oss-120b/providers?…

              试问在何种情境下,所有服务商(他们都追求盈利!)会将价格抬升至Cerebas超高速推理服务的溢价水平之上?

              谷歌早已在低端市场盈利,其价格仅为Cerebas的一半左右(但你得忍受谷歌的计费系统!)

              Azure/Amazon等平台不仅与另外8家(!)供应商定价完全一致,其价格https://www.voltagepark.com/blog/how-to-deploy-gpt-oss-on-a-…自建服务器的成本数据,揭示了NVIDIA硬件的经济规律——这里不存在补贴机制。

              这些硬件已部署完毕,除非需求激增,否则不会突然涨价… 若需求增长,未来24个月内上线的新硬件反而会成为优质投资而非劣质资产!

          2. GPU主机充斥的数据中心不同于闲置光纤——它们需要持续投入巨额运营成本,因此单位经济效益必须极具竞争力。部分过剩产能很可能闲置至淘汰。

            1. 持续成本主要来自电力,相较于投资额并不算巨额。

              没人会因电费过高而闲置H100集群——这正是Vast.ai这类残余市场存在的缘由。

              1. 若市场饱和到无人愿意支付足以覆盖电费及其他运营成本的代币价格,他们绝对会让设备闲置。需求虽具弹性但终有极限。当前扩建计划基于将发现具有投资回报率的新应用场景——我确信会出现,但这只会催生更多投资。大规模产能过剩不可避免。

                1. 当然!

                  但实际运营成本远低于本帖部分人士的预估。

                  通过聚合平台可获取安全价格区间参考。

                  https://gpus.io/gpus/h100显示最低时价1.83美元,均价约2.85美元。

                  这完全覆盖运行成本——配备冷却系统的H100服务器每小时运行成本仅约0.10美元

                  而大规模超额建设反而会压低价格而非推高!

          3. > 推理服务商已实现盈利。

            这令我意外,你还记得从何处得知此信息吗?

            1. 信息来源众多,你可自行核算。

              以下是几个可靠渠道:

              https://github.com/deepseek-ai/open-infra-index/blob/main/20… (暗示Deepseek在推理环节实现80%的毛利率)

              https://www.snellman.net/blog/archive/2025-06-02-llms-are-ch

              https://martinalderson.com/posts/are-openai-and-anthropic-re… (Reddit对此有讨论,指出该成本估算存在高估)

              https://www.tensoreconomics.com/p/llm-inference-economics-fr… (篇幅较长,但核心结论是:在高负载情况下,运行Lllama 3.3 70B模型约需0.28美元/百万输入令牌,0.95美元/百万输出令牌。这些数据与市场观察基本吻合:https://artificialanalysis.ai/models/llama-3-3-instruct-70b/… )

          4. > 全球计算能力正以两年翻一番的速度增长,源于持续投入的人工智能领域(!!)

            其资金来源于泡沫破裂时的倾销

            当泡沫破裂时:这些数据中心将被关闭任其腐朽,你的算力将骤降8192倍

        2. 现在不必担心。等订阅价格真的涨到过高时,GP可以重新计算成本并购置硬件。

        3. 必须记住企业具有某种可替代性——创始人可以关闭旧公司另起炉灶,从而规避旧公司的破产风险。当行业崩盘导致大量企业倒闭——尤其是因数据中心过度建设引发的危机时,将有海量GPU以清仓价抛售:试想今天售价30万美元的芯片,明天可能跌至3千美元只为挽回一分钱。届时必将出现新商业模式:有人以3000美元收购这些芯片,再以略高于电费的订阅价,在某处维持这些被抛售的GPU持续运行。

          1. 我确实好奇当债权人抛售这些硬件时其可用性如何——据我观察,当前趋势是越来越倾向于定制化、不计成本的超级昂贵且能效低下的硬件。

            这种情况可能与人们将退役加密货币挖矿GPU转售给玩家截然不同。当这些硬件不再属于某些公司的技术狂热梦想时,很可能变成大量无法再利用的废铁。

        4. 它们终将消亡。或者公司会消失。

      2. 本地运行大型语言模型意味着无需担心代币消耗,还能在小型模型上实现低延迟交互。

        我不明白消费级硬件为何不能进化到本地运行更多LLM。这是值得追求的目标,而消费硬件制造商已错失十年。这绝对可实现,尤其当你只关注推理性能时。

        1. 这不正是所有NPU诞生的初衷吗?

          1. 目前尚未见到能与GPU抗衡的NPU。或许仅适用于极小规模模型,但其发展方向仍不明朗。

      3. > 从经济角度看,购买低配笔记本并订阅AI服务仍更划算

        优步也很经济;但人们更倾向于拥有私家车,有时甚至多辆。

        况且市场上不也存在各种炫耀型汽车、极速跑车、昂贵超跑吗?我认为个人电脑和笔记本也会形成类似市场:或许不到十年,专业人士中运行本地671b+超大规模语言模型的2万英镑笔记本将成为常态。

        1. > 优步也很经济

          有次我因爱车故障送修而搭乘优步上班,司机(略带讽刺地)评论说我通勤用优步肯定很有钱,毕竟优步太贵了

          1. 多数人根本没意识到自己每年在汽车上花费的金额。

          1. 若计算新车折旧和运行成本——在多数地区,我认为确实划算。

            1. 如果优步的费用低于汽车折旧和运行成本,司机(和优步)还能剩下什么?

              1. 优步整个“商业模式”的核心在于人们使用私人车辆。因此折旧和大部分运行成本已是沉没成本。一旦这些成本支付完毕,利用已拥有的“免费”资产赚钱就变得非常划算。

              2. 我的私家车平均每天通勤次数不足一次。

                而优步车辆能提供多次出行服务。

              3. 当你的车停在车位时,优步司机的车辆正全天候创造价值。

              4. 若你依赖优步通勤,想必会购置比司机那辆行驶20万英里的十年普锐斯更值钱的车。

              5. 折旧成本会摊销到多人身上。我每周只出行一两次,用优步比自己买车更划算。

          2. > 每天花30-70美元通勤算经济?

            当大型语言模型(LLM)使用成本接近这个数值时,本地运行确实划算。你和其他评论者似乎忽略了关键点:“优步”在此代表基于云端的大型语言模型:由他人构建并拥有服务器、运行模型、支付电费…而用户只需租用服务就能获得“经济效益”。

            (顺带一提,在汽车属于奢侈品的地区,出租车被视为经济选择)

      4. 任何“租比买便宜”的论调都可(且必须)被彻底否定——过去十年的经验已充分证明

        别再提了

    4. 你仍需配备荒谬的高规格硬件,而苹果的定价绝不便宜。即便你负担得起(多数人负担不起),本地可运行的模型仍受限且性能欠佳。付费使用云端解决方案不仅成本更低,效果也显著提升。我认为文章观点正确:我们需要更优的本地运行LLM方案。

      1. 你依然需要配置极高的硬件设备,而苹果的定价体系下这绝非廉价之选。

        通过Ollama和Draw Things能轻松运行Mistral、Stable Diffusion等模型,稍加努力使用LM Studio和Comfyui还能运行Devstral(MLX版本)和Z Image Turbo等新模型。虽然速度不及高性能NVIDIA GPU或云端GPU,但完全够用,足以进行探索和学习。我开发过多款应用,通过浏览器界面调用本地运行模型的API,运行效果完美。我在8GB内存的M1设备上运行了18个月,最近才升级到24GB内存的M4 Pro。我仍保留那台M1设备在网络中,用于后台AI任务处理。

        1. 使用Draw Things运行Z Image Turbo或FLUX.2 [dev]等新型模型也毫不费力。

      2. 我购入的是二手M1 Max(64GB内存),价格并不昂贵。

        虽然本地模型性能不及ChatGPT或Claude 4.5,但依然非常实用。

        1. 很想了解您如何在本地环境实现高效运算。您如何评价本地模型与ChatGPT等云端模型的“智能”差异?速度因素应该也很关键吧。期待您尽可能详细地分享实践经验!

          1. 本地模型通常不具备宽阔的上下文窗口,量化过程确实会让它们显得“笨拙”(暂无更贴切的词汇)。

            若要求它们生成文本,其表达多样性远不及ChatGPT等模型。不过,若让它们分析你不愿交给ChatGPT的CSV文件,或编写代码,它们通常表现得相当称职。高端的Codex-GPT-5.2类模型更智能,可能找到更优解法,也能更快追踪到错误——但本地模型也在持续进步。

        1. 试试在这8GB内存上运行点有意思的东西吧。

          要做点像样的事得配96GB或128GB内存,这可没749美元那么便宜

          1. 说得对,不过现在起配都是16GB了。

          2. M4起配确实是16GB,但对本地LLM来说可能还是不够用。不过现在1149美元就能买到24GB版本,性价比不错。

            1. 本讨论串主题是Macbook Air,其最高仅支持32GB内存且不可升级。

              浏览苹果官网发现,配备64GB内存的最便宜机型是搭载40核GPU的Macbook Pro M4 Max,起售价3899美元——即上述报价的五倍以上。

              1. 我有一台M1 Max 64GB版本,价格远低于这个数——你不必非要买最新款的全新机型。

            2. 若选择64GB内存,至少需要Max处理器,否则会受限于带宽/GPU性能。

      3. 二手M1 Pro 32GB运行Asahi & Qwen3:32B的速度和性能让我惊喜。它完全满足我的需求,虽然读取速度输出稍慢,但我并不介意。若非近期内存市场操纵导致二手M2 Ultra价格也暴涨,我本会心动。

        总之新年我立志取消所有订阅服务。更何况为自己的无关紧要(GAI)买单实在违和。

    5. 没错,自M1以来任何配备充足内存的Mac系统都能流畅运行本地LLM。苹果智能服务正是如此运作:启用时会下载小型本地模型。由于M1之后的Mac都为集成显卡配备了高速内存,它们在AI领域表现优异。

      这篇文章没能说明NPU其实并非必需品,它们只是未来提升效率的潜力股,而非取代显卡运行时的高功耗方案。

    6. 本文专门讨论PC笔记本电脑及其变化趋势。

    7. 除非你愿意接受苹果平台默认附带的所有专有限制和遥测功能。

      搭载16GB显存3080移动显卡的联想T15g表现不俗,且支持多操作系统运行。

      1. 内存价格暴涨前刚入手了Framework台式机,配备128GB共享内存,本地运行大型开源模型游刃有余。可为GPU分配112GB内存,Linux系统运行完美。

    8. M系列芯片在此领域彻底改变了游戏规则

    9. 这篇文章就是为了卖更多笔记本。

  3. “运行数亿参数的尖端模型需要多少TOPS?没人能精确回答。”

    他在说什么?这根本是小菜一碟。

    1. 运行能力不更取决于(V)RAM吗?TOPS值只是决定运行速度而已?

      1. 严格来说,你并不需要那么多显存甚至普通内存——只需足够存储上下文和模型激活值即可。问题在于当显存越来越少时,系统会开始受限于SSD传输带宽等因素,导致推理速度严重下降。但这是否构成问题还取决于具体需求:或许你并不需要即时结果,可以等待后台计算完成。或者你正使用最新的PCIe 5存储设备,其整体带宽已可媲美DDR3/DDR4内存。

      2. 经验法则是:提示处理(PP)受计算能力限制,而令牌生成(TG)则受显存速度制约。

    2. 让AI回答这种问题简直小菜一碟。嗯,看来我们知道这不是AI生成的文章!

    3. > 尖端模型
      > 数亿参数

      笑死

      笑到不行,甚至

  4. 参见:“3D电视正推动电视领域数十年来最大变革”

    1. 懒惰又廉价的偷袭。但你否认文章中这些趋势不会到来吗?或者五年后它们不会依然存在?

      – 增加更多——且更快的——内存。
      – 内存整合。
      – 同一硅片上芯片组合。

      所有这些趋势也因非AI原因而发生。M1真正开启的SoC转型并非源于AI,但统一内存将成为五年后的常态——这与3D电视截然不同。

      1. 近期多篇报道及系统管理员的呼声表明,因内存价格飙升,主流厂商正将8GB内存笔记本重新纳入标准配置。短期内我们正见证配置缩水的趋势。

        1. 从需求角度看,根据个人观察,当其他条件允许时,这确实会影响部分决策。我认识的许多人既期待更优质的新游戏,也同样热衷于通过Comfy、LM studio等工具本地运行LLM/SD等模型。

      2. 内存扩容在短期内绝对不可能实现。没人负担得起。

      3. > 真正开启SoC时代的是M1芯片

        并非如此。在此之前已有众多SoC产品问世,这种趋势在该领域本就势在必行。

        1. 你指的是哪些广泛流通、性能可比但早于M1的SoC笔记本?

      4. > 增加更多——且更快的——内存。

        在骗子阿尔特曼为他那破公司囤积全球半数供应后,恐怕没戏了

      5. 依次是:

        – 用户追求更大内存并非新鲜事。我倒要看看有多少人会立刻禁用AI垃圾功能,腾出内存做真正想做的事。

        – 同上。

        – 向SoC转型的趋势早已形成。苹果M系列彻底碾压除尖端产品外的所有PC芯片,内置专用内存和机器学习处理器,且技术已臻成熟。这趋势已持续多年。若说PC厂商在追赶,我认为更多是对此的回应,而非与AI相关。

      6. 向SoC的转型早在M1之前就已发生,这是ARM领域十余年的常态,而多数x86笔记本早已采用SoC架构。

    2. 这篇文章只是说明更多笔记本将配备节能型GPU。效果比3D电视强一点。

      它们未必常使用苹果自研芯片。其他选择也值得期待。

  5. 除苹果笔记本(以及可争议的锐龙AI MAX 390)外,所谓“AI就绪”笔记本不过是营销话术,实际能力仅限于“能发起HTTP请求”。

  6. 这主要凸显了非苹果笔记本与五年前发布的M1芯片之间巨大的技术鸿沟。

    1. 我向来对苹果硬件兴趣寥寥(主要是价格问题),但最近购入M1版Mac Mini和iPhone用于应用开发。正如你所言,这颗五年老芯片的推理速度实在惊人。

      若苹果能让M系列全面支持Linux(我知道朝日公司正在努力),我大概永远不会再买非M系列处理器了。

      1. 我也最近入手了M1 Mac Mini,用来替换约2012年的Mac Mini媒体中心主机。坦白说性能过剩了。二手机型200-300美元就能搞定,外观瑕疵的更便宜。我觉得绝对是捡漏。

        1. 公司配发了32GB内存的M1 Pro。一年前我组装过一台迷你论坛主板+笔记本APU的配置,配64GB内存和2TB NVMe硬盘,当时成本不高,大概500美元。对于我正在开发的性能敏感型软件,搭载llvm后端的编译器运行时,7935HS的吞吐量提升了约50倍。

    2. 零售渠道仍可购得599美元的M1版MacBook Air(翻新机300美元),这相当于Chromebook的价格,但其性能几乎全面超越任何Chromebook。

      1. 若考虑翻新机,同价位甚至更低价位可购得搭载AMD 7000/8000/9000 APU的设备,其集成显卡在即时处理和生成性能上甚至优于M1芯片,即便使用SODIMM内存亦然。

  7. 我预测闪存计算技术将比配备128GB+内存的廉价笔记本更早面世。

    1. DDR4时代就已能买到128GB内存笔记本:工作站级笔记本配备4个内存插槽,轻松支持128GB内存。

      如今几乎看不到4插槽笔记本,这完全是人为限制。

      1. 今年夏天我曾犹豫是否该买台翻新的Thinkpad P16,配96GB内存纯粹运行内存虚拟机。如今96GB内存的价格竟等同于第二台P16。

        1. 我太懂这种感受了。本想为家庭实验室添置第二台64GB节点以节省开支…如今光内存就抵了整台主机价钱,简直要哭了。

          教训:永远要听从内心那个说“但我需要它…”的声音。哈哈

          1. 一年前主板坏了,我重装了工作站。临时被逼着换新时实在没心情,就省了内存(只配了32GB)。这大概是我第三四次自食其果——买设备/基础设施时真不该抠门。其中两次都是因为内存,看来我真是学得慢。

            1. 你大概把教训都存到慢存储里了…该加内存了 :p

    2. 搞不清这是对闪存计算的乐观展望,还是对近期内存发展态势的悲观预判!

    3. 接下来应该出现的是高带宽闪存。理论上,它能让笔记本电脑直接从闪存加载至GPU运行更大规格的显卡(而非在闪存中执行),从而避免成本过高。但我尚未看到实际带宽数据,而且初期成本必然高昂。闪存底层技术的读取延迟远高于DRAM,因此仅通过提升并行度能否达到消除VRAM缓存需求的速度,目前尚不明确(至少对我而言如此)。

    4. 确实,尤其考虑到内存市场的现状

      1. 盛极必衰。

        三年后我们将陷入内存过剩的困境。

        1. 感觉现在就已如此…4GB内存对商务工作负载仍绰绰有余。

          1. 游戏对硬件的需求远超办公场景。可惜游戏开发正被迫缩减规模,开发者不得不将更多精力投入优化而非内容创作——毕竟消费者难以维持以往的内存配置,未来很长一段时间内,所有人只能勉强适应现有内存规格。

        2. 情况未必如此。即将涌入二手市场的内存类型,可能并不适用于笔记本甚至台式机系统。

    5. 忆阻器(据我所知)在新闻中缺席了。这种技术曾被寄予厚望,有望同时兼具持久存储与高速内存的特性。

      1. 可惜忆阻器只是个“展现潜力”三十年却毫无进展的 vaporware( vaporware 指长期未能实现的承诺产品)。

    6. 所谓“我们”指消费者吗?不,“我们”两者都得不到。这恰是创造新阶层的意外良机——通过在人们必需且渴望使用的大型生成式AI领域,构筑金融、立法与技术三重护城河来掌控技术。何必制造能实现部分自主功能的平价设备?焦点必然转向强化远程操控(网络化、设备端安全计算,并推动“本地计算等同于极端主义与反社会行为”的叙事)。

      1. 敦促华盛顿严审代工厂及其客户。持续施压直至价格回落。

  8. 如今购买显卡似乎毫无意义。显卡显然是为图形处理优化的,恰巧适用于AI领域。但鉴于AI重要性日益提升,若未来不出现专为LLM设计的专用芯片和专用机器,反倒令人意外——一种用于LLM,另一种用于稳定扩散模型。

    图形处理需要大量带宽来传输数据,以便在高分辨率屏幕上进行渲染——海量像素、高频刷新、巨量带宽…而LLM处理时,输入输出文本量相对较小,且耗时较长。相较于输入输出规模,其内部处理量极其庞大。我认为英伟达等少数公司已开始探索这条路径。

    但显卡对稳定扩散模型仍具价值,尤其在AI生成视频领域——其输入输出带宽需求远高于文本模型。

    1. 不,这完全错误。

      首先,通用图形处理器(GPGPU)兼具强大性能与高度灵活性。虽然可以打造“专用AI加速器”,但其复杂度和功耗并不会显著降低,灵活性反而大幅受限。考虑到消费级硬件需同时承载传统图形处理与AI任务?在同一硬件上运行两类工作负载才是合理选择。

      至于带宽?GPU向来以受带宽限制著称。4K@60FPS看似需要传输大量数据,但相较现代PCIe 5.0 x16的传输速度根本不值一提。AI加速器同样如此。

      1. GPU多数时候确实不缺带宽,但在从LLM生成文本时绝对会受限。这正是NVIDIA大力推广低精度浮点运算的核心原因。

        1. 那是内存带宽问题,而非I/O瓶颈。除非你的LLM模型超出了显存容量。

    2. LLM对带宽的需求极其庞大。每次处理一个令牌,都需要将800GB的神经网络在内存间反复调度,这可能比实际执行矩阵乘法更耗时耗能。GPU的带宽几乎永远不够用。

      1. 即便如此,单用户场景下,顶级LLM的输出速率也仅约每秒100个令牌。而图形处理涉及每秒60帧、每帧200万像素的运算——标准高清屏幕每秒需处理1.2亿像素。100个令牌与1.2亿像素的处理量级存在天壤之别。

        24位像素可呈现1600万种颜色…对于标记而言,这足以表示地球上所有主要国家语言词汇表中每个单词的总和。

        > 你必须将800GB的神经网络在内存中反复调入调出

        但真的有必要吗?这更像是显卡性能的限制。专用AI芯片会将权重参数永久存储在内存/硬件中,直接就地更新——效率显然更高。

        我认为显卡带宽过高才导致这种方案,但这显然非最优解。

        但若追求最优方案,理想状态下只需输入输出数据在芯片间流动。这种数据调度本质是效率损失——为软件栈的灵活性做出的权衡…然而在RAM、CPU缓存与显存间传输数据,会消耗海量CPU周期。

        1. > 真的如此吗?

          是的。

          数据虽驻留在HBM内存中,但必须被调度至实际执行计算的位置。这与普通CPU原理相似——CPU无法直接处理系统内存中的数据,必须将其加载至CPU寄存器。对于每个生成的令牌,稠密LLM都需读取模型中的所有参数。

        2. 若采用这种方式成本将大幅增加,例如Groq公司就将所有权重保存在SRAM中。

      2. 这似乎不太合理。数据究竟在哪些位置进行调度?我的硬盘速度不足以每令牌如此快速加载模型,且系统内存容量也不足以卸载模型。

        1. 数据在显存与张量核心间往返传输。现代GPU每秒可在内部处理1-2TB数据流。

          这正是显存采用高带宽内存的原因。

        2. 若使用DeepSeek V3这类MoE模型,完整模型虽达671GB,但每个令牌仅激活37GB数据,因此从内存带宽角度看相当于运行37GB模型。若进行量化处理,实际占用可能降至18GB左右。

        3. 没错。数据在CPU内存与GPU内存之间进行调度,GPU内存间也存在调度。若内存不足则无法运行模型。

          1. 如何观察模型加载到CPU内存的过程?当我用ollama运行20GB模型时,htop显示总内存占用仅3GB。

            1. 想象这是装载搬家卡车的过程:

              – 房屋代表磁盘
              – 你代表内存

              – 卡车代表显存

              你永远无法观察到自己一次性搬运所有物品的场景,因为实际过程并非如此。你只能观察到自己分批次搬运大量小件物品,直至全部搬完——此时你自身不应再因搬运房屋物品而负荷过重(但可能因其他任务仍处于高负荷状态)。

              查看活动内存带宽的设置可能比表面看起来更复杂,因此更简便的方法是在模型初次加载至显卡时观察显存使用情况。在Linux系统中,“nvtop”工具可为绝大多数GPU实现此功能,同时还能监测大型语言模型运行时其他关键指标。

              1. 我的困惑在于是否按每个令牌进行洗牌操作。若按令牌执行,这实质上等同于每次处理令牌时都从磁盘加载模型。

                1. 模型可能在每个令牌时从GPU内存重新加载至GPU。这取决于GPU缓存的模型数据量。各层输入数据也需重新加载。此外,若模型无法完全容纳于GPU内存但可放入CPU内存,且采用GPU卸载处理时,数据还会在CPU与GPU内存间进行调度。

            2. 取决于 torch.load 中的 map_location 参数:可能直接加载至 GPU 内存

    3. 显卡显然是为图形优化设计的,只是碰巧适用于 AI

      我认为自 Pascal 架构时代后情况已逆转。

    4. 我毫不怀疑未来会出现简化AI运算的专用芯片,但它们的价格将远高于面向消费者的显卡。这意味着多数企业仍会选择显卡方案——要么因专用芯片的性能提升无法抵消成本,要么因其定价过高,仅面向少数愿意为任何微小优势支付天价的巨额买家 (无论他们认为这意味着什么)

  9. 关于NPU:这些年它们一直是营销噱头,但我实在不清楚当你运行[任何程序]时,究竟有多少NPU被真正启用——尤其在经历一两年软件更新后。

    有人有具体数据吗?这些功能只是额外开销,在需要升级更大容量型号前,仅能支撑官方设备使用半年?还是说它们具备持久价值?显然它们具备节电潜力,但消费级硬件中真有实际应用案例吗

  10. 我在配备128GB内存的MacBook Pro M3 Max上运行GPT-OSS 120B模型。表现尚可,虽非顶尖但远胜于飞机上基本失效的Wi-Fi。

    1. 我在搭载移动版5090显卡和64GB内存的PC笔记本上运行该模型。启动过程稍显卡顿,但一旦运行起来,在差劲的网络环境下也能完美胜任。

  11. 我在笔记本(M3 Max 64GB)上运行LLM已有一年,认为它们已准备就绪——尤其中型模型表现日益出色。我确信未来几年统一内存和节能GPU技术在苹果笔记本上将不仅是概念。

    1. 你在本地模型上成功实现代码补全和智能体功能了吗?有什么技巧分享?我离开这个领域已有[看表]几个月,对最新进展不太了解。Cline是值得尝试的方向吗?

      1. 我还没在本地尝试代码补全功能,不过确实想用QWEN模型试试。目前主要用它以命令行方式生成/修复代码。

        1. 我用LM Studio和VSCode插件拼凑出的方案效果不错,虽然远非顶尖水平。未来数月乃至数年里,我仍会持续探索这项技术。

    2. 这完全得益于苹果的统一内存架构。技术基础已然存在,我们只需等待内存价格下降,就能实现512+GB的存储容量了 😉

      1. 短期内内存价格将上涨,长期则呈下降趋势。即便当前供应出现波动,解决之道仍是扩大产能(在良性竞争环境下这必然会实现)。我的意思是,其他移动芯片供应商预计也会采用统一架构,在芯片上集成强劲的GPU核心,并配备大量带宽连接内存(至少在高端或旗舰级别)。AMD应该已经在做统一内存架构了吧?

          1. 过去几十年我们经历过多次DRAM供需周期波动。为何认为这次会不同?

            1. > 为何认为这次会不同?

              利润率。AI应用能带来更高收益。即使销量下降,利润仍可能更高。

              过去缺乏高利润应用场景,服务器市场也未曾出现如此高溢价。

              1. 难道不认为某些DRAM厂商会将高利润视为信号,通过扩产抢占市场先机?这向来是行业惯例,为何这次会例外?

                1. > 你不认为某些DRAM生产商会将高利润率视为信号,从而扩大产能以超越其他竞争对手吗?

                  他们曾在疫情期间冒险扩张却以失败告终,因此对产能过剩仍心存恐惧。

                  1. 这只有在他们合谋维持稳定供应时才有效。若有人贪婪地想分得更大的人工智能蛋糕份额,整个体系就会迅速崩溃。并非所有DRAM都产自韩国,某些国家主义因素也会搅浑水。

              2. 高利润本应成为扩产的强劲动力。但这种动力至今被压制着,因为我们都害怕随时可能破裂的人工智能泡沫。

      2. 说到底,拥有超出合理计算时限的内存容量并无太大意义。因此我认为实用容量上限应在128GB左右——在此范围内仍可运行700亿参数模型并获得有效标记率。

  12. 这篇文章太愚蠢了。它完全忽略了内存价格暴涨将使大容量高速内存笔记本在未来数年内难以实现的事实,却断言:

    运行数亿参数的尖端模型需要多少TOPS?无人知晓确切答案。这些模型在当今消费级硬件上根本无法运行,因此现实测试根本无法进行。

    我们完全清楚特定响应速度所需的性能指标。TOPS只是一个独立于硬件类型的性能计量单位。

    TOPS值越低,模型运行速度越慢,用户体验随之下降。内存带宽和延迟同样影响巨大。上下文处理也是关键——增加上下文规模会显著降低大型语言模型的运行效率。

    我们无需等待消费级硬件的全面普及,在明确需求规模前,完全可以通过计算推导出具体场景下的配置方案。

    这种观点还刻意忽视了小型模型的实用价值。

    我认为大规模云端投资将不幸削弱本地AI的发展动力。这种趋势推高了本地存储成本,而云服务商需回收数十亿投资,因此都在大力推广云订阅服务。虽然部分功能仍会本地化,但核心计算仍将依赖云端,这令人遗憾。

    1. 糟糕的文章。敷衍了事,知识匮乏。没想到IEEE刊物的门槛竟如此之低

    2. 此外,尖端模型参数规模已达数百亿量级。

    3. 该文发表于11月中旬(实际撰写时间更早),当时内存价格暴涨尚未如此显著。

  13. “本地AI”概念涵盖多种形态。NPU算力不足以运行图像生成、大语言模型等现代模型。文章似乎忽略了诸多关键细节——比如那家创意机构,他们究竟在做什么AI工作?

    > 营销公司Aigency Amsterdam今年早些时候向我透露,尽管她个人偏好macOS系统,但其机构并未使用Mac电脑进行AI工作。

  14. 对于99%的用户而言,我看不出实际应用场景(隐私保护除外,但对上述99%群体而言,这艘船十年前就已驶离)。若主张离线推理——现代计算体验本就基本通过浏览器实现,我无法认同。

    游戏领域需要低延迟的GPU确实合理。Nvidia GeForce Now虽能运行,但不适用于硬核游戏。但至少在大型语言模型领域,你与Gemini API(或其他服务商)之间100毫秒的延迟,相较推理时间可忽略不计。

    我漏掉了什么关键点吗?

    1. 我确信微软这类巨头渴望增强AI能力,但同样希望避免在自有服务器上运行这些服务。

      另一点是,我认为大型语言模型不可能永远免费。终有一天,CEO们会发现用户已对此习以为常——那将是订阅模式诞生的开端,也是AI企业财务亏损报告的终结日。

  15. 这取决于具体模型,代码本身毫无价值。若作为交互式维基百科的失真副本尚可接受——虽非优秀,但勉强可用。

    用于创意建议和编辑或许可行。

  16. 这似乎是痴人说梦。

    > 运行数亿参数的尖端模型需要多少TOPS?没人确切知道。

    为何不从现有的开源AI推算?目前最强大的开源AI(据我所知)是Kimi K2,需>600GB内存。要以可接受的速度运行它,需要600+GB的GPU/NPU内存。即使是2000-3000美元的AI专用PC(如DGX Spark或Strix Halo),通常也仅支持128GB内存。前沿模型只能在价格远超普通消费级PC的设备上运行,而内存价格上涨只会让情况更糟。

    2010年普通消费级PC配备2-4GB内存。如今普通PC普遍配备12-16GB内存。这表明内存容量最多每五年翻一番。若按此趋势,普通PC要达到运行Kimi K2所需的内存规格,至少还需要25-30年。

    但普通用户进行基础网页浏览等操作时,根本不需要如此大的内存。计算机内存容量不可能无限增长。

    那么廉价机型呢?或许未来能在消费级硬件上运行“足够好”的模型。但我推测至少未来10-15年,普通消费者(注:HN读者可能不具代表性!)仍会更看重性能、价格,尤其是可靠性(避免出错),而非本地运行模型的能力。(诚然AI数据中心正获得投资者补贴;但即便补贴终止,其规模经济效应仍将使其保持成本优势。)

    经济规律决定了AI个人电脑将始终是小众产品,如同游戏电脑。实用AI功能成本过高,无法默认搭载于每台电脑——这好比宣称飞行如此重要,人人都该拥有飞机。至少十年内,甚至可能长达二十年,这种做法都不具成本效益。

    1. > 未来或许能在消费级硬件上运行“足够好”的模型

      10-15年?!!!何谓足够好?Qwen3 8B或A30B已是相当成熟的模型,至今仍能在大量硬件上运行。尖端技术不仅体现在规模扩张,更在于智能水平提升与运行效率优化。小型模型在智能领域已取得巨大突破,只是其表现高度依赖具体任务。可以说部分模型现阶段已达到“足够好”的标准,其智能水平和指令执行能力较一年前已大幅提升。虽未达Opus 4.5级别,但即便没有该级别的智能,仍有许多工作可完成。

      1. 所谓“足够好”必须意味着用户从前沿模型过渡时不会频繁遭遇挫折。

        > 它高度依赖具体任务… 许多操作无需如此高阶智能即可完成

        这是发烧友的半满视角,但普通终端用户往往持半空心态。Quen3-8B固然惊艳,但多少人会将其作为日常主力?多数普通用户只要它出错一两次就会弃用。

        你引用的那句话确实不够严谨(抱歉),但我的整体论点依然成立。把“消费级硬件”替换成“普通PC”——想想沃尔玛500美元的畅销笔记本。AI电脑仍将是小众奢侈品,就像游戏电脑。但游戏电脑受益于游戏文化生态,且云游戏增加了输入延迟。这两点对AI影响甚微。

        1. 究竟有多少普通消费者(非企业用户)真正使用前沿模型?你以为OpenAI和Anthropic会永远向免费用户提供最智能的模型?天知道他们现在都不这么做

          效率提升确实在发生且将持续,硬件整体加速也在推进,随着软硬件协同优化的进程启动。这无疑需要时间,但在科技领域10-15年简直是荒谬的漫长——iPhone问世至今都未满这个年限。

          需要澄清的是,我认同其他论点合理性,只是认为时间线预测失准。

    2. 你的观点或许正确,但我好奇是否会出现Mac Mini尺寸的外部AI设备,配备1TB内存及其他硬件以运行本地模型。

      或许并非所有计算机用户都会拥有这类设备,但10-20%的高级用户可能需要——包括希望将个人代码隔离于训练集之外的程序员等群体。

      不过若出现让个人或家庭都渴望拥有本地AI计算能力的消费级应用,我也不会感到意外。

      值得玩味的是,尽管个人电脑每天有半数时间处于闲置状态,多数设备CPU利用率甚至从未突破80%,但人人都拥有自己的计算机。因此拥有个人AI服务器的低效性,或许并非表面看起来那般难以逾越的障碍。

      1. 但这会催生出Mac Mini价位的外部AI盒子吗?还是永远属于媲美二手车价位的“专业级”高端产品?

      2. > 但我好奇是否会出现配备1TB内存的Mac Mini尺寸外部AI盒子

        这不就是现有的Mac Studio吗?不过它似乎最多只支持512GB。

    3. > 2010年普通消费级PC内存仅2-4GB,如今已达12-16GB。这表明内存容量最多每五年翻倍一次。若按此趋势,普通PC要达到运行Kimi K2所需的内存容量,还需25-30年。

      内存增长缓慢的部分原因是当前尚未达到如此大容量的需求。技术上虽可为设备配备数TB内存,但无人采用这种方案,因为纯属浪费金钱[0]。除非从事专业领域工作,16GB内存已足够使用,增加容量并不会带来明显性能提升。

      但若出现合理应用场景——比如本地运行大型语言模型——就会催生对海量内存的需求,进而推动供应端发展和新技术突破。十年后,基础款笔记本配备128TB内存将成为常态。

      当然,这需要本地运行LLM存在合理场景,而你指出这种场景未必成立的观点很有道理。未来自会见分晓。

      [0] 不过我有个从事加密货币的朋友,他的Linux台式机确实装了4TB内存。

  17. 鉴于内存价格持续飙升(顺带一提,这种态势可能持续到2026年),我预计8GB内存将成为未来新标准。

    32GB内存将专供财力雄厚的发烧友和专业人士使用,更高规格则仅限专业领域。

    我内心那个阴谋论者在提醒:OpenAI这类大型AI公司更希望用户仅用性能孱弱的笔记本作为终端/外壳来访问云端模型,而非配备强悍设备运行本地模型。

    1. 除非对代工厂及其数据中心交易的调查能阻止这种局面。

    2. 我内心那个阴谋论者在告诉我,大型人工智能公司…

      我不相信阴谋论,但我确实相信有时激励机制会形成合力。如今出现了对内存需求巨大的云应用,云服务提供商突然与终端用户直接争夺稀缺资源,而胜者将掌控人们运行模型的场所。

  18. 若将目光投向本地LLM之外(同样通过专用应用提供服务),这个标题蕴含着巨大潜力。典型例证:WASM与WebGPU

    基于上述标准构建的网络应用,还能让智能手机的边缘/设备端AI应用场景无缝扩展,避免用户操作摩擦。或许终有一天会出现“WebNPU”,或直接通过现有标准实现支持。

    现有应用中已有部分用例,但通常会降级至CPU运行。这或许能成为硬件加速的转折点,如同当年网络视频加速的突破。

  19. 我认为仅有极少数用户会为本地运行LLM投入额外硬件成本,忍受更慢更差的响应质量。本地运行永远无法媲美云端服务,反而更麻烦。

  20. 本地运行大型模型的功耗与资源消耗是笔记本必须解决的问题,而模型版本持续迭代更新,意味着笔记本配置很快就会过时。

  21. 核心问题在于NPU在各类软件生态中的支持极其糟糕——它们往往仅适配特定SoC或其他硬件,甚至同一公司内部也缺乏兼容性。

  22. 颇具讽刺意味的是,这恰恰是95%普通用户漠视或刻意规避的因素。

  23. 此处应主要指Windows系统或非苹果笔记本

  24. 维特定律正在生效。终有一天,读条新闻都要耗费整个数据中心的算力。

  25. 不知这是否与Coral加速器设备存在关联或功能重叠。

  26. 这些评论的启示是:使用苹果m系列设备确实能运行本地模型。

    但若在该硬件上安装Linux系统呢?

    我不得不承认苹果硬件确实惊艳。但macOS系统就另当别论了。

    能否在Linux系统下运行m系列芯片的本地推理优势?

    或者有没有替代方案,让我能在笔记本的Linux系统上使用LLMs?

  27. 我最近在淋浴时想到:摩尔定律从未放缓,我们只是转向了多核架构。英特尔团队当年痴迷于优化单线程CPU设计,完全误判了技术投入的最佳方向——若我当时在场(作为Elixir开发者),我会更关注打造500线程CPU而非追求纳米级芯片制程。这就是团队全员都是C语言程序员的后果。

    1. 在大型语言模型出现前,普通笔记本的并行计算仅限于应用层级,比如Outlook占用一个线程,Chrome每个标签页占用一个线程。

    2. 英特尔确实设计过类似Knightsbridge这样的超高线程CPU,但毫无用处。单线程程序才是王道。

  28. 更强大的笔记本固然好,但同时他们要求内存提升10倍以上,NPU性能大幅增强。这将如何影响定价?如何影响功耗管理?听起来整台笔记本都将服务于生成式AI,而我仍不完全认同这类技术真有那么实用。我依然想要一台续航全天候的平价笔记本,同时还能在需要时释放其全部计算性能!

  29. 我花了整整30秒才搞懂DDS在此语境中的缩写含义。

      1. 原来文章开头那个词是odds(赔率)。

  30. 极其令人尴尬的文章。

    影响笔记本电脑的最大变革当属固态存储技术。从此不必担心设备在坚硬表面摔落时彻底报废。

    还有诸多其他革新:现代高密度锂离子电池续航超12小时,各类架构的超省电CPU,苹果引领的超薄金属机身,无拖影液晶面板,以及取代公文包里整台电脑电源的便携适配器。

    但没错,无限抄袭的机器即将到来。总得博些点击量嘛!

  31. 你根本不懂普通笔记本用户的需求。请列举那些必须使用笔记本而非随手可得的手机的场景。这些场景对普通用户而言根本不需要大型语言模型。

  32. 当我能在相当于六个足球场大小的计算机上运行LLM时,根本不想在笔记本上折腾。

    1. 关键在于,当你在自有硬件上运行模型时,可以输入健康数据、银行对账单和私人日记,并能百分之五百确定这些信息绝不会外泄。

      1. 普通人既不懂也不关心这些。他们会欣然接受这种浮士德式的交易。

        1. 只需一次高调的数据泄露事件,就会催生专门销售家用本地AI处理器的蓬勃产业。

          若搭配苹果电视或英伟达Shield这类媒体播放器,消费者或许会买账。

    2. 我自建的AI服务器已运行数月。这比使用云服务商好太多了。就像用自己的车参加直线竞速,和从经销商租车参赛的区别。自己动手能学到更多东西。工具会更稳定,每个环节的理解也会更深入。

      一台搭载3060ti(12GB)等显卡的上一代基础PC就足够入门了。我当前双显卡配置(3060+5060)功耗低于500瓦。考虑到当前室外温度,这套设备还能为家中供暖。因此我既未加剧全球变暖,也未消耗水资源,更未制造任何数据中心相关的环境污染。

      1. 除非你平时使用电阻取暖(或某种碳排放更高的化石燃料),否则全球变暖问题可没那么简单!

        我们整个家的平均供暖功率不到500瓦:此刻室外接近冰点,热泵功耗为501瓦(H4边界值),且需求呈间歇性波动。

  33. “AI笔记本电脑”热潮已然消退。事实证明,无论本地部署还是云端部署,大型语言模型根本没什么用处。

    就像大数据技术,大型语言模型仅在狭窄领域有用——比如拙劣地摘要会议记录,或进行初中水平的语法检查。

    关于LLM编程能力:我曾问程序员为何推崇Claude,他展示的代码输出令人咋舌。二十年前这种代码足以让人被列入绩效改进计划,如今却被视为优于多数初级程序员——这恰恰反映了编程标准的滑坡,也解释了为何当今多数程序和应用都成了漏洞百出的垃圾。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

你也许感兴趣的: