追踪系统瓶颈的迁移

发表于 2026-05-31 更新于 2026-07-25 分类于 Product & Intelligence Waline：

AI 投资的核心是追踪系统瓶颈迁移而非追热点。从训练算力到 Memory Wall，从 HBM 封装到电力冷却，再到推理成本与端侧 AI，超额收益总出现在最卡脖子的环节。用 AI Factory 框架拆解五阶段迁移逻辑。

最近在整理自己的投资笔记时，我试着回答一个始终困扰我的问题：AI 产业链这么长，到底应该把注意力放在哪里？GPU 还是 HBM？电力还是光模块？推理芯片还是端侧 AI？

如果每次都追热点，那永远慢半拍。我需要一条主线，一个可以帮助我在不同阶段做出判断的逻辑框架。

先说结论

我的核心判断是：AI 投资的主线会持续迁移，迁移的方向是——「把电力、数据、芯片转化为 token 的系统里，当前最稀缺的瓶颈」。

上一阶段买 NVDA，本质是买训练算力短缺。后来市场关注 HBM、先进封装和互联，是因为大家发现 GPU 不是孤立资产，它受内存、封装和集群协同制约。再往后，瓶颈会继续外溢到电力、冷却、数据中心建设、推理效率和端侧 AI。

换句话说，这不是「哪个公司最火」的问题，而是「在产出更多 token、更低成本 token 的系统里，哪个环节最先卡住」的问题。

我私以为，很多人对 AI 产业链的理解还停留在「软件公司」这个认知框架里。但越往后看，AI 越像一种新型工业系统。

更准确的理解不是「数据中心」，而是 AI Factory：输入是电力、芯片、数据、网络、冷却、软件，输出是 token、推理能力、自动化决策和智能服务。

一旦用这个框架去思考，投资分析的出发点就变了。不是先问「哪家公司最热门」，而是先问「工厂里哪个环节产能最紧张」。

上一阶段 AI 的主要矛盾很清晰——模型规模扩张太快，训练算力不够。

大模型早期遵循 Scaling Law：参数更多、数据更多、训练算力更多，模型能力就更强。这个阶段最稀缺的东西就是训练算力，也就是 GPU。谁能拿到更多 GPU，谁就能更快训练模型；谁能建设更稳定的 GPU 集群，谁就能更快迭代基础模型。

所以 NVDA 最先被市场重估，逻辑非常直接——它是那个阶段的「总开关」。

不妨用一个类比来理解下一步发生了什么：GPU 是发动机，HBM 是给发动机供油的高压油管。发动机马力越大，油管越不能成为瓶颈。

AI 不只是「算」，还要「喂数据」。GPU 再强，如果模型权重、KV Cache、激活值无法快速送进计算单元，GPU 就只能干等。这就是所谓的 Memory Wall。

尤其进入推理阶段后，每生成一个 token 都需要持续读取模型权重和上下文缓存。推理天然容易变成 memory-bound，而不仅仅是 compute-bound。

于是投资主线从「算力芯片」扩散到「算力系统」——HBM 决定 GPU 性能能否释放，先进封装决定 GPU 出货是否跟得上需求，高速互联决定多 GPU 协同时集群利用率能到多少。

传统摩尔定律主要发生在芯片内部：晶体管密度提升 → 单芯片性能提升 → 单位计算成本下降。

但 AI 时代的「新摩尔定律」更多发生在系统层面。瓶颈从 GPU 溢出到 HBM，从 HBM 溢出到先进封装，从封装溢出到网络互联，再溢出到电力和冷却。整个链条的终点是 token 成本的持续下降。

所以 AI 投资不能只盯着单颗芯片看，而要看整个 AI Factory 的系统吞吐效率。瓶颈在哪里，超额收益就在哪里。

我把未来的瓶颈大致分成三层来思考。

近端是 HBM、先进封装和高速互联。这是 GPU 之后最直接的系统瓶颈。模型越大、上下文越长、推理请求越多，内存带宽需求就越高。同时大规模 GPU 集群需要像一个系统一样工作，网络效率某种意义上接近「第二块 GPU」。

中期是电力、变压器、冷却和数据中心建设。这是 AI 下一阶段最确定的物理约束。AI 数据中心不是随便建在哪里都行，它需要低成本稳定电力、变压器和电网接入能力、水资源和冷却能力、光纤网络和快速交付的施工能力。变压器的交付周期长，是一个容易被忽视的隐藏瓶颈。

长期是推理成本、ASIC、调度系统和端侧 AI。当训练趋于巨头化后，大规模收入会来自推理。关键问题会变成：每百万 token 的成本能不能持续下降？Agent 调用次数暴涨后推理成本能不能压住？哪些推理任务会迁移到端侧设备？

值得注意的是，推理时代不一定完全利好训练时代的赢家。训练阶段看「谁有最大 GPU 集群」，推理阶段看「谁能以最低成本、最低延迟、最高可用性服务海量请求」。这是两种不同的竞争维度。

如果把整个迁移过程画成一张表：

GPU 仍然重要，但它已经从唯一主线变成 AI 工厂系统中的核心部件之一。

短期我继续看 HBM、先进封装、高速互联这一圈。中期重点看电力、液冷、数据中心建设能力。长期则看推理成本下降、ASIC、端侧 AI、模型调度和 Agent 工作流。

当然，这不是直接买入建议。估值、周期位置、供需反转和市场拥挤度都会影响实际回报。

但从产业逻辑看，AI 主线已经从「单点 GPU」进入「系统瓶颈轮动」阶段。理解这条迁移逻辑，至少在面对市场热点切换时不至于手忙脚乱——知道下一个瓶颈大概在哪里，比追着上一个热点跑要从容得多。

私以为，投资 AI 产业链最重要的心智模型不是「谁是下一个 NVDA」，而是「系统的卡点在往哪里移动」。前者是追涨逻辑，后者是产业逻辑。

一言以蔽之：跟着瓶颈走。