追踪系统瓶颈的迁移
最近在整理自己的投资笔记时,我试着回答一个始终困扰我的问题:AI 产业链这么长,到底应该把注意力放在哪里?GPU 还是 HBM?电力还是光模块?推理芯片还是端侧 AI?
如果每次都追热点,那永远慢半拍。我需要一条主线,一个可以帮助我在不同阶段做出判断的逻辑框架。
先说结论
我的核心判断是:AI 投资的主线会持续迁移,迁移的方向是——「把电力、数据、芯片转化为 token 的系统里,当前最稀缺的瓶颈」。
上一阶段买 NVDA,本质是买训练算力短缺。后来市场关注 HBM、先进封装和互联,是因为大家发现 GPU 不是孤立资产,它受内存、封装和集群协同制约。再往后,瓶颈会继续外溢到电力、冷却、数据中心建设、推理效率和端侧 AI。
换句话说,这不是「哪个公司最火」的问题,而是「在产出更多 token、更低成本 token 的系统里,哪个环节最先卡住」的问题。
AI 不是软件行业,它是一座工厂
我私以为,很多人对 AI 产业链的理解还停留在「软件公司」这个认知框架里。但越往后看,AI 越像一种新型工业系统。
更准确的理解不是「数据中心」,而是 AI Factory:输入是电力、芯片、数据、网络、冷却、软件,输出是 token、推理能力、自动化决策和智能服务。
一旦用这个框架去思考,投资分析的出发点就变了。不是先问「哪家公司最热门」,而是先问「工厂里哪个环节产能最紧张」。
上一阶段:为什么是 GPU?
上一阶段 AI 的主要矛盾很清晰——模型规模扩张太快,训练算力不够。
大模型早期遵循 Scaling Law:参数更多、数据更多、训练算力更多,模型能力就更强。这个阶段最稀缺的东西就是训练算力,也就是 GPU。谁能拿到更多 GPU,谁就能更快训练模型;谁能建设更稳定的 GPU 集群,谁就能更快迭代基础模型。
所以 NVDA 最先被市场重估,逻辑非常直接——它是那个阶段的「总开关」。
然后呢?Memory Wall
不妨用一个类比来理解下一步发生了什么:GPU 是发动机,HBM 是给发动机供油的高压油管。发动机马力越大,油管越不能成为瓶颈。
AI 不只是「算」,还要「喂数据」。GPU 再强,如果模型权重、KV Cache、激活值无法快速送进计算单元,GPU 就只能干等。这就是所谓的 Memory Wall。
尤其进入推理阶段后,每生成一个 token 都需要持续读取模型权重和上下文缓存。推理天然容易变成 memory-bound,而不仅仅是 compute-bound。
于是投资主线从「算力芯片」扩散到「算力系统」——HBM 决定 GPU 性能能否释放,先进封装决定 GPU 出货是否跟得上需求,高速互联决定多 GPU 协同时集群利用率能到多少。
瓶颈为什么会不断外溢?
传统摩尔定律主要发生在芯片内部:晶体管密度提升 → 单芯片性能提升 → 单位计算成本下降。
但 AI 时代的「新摩尔定律」更多发生在系统层面。瓶颈从 GPU 溢出到 HBM,从 HBM 溢出到先进封装,从封装溢出到网络互联,再溢出到电力和冷却。整个链条的终点是 token 成本的持续下降。
所以 AI 投资不能只盯着单颗芯片看,而要看整个 AI Factory 的系统吞吐效率。瓶颈在哪里,超额收益就在哪里。
下一阶段:三个层次的瓶颈
我把未来的瓶颈大致分成三层来思考。
近端是 HBM、先进封装和高速互联。这是 GPU 之后最直接的系统瓶颈。模型越大、上下文越长、推理请求越多,内存带宽需求就越高。同时大规模 GPU 集群需要像一个系统一样工作,网络效率某种意义上接近「第二块 GPU」。
中期是电力、变压器、冷却和数据中心建设。这是 AI 下一阶段最确定的物理约束。AI 数据中心不是随便建在哪里都行,它需要低成本稳定电力、变压器和电网接入能力、水资源和冷却能力、光纤网络和快速交付的施工能力。变压器的交付周期长,是一个容易被忽视的隐藏瓶颈。
长期是推理成本、ASIC、调度系统和端侧 AI。当训练趋于巨头化后,大规模收入会来自推理。关键问题会变成:每百万 token 的成本能不能持续下降?Agent 调用次数暴涨后推理成本能不能压住?哪些推理任务会迁移到端侧设备?
值得注意的是,推理时代不一定完全利好训练时代的赢家。训练阶段看「谁有最大 GPU 集群」,推理阶段看「谁能以最低成本、最低延迟、最高可用性服务海量请求」。这是两种不同的竞争维度。
瓶颈迁移的全景图
如果把整个迁移过程画成一张表:
| 阶段 | 核心矛盾 | 受益环节 |
|---|---|---|
| 第一阶段 | 训练算力不足 | GPU(NVDA、AI server) |
| 第二阶段 | GPU 性能释放受限 | HBM、DRAM、CoWoS、封装设备 |
| 第三阶段 | 集群协同受限 | 网络互联、光模块、交换芯片 |
| 第四阶段 | 数据中心落地受限 | 电力、变压器、冷却、IDC |
| 第五阶段 | 推理成本下降 | ASIC、推理框架、端侧芯片 |
GPU 仍然重要,但它已经从唯一主线变成 AI 工厂系统中的核心部件之一。
我的偏向
短期我继续看 HBM、先进封装、高速互联这一圈。中期重点看电力、液冷、数据中心建设能力。长期则看推理成本下降、ASIC、端侧 AI、模型调度和 Agent 工作流。
当然,这不是直接买入建议。估值、周期位置、供需反转和市场拥挤度都会影响实际回报。
但从产业逻辑看,AI 主线已经从「单点 GPU」进入「系统瓶颈轮动」阶段。理解这条迁移逻辑,至少在面对市场热点切换时不至于手忙脚乱——知道下一个瓶颈大概在哪里,比追着上一个热点跑要从容得多。
最后
私以为,投资 AI 产业链最重要的心智模型不是「谁是下一个 NVDA」,而是「系统的卡点在往哪里移动」。前者是追涨逻辑,后者是产业逻辑。
一言以蔽之:跟着瓶颈走。