AI 投资的核心逻辑:追踪系统瓶颈的迁移
最近在整理自己的投资笔记时,我试着回答一个始终困扰我的问题:AI 产业链这么长,到底应该把注意力放在哪里?GPU 还是 HBM?电力还是光模块?推理芯片还是端侧 AI?
如果每次都追热点,那永远慢半拍。我需要一条主线,一个可以帮助我在不同阶段做出判断的逻辑框架。
先说结论
我的核心判断是:AI 投资的主线会持续迁移,迁移的方向是——“把电力、数据、芯片转化为 token 的系统里,当前最稀缺的瓶颈”。
上一阶段买 NVDA,本质是买训练算力短缺。后来市场关注 HBM、先进封装和互联,是因为大家发现 GPU 不是孤立资产,它受内存、封装和集群协同制约。再往后,瓶颈会继续外溢到电力、冷却、数据中心建设、推理效率和端侧 AI。
换句话说,这不是”哪个公司最火”的问题,而是”在产出更多 token、更低成本 token 的系统里,哪个环节最先卡住”的问题。
AI 不是软件行业,它是一座工厂
我私以为,很多人对 AI 产业链的理解还停留在”软件公司”这个认知框架里。但越往后看,AI 越像一种新型工业系统。
更准确的理解不是”数据中心”,而是 AI Factory:输入是电力、芯片、数据、网络、冷却、软件,输出是 token、推理能力、自动化决策和智能服务。
一旦用这个框架去思考,投资分析的出发点就变了。不是先问”哪家公司最热门”,而是先问”工厂里哪个环节产能最紧张”。
上一阶段:为什么是 GPU?
上一阶段 AI 的主要矛盾很清晰——模型规模扩张太快,训练算力不够。
大模型早期遵循 Scaling Law:参数更多、数据更多、训练算力更多,模型能力就更强。这个阶段最稀缺的东西就是训练算力,也就是 GPU。谁能拿到更多 GPU,谁就能更快训练模型;谁能建设更稳定的 GPU 集群,谁就能更快迭代基础模型。
所以 NVDA 最先被市场重估,逻辑非常直接——它是那个阶段的”总开关”。
然后呢?Memory Wall
不妨用一个类比来理解下一步发生了什么:GPU 是发动机,HBM 是给发动机供油的高压油管。发动机马力越大,油管越不能成为瓶颈。
AI 不只是”算”,还要”喂数据”。GPU 再强,如果模型权重、KV Cache、激活值无法快速送进计算单元,GPU 就只能干等。这就是所谓的 Memory Wall。
尤其进入推理阶段后,每生成一个 token 都需要持续读取模型权重和上下文缓存。推理天然容易变成 memory-bound,而不仅仅是 compute-bound。
于是投资主线从”算力芯片”扩散到”算力系统”——HBM 决定 GPU 性能能否释放,先进封装决定 GPU 出货是否跟得上需求,高速互联决定多 GPU 协同时集群利用率能到多少。
瓶颈为什么会不断外溢?
传统摩尔定律主要发生在芯片内部:晶体管密度提升 → 单芯片性能提升 → 单位计算成本下降。
但 AI 时代的”新摩尔定律”更多发生在系统层面。瓶颈从 GPU 溢出到 HBM,从 HBM 溢出到先进封装,从封装溢出到网络互联,再溢出到电力和冷却。整个链条的终点是 token 成本的持续下降。
所以 AI 投资不能只盯着单颗芯片看,而要看整个 AI Factory 的系统吞吐效率。瓶颈在哪里,超额收益就在哪里。
下一阶段:三个层次的瓶颈
我把未来的瓶颈大致分成三层来思考。
近端是 HBM、先进封装和高速互联。这是 GPU 之后最直接的系统瓶颈。模型越大、上下文越长、推理请求越多,内存带宽需求就越高。同时大规模 GPU 集群需要像一个系统一样工作,网络效率某种意义上接近”第二块 GPU”。
中期是电力、变压器、冷却和数据中心建设。这是 AI 下一阶段最确定的物理约束。AI 数据中心不是随便建在哪里都行,它需要低成本稳定电力、变压器和电网接入能力、水资源和冷却能力、光纤网络和快速交付的施工能力。变压器的交付周期长,是一个容易被忽视的隐藏瓶颈。
长期是推理成本、ASIC、调度系统和端侧 AI。当训练趋于巨头化后,大规模收入会来自推理。关键问题会变成:每百万 token 的成本能不能持续下降?Agent 调用次数暴涨后推理成本能不能压住?哪些推理任务会迁移到端侧设备?
值得注意的是,推理时代不一定完全利好训练时代的赢家。训练阶段看”谁有最大 GPU 集群”,推理阶段看”谁能以最低成本、最低延迟、最高可用性服务海量请求”。这是两种不同的竞争维度。
瓶颈迁移的全景图
如果把整个迁移过程画成一张表:
| 阶段 | 核心矛盾 | 受益环节 |
|---|---|---|
| 第一阶段 | 训练算力不足 | GPU(NVDA、AI server) |
| 第二阶段 | GPU 性能释放受限 | HBM、DRAM、CoWoS、封装设备 |
| 第三阶段 | 集群协同受限 | 网络互联、光模块、交换芯片 |
| 第四阶段 | 数据中心落地受限 | 电力、变压器、冷却、IDC |
| 第五阶段 | 推理成本下降 | ASIC、推理框架、端侧芯片 |
GPU 仍然重要,但它已经从唯一主线变成 AI 工厂系统中的核心部件之一。
我的偏向
短期我继续看 HBM、先进封装、高速互联这一圈。中期重点看电力、液冷、数据中心建设能力。长期则看推理成本下降、ASIC、端侧 AI、模型调度和 Agent 工作流。
当然,这不是直接买入建议。估值、周期位置、供需反转和市场拥挤度都会影响实际回报。
但从产业逻辑看,AI 主线已经从”单点 GPU”进入”系统瓶颈轮动”阶段。理解这条迁移逻辑,至少在面对市场热点切换时不至于手忙脚乱——知道下一个瓶颈大概在哪里,比追着上一个热点跑要从容得多。
最后
私以为,投资 AI 产业链最重要的心智模型不是”谁是下一个 NVDA”,而是”系统的卡点在往哪里移动”。前者是追涨逻辑,后者是产业逻辑。
一言以蔽之:跟着瓶颈走。
The Why·Liam·Blog by WhyLiam is licensed under a Creative Commons BY-NC-ND 4.0 International License.
由WhyLiam创作并维护的Why·Liam·Blog采用创作共用保留署名-非商业-禁止演绎4.0国际许可证。
本文首发于Why·Liam·Blog (https://blog.naaln.com),版权所有,侵权必究。
本文永久链接:https://blog.naaln.com/2026/05/ai-investment-bottleneck-migration/