L125_谁在定义AI的价格

封面图

引言

周四晚上刷到一条消息:Anthropic 秘密提交 IPO 申请,估值 9650 亿美元。

我愣了一下。就在五天前,Anthropic 刚发布了 Claude Fable 5——一个号称「太危险而不能公开部署」的模型 Mythos 5 的安全版本。然后过了两天,美国政府以出口管制为由要求暂停访问。Anthropic 照做了,但 IPO 文件已经递上去了。

——

同一天,WSJ 报道 OpenAI 正在考虑大幅降价。ChatGPT 要做「史上最大改版」,从聊天工具变成 Agent 超级应用。两天前,OpenAI 刚向 SEC 秘密提交了 S-1 草案。

两家公司,同一周,秘密 IPO,一个 9650 亿,一个此前估过的 8520 亿。加起来 1.8 万亿美元——超过了大多数国家的 GDP。

但这周真正让我觉得有意思的,不是这两个数字。而是同一周发生的其他事情:中国实验室在疯狂开源(MiniMax M3、GLM-5.2、Kimi-K2.7-Code),OpenRouter 证明了半价模型组合可以击败任何单一旗舰,一个开源项目展示了用 Fable 做架构师 + Codex 做工人可以省掉 80% 的 token 开销,Apple 把全新的 Siri AI 塞进了十亿台设备。

这周的 Newsletter,我想聊一个简单的问题:当智力的价格以每周可见的速度下跌,谁在定义「值多少钱」?


📚 深度阅读

Fable 5:一个太危险的模型,和一个刚好安全的版本

6 月 9 日,Anthropic 同时发布了两个模型。Claude Mythos 5 是他们造过的最强模型——在 Cognition 的 FrontierCode、Hebbia 的金融基准、CursorBench 和 ViBench 上全部 SOTA。早期测试者说它「把几个月的工程压缩到了几天」。它能用原始截图玩 Pokemon FireRed,不需要任何外部工具;能做蛋白质设计和分子假说生成;能处理百万 token 级的持久记忆。

但 Mythos 5 不对外。Anthropic 说它拥有上千个漏洞利用能力,能攻破银行系统、窃取国家机密。NSA 非常想要它。所以 Anthropic 造了 Fable 5——同一个底层模型,但装上了严格的安全分类器。当你的查询涉及网络安全、生物、化学或蒸馏攻击时,请求会被自动路由到 Claude Opus 4.8。这套护栏只在不到 5% 的会话中触发。

定价 $10/$50 每百万 token。比之前的 Mythos Preview 便宜得多。

然后,6 月 12 日,美国政府以出口管制为由要求暂停访问。Anthropic 表示不同意,但照做了。三天后,IPO 文件递到了 SEC。

这整个时间线有一种奇怪的完美。发布一个「太危险」的模型,证明你拥有最强的技术;被政府要求暂停,证明你的技术重要到需要国家安全级别的监管;然后带着这些故事去上市。Dario Amodei 在 Bloomberg 采访中预言 AI 将在 1-5 年内砍掉一半入门级白领工作,估计 AI 导致社会崩溃的概率在 10-25%。

你很难判断这是一种真诚的警告,还是一种精心设计的估值叙事。可能两者都是。

🔗:Anthropic 官方公告 | AI HOT 精选


OpenAI 的超级应用赌注

WSJ 的报道揭开了 OpenAI 的另一面。表面上看,这是一家月活过 10 亿的公司正在准备 IPO。但水面下,一场更激进的重构正在进行。

ChatGPT 要从聊天工具变成「超级应用」——整合编码(Codex)、Agent、图像生成和商业软件。一位工程负责人说,他们在构建「一个未来,你将拥有自己的个人 Agent,它能在生活的方方面面帮助你」。

更值得关注的是定价策略。OpenAI 正在考虑大幅降价,直接原因是 Anthropic 在开发者市场的蚕食。Claude Code 的用户产生了海量的 token 消耗,Anthropic 在高消费技术工作中拥有了「更锋利的楔子」。真正的战场不是消费者品牌认知,而是企业团队为编码 Agent、自动化工具和内部系统支付的按量计费。

同周,OpenAI 还做了几件事:Codex 推出了浏览器开发者模式(用 Chrome DevTools 协议调试),推出了速率重置攒存功能(你可以把没用完的额度攒到以后用),收购 Ona 来为 Codex 提供安全的云端环境,还推出了面向企业的 Partner Network(投资 1.5 亿美元)。

所有这些指向同一个方向:OpenAI 正在从一个「聪明的聊天机器人」变成一个「AI 工作的操作系统」。

🔗:AI HOT | OpenAI Partner Network


智力的地板价

如果说 Anthropic 和 OpenAI 在争「谁最聪明」,这周真正改变游戏规则的消息来自另一个方向:智力的价格正在以令人眩晕的速度触底。

中国开源模型的围攻。 这一周有三个重磅开源发布:MiniMax M3(428B 总参数、23B 激活,编码和 Agent 能力达到 59.4%)、智谱 GLM-5.2(1M 上下文,下周开源,号称最强国产 Coding 模型)、Kimi K2.7-Code(相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%)。每一个都在逼近闭源旗舰的能力,但成本只有几分之一。

OpenRouter Fusion。 这个更让我兴奋。OpenRouter 证明了一组预算模型的融合可以在 100 个复杂研究任务上击败 GPT-5.5 和 Claude Opus 4.8。他们的预算配置(Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro)得分 64.7%,而单独的 GPT-5.5 只有 60%,Opus 4.8 只有 58.8%——成本是旗舰模型的一半。甚至同一模型的自融合(Opus + Opus,由 Opus 评估)也能比单独运行提高 6.7 分。这意味着合成和评估阶段本身就创造了超出架构多样性的价值。

/architect 模式。 这个 GitHub 项目展示了一个优雅的双模型架构:Claude Fable 5 做架构师(只负责规划、判断、审核),Codex 做工人(负责所有实现)。Fable 的会话只持续几分钟而非几小时,永远保持在最佳性能区间。Codex 在 ChatGPT 订阅的固定费率下跑几个小时。社区测量显示成本降低 58-74%。

SemiAnalysis 的订阅压力测试。 他们买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务。结论:月费 200 美元的 Claude 订阅可以榨出 70 倍的用量。这暗示着当前的订阅定价存在巨大的套利空间——或者说,价格即将被重新校准。

当这四件事在同一周发生,一个结论变得不可避免:模型能力不再是稀缺资源。 稀缺的是路由、编排、和把正确模型用在正确场景的判断力。

🔗:OpenRouter Fusion | /architect | MiniMax M3


Apple 的代理化转身:Siri 终于能看懂你的屏幕了

WWDC 2026 的 Keynote 上,Apple 展示了一个全新的 Siri——不是渐进式升级,而是彻底重建。

新的「Siri AI」能理解你屏幕上的内容,跨应用搜索你的个人数据,从网页获取实时信息。Apple 还推出了独立的 Siri App,聊天记录通过 iCloud 跨设备同步。Image Playground 升级为照片级写实风格。Safari 新增了「Notify Me」——AI 替你盯着网页,库存补货时提醒你。

更值得关注的是 Apple 的隐私策略。设备端模型处理隐私敏感任务,云端处理需要大算力的请求,iCloud+ 订阅者获得更多 AI 配额。这是一种「分层代理」的架构——把隐私变成了产品特性而非限制条件。

但 Apple 也有自己的麻烦。EU 因为《数字市场法》延迟了 Siri AI 在移动端的上线。中国因监管审批直接不可用。Tim Cook 在 Keynote 后宣布九月卸任,John Ternus 接任。

我对 Safari 的「Notify Me」最感兴趣。听起来简单,但这是 Apple 第一次让 AI 代替用户「盯」着互联网。从被动响应到主动监控——这一步的意义可能比 Siri 能聊天更大。

🔗:Apple Newsroom | AI HOT


🤖 AI 工具

Cursor Auto-Review:让分类器 Agent 替你看代码

Cursor 推出了 Auto-review,用一个专门的分类器 Agent 在工具调用前审查动作风险。这个分类器不是简单的「允许/拒绝」开关,而是一个动态的「旋钮」——它运行在 Agent 的执行循环内,跟父 Agent 在同一个 RPC 流里,避免外部 API 调用的延迟。

分类器本身也是 Agent 化的:它可以独立使用 ReadFile、Grep、Glob 和 ListDir 来检查工作空间,然后再做判断。它评估的是工具调用、用户原始意图和潜在后果三者之间的关系。日常编码操作自由通过;触及凭证、生产环境或不可逆副作用的操作会被严格审查。

结果:大约 4% 的动作被阻止,96% 无感通过。只有 7% 的会话需要人类直接介入——因为当一个动作被阻止时,解释会反馈给主 Agent,它通常能自己选择更安全的路径。

这是一个精妙的设计:不是限制 Agent 的自由,而是给 Agent 一个内置的「常识」。

🔗:Cursor Blog


Perplexity Computer + Deep Research

Perplexity 将 Deep Research 作为原生技能集成到 Computer 中。它现在连接到驱动 Computer 的 Agent 框架,可以访问「搜索即代码生成」、长文档处理和深度研究能力。

这代表了一个趋势:搜索不再只是搜索,它变成了 Agent 的一个技能。当你的 AI 助手需要做一个复杂决策时,它可以自主发起一次深度研究,综合多个来源的信息,然后继续执行下一步。

🔗:Perplexity


字节豆包「任务模式」

字节跳动的 AI 应用豆包大范围上线「任务模式」,支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析等全链路 Agent 执行。原来的「思考模式」升级为「专家模式」。

这是国内 AI 应用从「对话式」向「任务式」转变的一个标志性事件。用户不再需要跟 AI 来回聊天来完成任务,而是直接说「帮我做这件事」,然后 AI 去执行。

🔗:IT之家


xAI Grok Build Plugin Marketplace

xAI 为 Grok Build 推出了内置插件市场。插件将技能、斜杠命令、AI Agent、钩子、MCP 服务器和 LSP 打包为可安装包。用户无需离开终端即可浏览、安装和管理插件。

这是终端优先的 Agent 生态正在形成的信号。当 MCP 服务器、LSP 和 AI Agent 可以被打包成一个「插件」并一键安装,Agent 的能力边界就不再受限于开发者的手工配置。

🔗:xAI


🛠️ 效率工具

OpenRouter Fusion API

前文已详细分析。核心能力:以一半的价格实现 Fable 级别的智能。工作原理是并行分发请求到多个模型,由评估模型分析分歧,然后综合生成最终回答。整个流程服务端完成。

🔗:OpenRouter


Krea 2 生成式滑块

Krea AI 为 Krea 2 推出了生成式滑块控制。你现在可以调节用 Krea 2 生成的任何图像的强度、复杂度和运动。这不是重新生成,而是在已有生成结果上做连续的参数调节——像是给 AI 图像加了一个「混音台」。

🔗:Krea AI


Suno 音轨分离升级

Suno 的音轨分离从「频率隔离」升级为「从零重新生成」。不再是简单地分离频率,而是为每个音轨独立重新生成,结果是纯净无伪影的音轨,可以直接拖入 DAW 使用。对于音乐制作人来说,这改变了 AI 辅助音乐制作的工作流。

🔗:Suno


✨ 随便看看

  • 全自主无人机首次击毙人类士兵:新科学家报道,有记录以来第一次由完全自主运行的无人机执行致命攻击。这不是科幻,这是 2026 年 6 月。(score=88)New Scientist
  • Meta 撤销 20 亿美元收购 Manus:北京要求反转,收购解除程序已启动。中美科技博弈的又一个注脚。(score=71)TechCrunch
  • Prometheus 融资 120 亿美元:贝佐斯旗下 AI 公司,成立仅 7 个月、尚无任何产品交付,估值 410 亿美元。定位「人工通用工程师」。(score=75)
  • 中国准备 2950 亿美元 AI 基础设施计划:全国性 AI 基础设施建设资助。(score=80)
  • Apollo 与 Blackstone 联手 350 亿美元 AI 融资交易:购买 Google TPU 并租赁给 Anthropic。(score=81)
  • 谷歌 Android 安全负责人辞职:在告别信中指责公司「丧失道德指针」,批评放弃碳中和目标。(score=80)IT之家
  • 扎克伯格承认 Meta AI 转型「脱轨」:裁员 10%、转岗 7000 人后组织调整过快,预计未来「几乎肯定会犯更多错误」。(score=72)IT之家
  • Magnetar 用数百 AI Agent 替代分析师:对冲基金用 AI Agent 取代了大量人类分析师。(score=75)
  • Deezer AI 音乐检测器:面向 Spotify、Apple Music 等竞品平台扫描 AI 生成音乐。(score=73)The Verge
  • LLM 在 95% 模拟中使用战术核武器:一项博弈论模拟研究的结果。不是某个特定模型,而是「一般 LLM」。(score=70)
  • Anthropic CEO 预言 50% 入门级岗位流失:Dario Amodei 在 IPO 前的公开表态,同时估计 AI 导致社会崩溃的概率在 10-25%。(score=71)IT之家