L125_做越来越便宜,决定做什么越来越贵

引言

上周五晚上,我花了两个小时看一位朋友用 AI 做产品。他从零开始,用 Claude Code 搭了一个小型的跨境电商数据看板,中间涉及 API 对接、数据清洗、前端图表渲染。整个过程中他写代码的时间大概不到二十分钟,剩下的时间他都在做另一件事——盯着屏幕想:这个数据到底该不该放上去?这个维度对运营来说有没有意义?

他把这叫做”vibe working”。手不动了,脑子反而更忙。

这不是个例。有案例显示,有人用 300 个 AI Agent 管理跨境电商全流程——竞品监控、汇率换算、供应商背调、爆款脚本生成,全部自动化。但他说了一句很清醒的话:操作者的真正价值不在于跑这些流程,而在于选品判断、市场押注、以及对供应商信任度的评估。AI 接管了手,但判断力的缺口变得更大。

这种「执行与判断的分离」正在成为本周最明显的主题。一份关于「从超级个体到超级团队」的报告中,一个公式我觉得很精准:组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦力。AI 放大了个人能力,但「超级个体」不应该、也不可能完全单干。真正有趣的问题不是一个人能否变成一家公司,而是一群被 AI 放大的人,应该如何重新组队。

与此同时,Q2 消费级 AI 报告泼了一盆冷水:用户确实在用 AI,但这不意味着公司能赚到钱。市场呈现出明显的「哑铃结构」——一端是免费大模型覆盖的大众需求,另一端是月费 100 美元以上的专业工具,中间那些「有点用、十几块一个月、但说不清护城河」的产品面临巨大压力。

Figure 公司的机器人数量第一次超过了人类员工数量。NSA 局长说 Mythos 在几小时内攻破了几乎所有机密系统。AlphaFold 负责人 John Jumper 离开 DeepMind 加入 Anthropic。这些事情放在一起看,会发现一个趋势正在加速:AI 正在把「做」的门槛压到接近零,同时把「决定做什么」的门槛抬到前所未有的高度。

这期的主题是执行与判断的分离——当 AI 能替你做几乎所有事的时候,你唯一不可替代的,是你知道什么值得做。


📚 深度阅读

三份报告:Fable 5、超级个体、消费级 AI 的冷水

有三份值得细读的报告,从不同角度指向同一个问题:AI 能力的提升,并没有自动转化为个人和组织的竞争力提升。

Fable 5 讨论笔记揭示了一个有趣的现象——很多人拿到强力模型后反而「找不到值得解决的问题」。模型的价值不应该用「普通任务是否快了一点」来衡量,而应该看它是否跨过了用户的能力边界。讨论中还提到 Multi-agent 系统的真正价值可能不在于并行执行,而在于记忆和上下文扩展机制:子 Agent 独立消耗上下文,只把压缩后的结果返回给主 Agent。这个洞察很关键——未来 AI 产品的核心竞争力不是模型能力本身,而是能否构建一个根据任务价值动态分配模型成本的路由系统。

**「从超级个体到超级团队」**报告则给出了更务实的判断。作者余一的核心观点是:超级个体不会走向完全独立,因为一个人再强,也无法承担所有风险、稳定所有注意力、积累足够的基础信誉。报告中的组织竞争力公式值得每个做 AI 产品的团队贴在墙上反复看。

Q2 消费级 AI 报告最让人清醒。它把 AI 应用从概念热潮拉回了商业基本面——大量融资不等于赛道普遍有机会,用户使用不等于持续付费。哑铃市场的判断尤其重要:如果你的产品处在「有点用但说不清护城河」的中间地带,现在就该重新审视定位了。

🔗:腾讯研究院「从超级个体到超级团队」报告


创业开放麦:AI 时代最稀缺的资源是品味

一场上海 Hacker House 开放麦活动中,11 位创业者分享了他们的实践。有几个细节很抓人:有人在公司内部禁止用 AI 写文档,逼着自己去做真人访谈;有人给自己的 AI Agent 做了「分身」让它替自己开会。

但最让我思考的是其中关于「品味」的讨论。硅谷最近流行一种叙事——品味是护城河。但作者 XDash 泼了冷水:那些在 PR 里大谈审美的公司,正在被不做这些的竞争对手击败。Steve Jobs 的真正遗产不是品味,而是他三十年来不断做选择、承担后果的过程。真正的判断力来自「建造、发布、面对拒绝」这个真实世界的循环,而不是坐在办公室里培养审美。

同一期还分析了营销归因黑洞的问题——一个 Polkadot 社区算出单次有效交互成本高达 2719 美元,和代理商报告的数据完全对不上。前端曝光数据完美,后端真实转化一团糟。这又是一个「执行可以自动化,但判断执行是否有效仍然是人类工作」的案例。


禁止开源 AI 将是一个错误

Nathan Lambert 在 Interconnects 上的这篇文章值得每一个关注 AI 政策的人读。背景是近期的行政命令和国会提案可能对开源 AI 施加新限制。文章的核心论点是:开源软件已经支撑了全球 90% 以上的软件并创造了 8 万亿美元经济价值。以中国竞争为由来监管开源将适得其反——美国初创公司正依赖包括中国在内的开源模型来提升效率。Anthropic 和 OpenAI 的封闭模型正在加剧市场集中,开源是初创公司、教育机构和企业获得替代方案的唯一平衡力量。

结合本周 OpenRouter vs Portkey 和 OpenRouter vs LiteLLM 的两篇对比文章来看,LLM 网关生态正在快速成熟——300+ 模型统一路由、自动故障转移、零数据保留。这个生态的繁荣恰恰依赖开源基础设施。

🔗:Interconnects - Banning Open Source AI


AI 中心的数据黑洞

Dwarkesh Patel 的这期播客讨论了一个容易被忽略的问题:AI 进步的样本效率。人类一生接触约 2 亿 token,前沿模型训练在数十到数百 T token 之间,相差近百万倍。强化学习本质上是合成数据生成——投入大量算力通过验证器筛选「好」数据,再训练模型预测正确输出。这个模式需要每个领域的大量人类专家示例,数据行业年收入已达数十亿美元。

一个有趣的数据点:Epoch 报告显示开源模型仅落后前沿闭源模型 4 个月,原因是数据可从公开 API 蒸馏。这个差距在继续缩小。

🔗:Dwarkesh Patel Podcast


🤖 AI 工具

Kami:让 AI 输出配得上好纸的排版约束框架

Tw93 在潮流周刊 270 期推荐的 Kami,不是一个简单的「Markdown 转简历」工具。它的定位是AI 输出的排版约束层——通过一套严格的编辑美学规则(暖色纸张底、单一墨蓝点缀色、衬线字体层级),防止 AI 生成那种扁平、灰色、不一致的排版。9 种文档模板(作品集、股权报告、changelog、one-pager、幻灯片)+ 14 种内联 SVG 图表变体,支持 Claude Code、Codex 等 AI 编程助手作为 Skill 安装。

它的名字来自日语「纸」(紙),象征「成品想法落地的表面」。设计理念是:好的内容应该配得上好的纸。在 AI 生成内容泛滥的今天,这种对排版质量的坚持反而变得更有价值了。

🔗:GitHub - tw93/Kami(~9K Stars · MIT)


GPT-5.5 Instant:ChatGPT 的健康智能跃升

OpenAI 本周发布的 GPT-5.5 Instant 在健康领域的表现值得关注。每周超 2.3 亿用户通过 ChatGPT 获取健康信息,新模型在 HealthBench 和 HealthBench Professional 评估中,回复的准确性、安全性和沟通质量优于医生手写回复和早期模型。近两个月的生产流量数据显示,健康类回复的事实性问题率下降了 71%。

当然,Nature 同期发布的两篇研究也给出了冷静的对照——MIRA 智能体在模拟急诊诊断中准确率 88.9%,高于资深专科医生的 78.1%,但两项研究都警告模拟环境与现实存在差距。

🔗:OpenAI - Improving Health Intelligence


Adobe Creative Cloud 全面接入 AI Agent

Adobe 把「创意智能体」扩展到了 Photoshop、Premiere、Illustrator、InDesign 全线应用。Premiere 可以做素材分拣和粗剪,Photoshop 能自动换背景,Illustrator 批量生成文件,InDesign 更新版式。Firefly 新增了品牌套件、产品图转短视频和 Quick Cut 自动剪辑。值得注意的是 Adobe 工具已经集成到了 ChatGPT、Claude 和 Microsoft 365 Copilot 中,Google Gemini 和 Slack 集成即将推出。

这意味着创意工作的 AI Agent 不再是独立的第三方工具,而是直接嵌入到了创作者已经在用的软件里。执行门槛的降低,在这个领域体现得最为直接。

🔗:The Decoder - Adobe AI Agents


Figure 机器人数量首超人类员工

Figure 公司的机器人数量第一次超过了人类员工。这不是一个理论突破,而是一个事实里程碑。从工厂到仓库,从物流到制造,具身智能正在从概念走向规模化部署。

与此同时,虎嗅的一篇报道揭示了具身 AI 数据产业链的暴利:数据采集员时薪 17 元,转售价 300 元/小时——17 倍的价差。当执行端越来越自动化的时候,数据这个上游瓶颈的利润反而最高。

🔗:X - Rohan Paul


🛠️ 效率工具

ScreenKite:Swift 原生的免费录屏利器

体验碎片周刊 283 期推荐的 ScreenKite 是一个值得关注的 macOS 录屏工具。100% Swift 原生,基于 Metal GPU 加速和 Apple ScreenCaptureKit 框架,所有视频处理在本地完成。核心卖点是 AI Agent 集成——支持转录裁切、B-roll 生成,可与 Claude Code、Codex、Gemini CLI 协同使用。免费版功能完整,Pro 版年费约 40 美元。官方基准测试显示,同机器同录屏,ScreenKite 导出速度是 Screen Studio 的约 3 倍。

对于经常需要录产品 Demo、Bug 报告或教程的开发者和 PM 来说,这是一个比 OBS 简单、比 Loom 快、比 Screen Studio 便宜的选项。

🔗:ScreenKite


Animation Vocabulary:设计师给 AI 的动画词典

animations.dev/vocabulary 是 Emil Kowalski 做的一个交互式动画词汇表,包含 96 个动画术语和 78 个实时交互演示。核心洞察很直接:AI 简报需要的是动画词汇,不是形容词。当设计师说「让它更丝滑一点」或「更有呼吸感」的时候,AI 生成的结果往往不对。但如果换成「给这个列表加一个 stagger 效果,200ms 间隔,ease-out 曲线」,输出就会准确得多。

18 个分类覆盖了入场、退场、强调、反馈、加载、导航、手势、滚动、文字等动画模式。对于用 AI 编程工具做前端的开发者来说,这个词典可以直接变成 prompt 的一部分。

🔗:Animation Vocabulary


AI 产品经理课程:从入门到精通的 67 页交互课件

xueai.app 上有一套开源的 AI 产品经理培训课程,67 页交互式幻灯片,浏览器直接打开,无需服务器。作者罗小山的理念是「优质的学习资料应该属于每一个想学习的人」。

课程分两部分:LLM 基础(Token、训练原理、GPT 演进、幻觉与缓解策略)和 AI 工程(上下文工程、Prompt 工程、Agent 工程、成本优化)。其中有几个框架特别实用:四层上下文压缩策略(60%/75%/85%/95% 四个阈值)、五层成本优化系统(声称可实现 70-90% 节省)、Agent 失败分类法(参数格式错误、幻觉工具、无限递归、信息不足、API 异常五种模式)。

最让人印象深刻的一句话是:「所有 AI 工程都只是在处理一个 message list。」理解了这个,所有下游的工程决策都变得可读。

🔗:AI PM 课程 · GitHub(AGPL-3.0)


Elasticsearch Agent Memory:持久化智能体记忆层

Elastic 在 HN 上分享了一个基于 Elasticsearch 的持久化 Agent 记忆层。记忆分三类:情景记忆、语义记忆、程序记忆,各存独立索引,设不同写速率和过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 评估中,R@10 平均 0.89,零跨租户泄漏。通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源。

这解决了 Agent 系统一个实际痛点:没有持久记忆的 Agent 每次对话都从零开始,无法积累上下文和知识。

🔗:Elastic Blog - Agent Memory


📊 本周 AI 热点速览

模型与产品

  • 火山引擎上线豆包实时语音模型 3.0(Seeduplex)API 服务,原生全双工端到端语音大模型,判停延迟缩短约 250ms,复杂场景抢话比例下降 40%。🔗:公众号:火山引擎
  • 阿里开源向量数据库 Zvec,pip install 即用,对标 Pinecone 月费 70 美元能力,支持十亿向量毫秒级检索。🔗:X
  • NVIDIA Research 发布 SpatialClaw:免训练空间推理框架,将代码作为动作接口,20 项基准测试平均准确率 59.9%。🔗:MarkTechPost
  • 美团 Tabbit 国际版免费接入 GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash 等旗舰模型。🔗:X

行业动态

  • AlphaFold 负责人 John Jumper 离开 Google DeepMind,加入 Anthropic。Demis Hassabis 称过去 9 年的合作「改变了世界」。🔗:X - Demis Hassabis
  • NSA 局长称 Mythos 数小时内攻破几乎所有机密系统,此前已在 5 天内破解 MacOS,而 Google Project Zero 完成同等攻击需 6 个月。🔗:X
  • 微软成为全球最大 AI 中间商,既向中国企业卖 ChatGPT,也反向向西方客户卖 DeepSeek。🔗:X
  • 八部门联合发文力推「人工智能 + 消费」,17 条举措覆盖 AI 手机电脑、智能家居、智能网联汽车。🔗:IT 之家
  • 我国首部 L3/L4 自动驾驶强制性国标公示,2027 年 7 月起实施,要求系统安全水平至少达到「合格且专注驾驶人」。🔗:IT 之家
  • 皮尤民调:63% 美国人认为 AI 发展太快,ChatGPT 使用率翻番至 44%。🔗:IT 之家

论文与研究

  • MosaicLeaks:深度研究 Agent 在结合私有文档与外部检索时存在隐私泄露风险,提出 PA-DR 训练方法将泄露率从 34% 降至 9.9%。🔗:Hugging Face Blog
  • OpenAI 强化学习实现广泛且持久的有益模型:有益特质 RL 训练后的模型泛化到未参与训练的领域,且难以被对抗性提示导向有害行为。🔗:OpenAI Alignment Blog
  • Nature 两篇研究:MIRA 诊断准确率 88.9% 高于医生 78.1%,AMIE 治疗计划适切率 95% 高于医生 72%,但均警告模拟环境与现实存在差距。🔗:The Decoder
  • DeepSeek 研究员开源 AutoResearch:AI 自主跑通 285B 模型 RL 研究闭环,全程零人工干预。🔗:X

✨ 随便看看

  • AgenTank:两天做出来的 AI 坦克对战游戏,玩家用 prompt 生成代码控制坦克,服务器月成本不到 100 元。🔗:公众号
  • Gotcha:iOS App,把拍到的动物变成收藏卡牌,有稀有度分级。把遛弯变成宝可梦。🔗:Gotcha
  • StonkRider:把历史 K 线图变成摩托越野赛道,大涨是陡坡,暴跌是悬崖。🔗:StonkRider
  • Recent Design:手工从 X/Twitter 上捞高质量设计作品,绕开算法噪音。🔗:Recent Design
  • Cantclone:反爬工具,阻止 AI 插件把网站直接克隆进 Figma。🔗:Cantclone
  • Hardware Traffic Light:DIY 硬件红绿灯,监控 Claude Code 是在跑任务还是在摸鱼。🔗:掘金
  • flomo AI 记忆功能:新增用户身份生成和动态 Markdown 摘要,让碎片笔记有了「AI 档案」的感觉。🔗:公众号
  • 潮流周刊 Tw93 的自我定位:我不是网红,不是自媒体,不是 KOL,我做的是一本持续进化的「工程师杂志」。靠读者信任而非广告活着。🔗:潮流周刊 270

数据来源:aihot.virxact.com体验碎片潮流周刊