L119_缰绳与偷懒的模型

发表于 2026-05-02 更新于 2026-06-15 分类于 AI & Systems Waline：

Notion 用软件工厂模式重构了 AI 智能体开发范式，而模型在长上下文中主动选择偷懒的发现，让 Harness Engineering 的缰绳理论面临尴尬。AI 硬件出海、Claude Design 冲击 Figma、以及速溶咖啡的百年发明史——这期的主题是：当工具越来越聪明，我们该学会什么时候收手。

上周有件事挺有意思的。

Notion 的 AI 团队在公开采访里说，他们构建可靠 AI 智能体的关键，不是写越来越复杂的提示词，而是让工具来定义边界。这意味着工具的所有权可以分散到不同的产品团队，而不是集中在一个神秘团队手里。

他们为此重写了五次。

五次。这个信息量其实很大。

想想看，Notion 不是一个小公司。他们有的是资源去赌一个中央化的、聪明的、什么都懂的 Agent 团队。但他们最终走的路恰恰相反——把工具定义权交还给各个产品线，让每个团队自己决定「我的产品暴露什么能力给 Agent」，然后 Agent 通过读写共享数据库来协调，而不是依赖自定义的消息协议。

这是一个很朴素的架构选择。但它的意义比听起来大。

因为它暗含了一个判断：AI 智能体的核心能力不在模型本身，而在工具的质量。最成功的 AI 驱动工作流，是让产品本身成为记录系统，Agent 只是在这个系统上读写数据。

换句话说，不是 Agent 越来越聪明来适应烂工具，而是工具越来越好来配合 Agent。

这和我在其他文章里看到的另一种观察形成了有趣的对照。

有文章提到一个现象：模型在长上下文中会主动选择「偷懒」。这不是能力不足，而是一种效率策略——模型学会了在足够长的对话中走捷径。所以 Harness Engineering（给 AI 上缰绳）可能只是过渡方案。长远看，问题可能不是怎么控制 AI，而是怎么引导它进行更深层、更耗能的「分析式」推理。

一边是 Notion 说「别指望 Agent 自己搞定一切，把工具做好」，另一边是研究者说「Agent 本身就喜欢偷懒，缰绳管不了多久」。

我觉得这两件事说的是同一个道理。

AI 时代最容易被忽视的事实是：工具的质量决定了 Agent 的上限。不是 prompt 写得精妙，也不是系统提示词多么复杂，而是你暴露给 Agent 的工具有没有清晰的边界、有没有良好的接口、有没有可靠的验证。

Notion 花了五次重写才明白这件事。我们也许可以少花几次。

📚 深度阅读

Notion 的软件工厂模式：五次重写学到的事

Notion 的 AI 团队在《Notion’s Token Town》的分享中，披露了构建企业级 AI 智能体的完整心路历程。他们用了五年时间，目标是让 Notion 成为企业工作的核心记录系统。

过程中踩了五个坑，每一次都代表了一个认知升级。

第一个认知是「工具所有权应该分散」。最开始他们把工具定义集中在一个专门的 AI 团队手里，结果是这个团队变成了瓶颈——它需要理解所有产品的能力，但又不具备各产品线的领域知识。后来他们把工具定义权交还给各产品线，AI 团队只负责 Agent 框架本身。这让工具的迭代速度大幅提升。

第二个认知是「渐进式披露是关键架构」。一次性给 Agent 暴露过多工具会损害模型性能并增加 Token 成本。正确的做法是分层次暴露——基础操作一层，高级功能一层，专家功能一层。这个思路其实和 Notion 产品本身的信息架构一脉相承。

第三个认知是「模型行为工程师」比任何单一角色都重要。这个角色需要数据科学、产品管理和提示工程的混合能力。Notion 发现，最懂模型行为的往往不是纯算法工程师，而是那些既懂产品又懂模型的人。

第四条经验可能最有意思：最成功的 AI 工作流让产品成为记录系统，Agent 通过读写共享数据库协调，而不是依赖自定义消息协议。这意味着 Agent 不应该是一个独立的「对话层」，而应该深度嵌入产品的数据流。

最后一条是关于评估的分层。单元测试用于持续集成，「成绩单」评估用于发布准备，30% 通过率的「上限」评估用于识别未来能力。不是所有测试都要 100% 通过——有些测试的目的是发现「模型未来可能做到什么」。

这五条经验加起来，描绘了一个清晰的图景：构建 AI 智能体不是写更聪明的 prompt，而是设计更好的工具生态。

🔗：Latent Space - Notion’s Token Town

AI Coding 重构：产品人写代码，工程师焦虑吗

Slax Note 团队分享了一次用 AI 重构项目的完整经历。这次实验的核心假设很激进：由产品经理或设计师借助 AI 直接生成代码并验收，不再层层转交研发工程师。

前提是 spec 驱动。研发工程师先把复杂系统的知识提炼为结构化的规格文件，AI 的生成行为有了依据，非技术角色也能在此基础上工作。

结果出乎意料地复杂。

AI 确实擅长快速搭建框架和界面修补。但一旦涉及到真实业务链路和复杂环境，对规格、验证和代码审查的要求反而比传统开发更高。因为 AI 生成的代码在简单场景下没问题，但一旦进入真实数据流，就需要有人能发现根因、控制回归。

这次实验的本质不是 AI 替代研发，而是将研发经验沉淀为可协作的流程。真正拉开差距的，是团队有没有能力把隐性知识显性化——把「只有老员工知道的东西」变成「写在 spec 里的规则」。

这和我之前看到的一个观察呼应：孩子王的 CTO 提到「销冠人脑蒸馏」，把隐性经验显性化。两个不同行业的团队在做同一件事——把人的经验变成可复用的系统。

当然，这里有个没人明说的焦虑：当研发经验被沉淀为 spec，工程师的不可替代性在哪里？

答案可能是：在发现根因和控制回归的能力上。AI 能生成代码，但不能判断这段代码在真实业务中会不会出问题。能判断的人，才是真正不可替代的。

🔗：Slax Note - 用 AI 重写 Slax Note 的完整复盘

意图驱动 UX：从操作员到监督员

尼尔森（Jakob Nielsen）在一篇新文章里提出了一个可能改变交互设计范式的判断：我们正在从「命令式」交互转向「意图驱动」交互。

在命令式时代，你一步步点。在意图驱动时代，你说要什么，AI 自己想怎么做。人的角色从 operator（操作员）变成了 supervisor（监督员）——你不再亲自干活，而是管理「数字司机」。

这意味着传统那套「学得快、点得少、不迷路」的可用性指标，都得重写。

他提出了一整套新架构：意图层 + 编排层 + 直接操作层。新的可用性指标包括「意图捕获率」（AI 有没有理解你到底要什么）、「校对效率」（你纠正 AI 的速度）、「信任校准」（你对 AI 输出的信任度是否合理）。

他还提到了一个有趣的概念：「慢 AI」。不是所有场景都需要 AI 立刻给出答案。有时候故意加一点摩擦，让用户有时间审视 AI 的推理过程，反而能建立更好的信任关系。

这让我想到本期体验碎周报里提到的懂车帝的双主按钮问题。在选图界面，上下各有一个主按钮——上面是「发布」，下面是「完成」。两个按钮颜色、形状、视觉权重几乎一致。用户在专注选图时，大脑的直觉系统会自动寻找那个代表「确认」的品牌色块，于是经常误触「完成」把没传完的图发出去。

这个案例和「慢 AI」的概念有异曲同工之处。好的交互设计不是让用户永远快速到达目的地，而是在关键节点上设置恰当的确认机制。懂车帝的问题不是按钮太多，而是两个按钮的逻辑层级不一致——在选图的临时容器（Modal）里，全局出口（发布）应该被暂时降级，而不是和「完成」平起平坐。

意图驱动 UX 的核心也是这个道理。不是让用户永远不用思考，而是让 AI 在理解意图后给出可审校的输出，用户在关键决策点上保留否决权。

🔗：发现意图：设计人工智能用户体验

🛠️ 效率工具

Mockdown：用纯文本画线框，喂给 AI

这个工具做了一个很直接的假设：AI 比你啰里啰嗦地描述「左边一个搜索框、下面一张表、右下一个分页」更擅长读结构化文本。

所以它做了一个可视化线框编辑器。你拖拖拽拽拼出按钮、表单、表格、导航，然后一键导出成结构清晰的 Markdown。把这个 Markdown 丢进 Claude Code、Cursor 或 Copilot，模型照着 ASCII 线框图写代码。

这个思路的本质是把「沟通成本」从「人→人」转移到了「人→AI」。人跟人说需求，经常需要反复确认、画草图、举例子。人跟 AI 说需求，一份结构化的 Markdown 可能比十分钟的语音更准确。

有趣的是，这也呼应了上面 Slax Note 团队的 spec 驱动理念。不管是谁来写代码，一份清晰的规格文档是前提。Mockdown 只是把这个前提做得更轻量了——不需要写长篇文档，画个线框就行。

🔗：Mockdown

sipsip.ai：信息河流的浓缩器

你订了一堆 YouTube 频道、播客、PDF 报告，但真正点开看的那一刻少得可怜。sipsip.ai 的主线能力很清晰：给它一个入口（YouTube / 播客 / 本地音视频 / PDF / 文章 URL），它帮你搞定转录、结构化摘要、要点提炼，然后每天早上推一份你关注源的更新浓缩版。

它的价值不在于「帮你看了」，而在于「帮你判断哪些值得看」。

Daily Brief 模式很关键。不是每次更新都推，而是每天早上汇总。这本质上是一种信息节食——不是不吃，而是有节制地吃。对于已经被信息过载压得喘不过气的人来说，这种「有人帮你先嚼一遍」的体验，可能比再多一个好工具都有用。

🔗：sipsip.ai

为所有 Agent 统一 Skill 库

电脑上开着 Claude Code、Cursor、OpenClaw、Trae，各自有一套 Skills。装一次 Skill 要重复好几遍，版本还经常不同步。

这篇文章的核心解法很工程师：用软链接做一个中央 Skill 文件夹，让所有 Agent 的 skills 目录都指向同一个地方。维护这一份中央库，所有工具即时跟随更新。配合 Git 做版本管理和多设备同步，Skill 变成个人的长期资产，而不是散落在各个软件里的临时配置。

这个思路的价值在于它解决了一个正在变大的问题：随着 AI 工具的碎片化，个人的「AI 工作流资产」正在被分散到太多地方。统一的 Skill 库是一个应对策略。

它本质上是在做一件传统开发者早就在做的事——dotfiles 管理。只是现在，这个概念被扩展到了 AI Agent 的配置层面。

🔗：统一 Skill 库方案

🌍 AI 硬件出海

不写进 BP 的大实话

四个不同赛道的 AI 硬件 CEO 讲了点融资时不会说的实话。

Demeter Robot 为规避国内农业非标场景的改造难题，直接出海欧美利用其标准化农场。本质是「用中国的 PPI 对标欧美的 CPI」——中国的硬件成本优势打欧美的服务价格溢价。

ALLTIME 万物时发现欧美用户对治愈系「赛博盘串」的接受度超预期，产品定位在跨文化中自然分化为「宠物陪伴」或「解压美学」。同一个产品，在不同文化里找到了不同的价值锚点。

Wavenote 为追求极简体验，不惜投入高昂成本将两个按键合而为一。这揭示了硬件为抹平用户体验门槛所付出的残酷取舍——软件上多写几行代码的事，硬件上可能要重构整个工业设计。

Sipeed 矽速科技直面供应链现实，指出「内存比金子还贵」的地缘政治与成本压力，迫使团队加快透明化开源以应对猜忌。

贯穿这些案例的潜台词是：技术决定上限，而中国成熟的供应链体系与灵活的本土化策略，才是支撑 AI 硬件出海活下去的生存底线。

这不是什么秘密。但由一线创业者在融资 BP 之外说出来，还是很有参考价值。

📡 行业观察

GEO 造假手册：当优化变成魔术

一位卧底交付员的自述，揭开了 GEO 行业数据造假的两个关键手法。

其一，推荐率的邪修算法。将同一词包内各关键词的推荐率简单相加而非求平均，使 1% 的真实推荐率在报告中呈现为 100% 甚至更高。

其二，用设备数偷换搜索次数。通过模糊分母定义将极低的真实曝光率放大为可观的推荐率。

这听起来像是 SEO 时代的旧把戏换了个新名字。但它的危害更大。因为 GEO 的评估标准比 SEO 更模糊——AI 的引用不像搜索引擎排名那样可以客观测量。这就给了造假更大的空间。

反过来说，这也提醒了 GEO 从业者：真正可持续的 GEO 优化，靠的不是数据魔术，而是内容本身的质量。AI 会引用什么，最终取决于它认为什么可信。

🔗：GEO 行业数据造假手册 - 36氪

Claude Design：Figma 的背景板时刻

一篇文章形象地说清楚了 Figma 面临的困局。

Figma 的功能是弥合需求策划和落地实现之间的 GAP。但现在的 Agentic Coding 已经在越来越多的编程语言种类中达到需求即代码、代码即交付的状态。当设计师可以直接用 Claude Design 从提示词生成可交付方案，为什么还需要一个中间协作工具？

Figma 团队没犯什么错，对 AI 的探索也非常积极。但无奈地成为了证明模型公司想象力的背景板。

这和之前 AI 写小说投七猫被拒的案例形成了有趣的对比。七猫的编辑 AI 能识别出「节奏把控、爽点设计、情绪感染力」的缺失，说明在内容质量评估上，AI 已经能做出人类编辑级别的判断。而 Claude Design 能直接生成设计稿，说明在内容生产上，AI 也在逼近专业水平。

生产 + 评估，AI 在两端同时推进。中间的 GAP 越来越窄。

Figma 的应对策略可能不是对抗这个趋势，而是找到自己的新定位——也许是从「设计协作工具」变成「设计系统管理平台」，也许是从「设计师的工具」变成「产品和工程之间的翻译层」。

但无论如何，这个过渡期不会轻松。

🔗：Thoughts around Claude Design

✨ 随便看看

漕河泾的年轻人：上周爆火的文章，受访对象大多拥有宽松的家庭氛围，上学时能花大量时间在游戏上，毕业后从事相关工作。环境的宽容度对职业选择的影响，比想象中更大。原文
AI 做会议纪要是生产力幻觉：产出增加不等于效益增加，AI 完成不等于人已掌握。当会议纪要越来越容易生成，真正的问题是谁来看、看了之后做了什么。原文
The creation of instant coffee：和 AI 无关的内容。速溶咖啡的发明历史比大多数人想象的更有趣——它是战争、化学工业和商业创新的交汇产物。有时候脱离屏幕看看这些故事，大脑需要呼吸。原文
Codex 拖拽开启 macOS 权限：把 App 图标拖进系统权限面板就完成了权限开启。拖拽是 macOS 用户最熟悉的交互范式，零学习成本。详情
Faces：用官网做产品演示：把自己官网做成一份交互式在线幻灯片，点进去的瞬间就体验了核心卖点。不需要冗长的功能罗列，滑两下就懂了。详情
Ian Handdrawn PPT：给 AI Agent 用的画图说明书，把文字内容变成中文手绘技术解释图，21:9 封面，16:9 正文，每页一整张 PNG。详情
WhatsTheWeb 浏览器扩展：在当前页面直接打开侧边栏，显示网站访问量、流量来源、SEO 体检、技术栈探测，一站式站点情报。详情
Google 图标设计风格转变：从强制四色扁平化回到渐变与玻璃拟态，呼应 Gemini AI 的视觉语言。Material Design 的设计语言可能也要换说法了。详情
单篇 100 万阅读的内容公式：选题占 50%，标题占 20%，开头占 10%，正文占 20%。六条标准：逻辑层层递进、开头反常识制造冲突、持续设置阅读钩子、高信息密度、可操作的解决方案、独特节奏与风格。