L119_缰绳与偷懒的模型

上周有件事挺有意思的。

Notion 的 AI 团队在公开采访里说,他们构建可靠 AI 智能体的关键,不是写越来越复杂的提示词,而是让工具来定义边界。这意味着工具的所有权可以分散到不同的产品团队,而不是集中在一个神秘团队手里。

他们为此重写了五次。

五次。这个信息量其实很大。

想想看,Notion 不是一个小公司。他们有的是资源去赌一个中央化的、聪明的、什么都懂的 Agent 团队。但他们最终走的路恰恰相反——把工具定义权交还给各个产品线,让每个团队自己决定「我的产品暴露什么能力给 Agent」,然后 Agent 通过读写共享数据库来协调,而不是依赖自定义的消息协议。

这是一个很朴素的架构选择。但它的意义比听起来大。

因为它暗含了一个判断:AI 智能体的核心能力不在模型本身,而在工具的质量。最成功的 AI 驱动工作流,是让产品本身成为记录系统,Agent 只是在这个系统上读写数据。

换句话说,不是 Agent 越来越聪明来适应烂工具,而是工具越来越好来配合 Agent。

这和我在其他文章里看到的另一种观察形成了有趣的对照。

有文章提到一个现象:模型在长上下文中会主动选择「偷懒」。这不是能力不足,而是一种效率策略——模型学会了在足够长的对话中走捷径。所以 Harness Engineering(给 AI 上缰绳)可能只是过渡方案。长远看,问题可能不是怎么控制 AI,而是怎么引导它进行更深层、更耗能的「分析式」推理。

一边是 Notion 说「别指望 Agent 自己搞定一切,把工具做好」,另一边是研究者说「Agent 本身就喜欢偷懒,缰绳管不了多久」。

我觉得这两件事说的是同一个道理。

AI 时代最容易被忽视的事实是:工具的质量决定了 Agent 的上限。不是 prompt 写得精妙,也不是系统提示词多么复杂,而是你暴露给 Agent 的工具有没有清晰的边界、有没有良好的接口、有没有可靠的验证。

Notion 花了五次重写才明白这件事。我们也许可以少花几次。


📚 深度阅读

Notion 的软件工厂模式:五次重写学到的事

Notion 的 AI 团队在《Notion’s Token Town》的分享中,披露了构建企业级 AI 智能体的完整心路历程。他们用了五年时间,目标是让 Notion 成为企业工作的核心记录系统。

过程中踩了五个坑,每一次都代表了一个认知升级。

第一个认知是「工具所有权应该分散」。最开始他们把工具定义集中在一个专门的 AI 团队手里,结果是这个团队变成了瓶颈——它需要理解所有产品的能力,但又不具备各产品线的领域知识。后来他们把工具定义权交还给各产品线,AI 团队只负责 Agent 框架本身。这让工具的迭代速度大幅提升。

第二个认知是「渐进式披露是关键架构」。一次性给 Agent 暴露过多工具会损害模型性能并增加 Token 成本。正确的做法是分层次暴露——基础操作一层,高级功能一层,专家功能一层。这个思路其实和 Notion 产品本身的信息架构一脉相承。

第三个认知是「模型行为工程师」比任何单一角色都重要。这个角色需要数据科学、产品管理和提示工程的混合能力。Notion 发现,最懂模型行为的往往不是纯算法工程师,而是那些既懂产品又懂模型的人。

第四条经验可能最有意思:最成功的 AI 工作流让产品成为记录系统,Agent 通过读写共享数据库协调,而不是依赖自定义消息协议。这意味着 Agent 不应该是一个独立的「对话层」,而应该深度嵌入产品的数据流。

最后一条是关于评估的分层。单元测试用于持续集成,「成绩单」评估用于发布准备,30% 通过率的「上限」评估用于识别未来能力。不是所有测试都要 100% 通过——有些测试的目的是发现「模型未来可能做到什么」。

这五条经验加起来,描绘了一个清晰的图景:构建 AI 智能体不是写更聪明的 prompt,而是设计更好的工具生态。

🔗:Notion’s Token Town


AI Coding 重构:产品人写代码,工程师焦虑吗

Slax Note 团队分享了一次用 AI 重构项目的完整经历。这次实验的核心假设很激进:由产品经理或设计师借助 AI 直接生成代码并验收,不再层层转交研发工程师。

前提是 spec 驱动。研发工程师先把复杂系统的知识提炼为结构化的规格文件,AI 的生成行为有了依据,非技术角色也能在此基础上工作。

结果出乎意料地复杂。

AI 确实擅长快速搭建框架和界面修补。但一旦涉及到真实业务链路和复杂环境,对规格、验证和代码审查的要求反而比传统开发更高。因为 AI 生成的代码在简单场景下没问题,但一旦进入真实数据流,就需要有人能发现根因、控制回归。

这次实验的本质不是 AI 替代研发,而是将研发经验沉淀为可协作的流程。真正拉开差距的,是团队有没有能力把隐性知识显性化——把「只有老员工知道的东西」变成「写在 spec 里的规则」。

这和我之前看到的一个观察呼应:孩子王的 CTO 提到「销冠人脑蒸馏」,把隐性经验显性化。两个不同行业的团队在做同一件事——把人的经验变成可复用的系统。

当然,这里有个没人明说的焦虑:当研发经验被沉淀为 spec,工程师的不可替代性在哪里?

答案可能是:在发现根因和控制回归的能力上。AI 能生成代码,但不能判断这段代码在真实业务中会不会出问题。能判断的人,才是真正不可替代的。

🔗:Slax Note AI Coding 重构复盘


意图驱动 UX:从操作员到监督员

尼尔森(Jakob Nielsen)在一篇新文章里提出了一个可能改变交互设计范式的判断:我们正在从「命令式」交互转向「意图驱动」交互。

在命令式时代,你一步步点。在意图驱动时代,你说要什么,AI 自己想怎么做。人的角色从 operator(操作员)变成了 supervisor(监督员)——你不再亲自干活,而是管理「数字司机」。

这意味着传统那套「学得快、点得少、不迷路」的可用性指标,都得重写。

他提出了一整套新架构:意图层 + 编排层 + 直接操作层。新的可用性指标包括「意图捕获率」(AI 有没有理解你到底要什么)、「校对效率」(你纠正 AI 的速度)、「信任校准」(你对 AI 输出的信任度是否合理)。

他还提到了一个有趣的概念:「慢 AI」。不是所有场景都需要 AI 立刻给出答案。有时候故意加一点摩擦,让用户有时间审视 AI 的推理过程,反而能建立更好的信任关系。

这让我想到本期体验碎周报里提到的懂车帝的双主按钮问题。在选图界面,上下各有一个主按钮——上面是「发布」,下面是「完成」。两个按钮颜色、形状、视觉权重几乎一致。用户在专注选图时,大脑的直觉系统会自动寻找那个代表「确认」的品牌色块,于是经常误触「完成」把没传完的图发出去。

这个案例和「慢 AI」的概念有异曲同工之处。好的交互设计不是让用户永远快速到达目的地,而是在关键节点上设置恰当的确认机制。懂车帝的问题不是按钮太多,而是两个按钮的逻辑层级不一致——在选图的临时容器(Modal)里,全局出口(发布)应该被暂时降级,而不是和「完成」平起平坐。

意图驱动 UX 的核心也是这个道理。不是让用户永远不用思考,而是让 AI 在理解意图后给出可审校的输出,用户在关键决策点上保留否决权。

🔗:发现意图:设计人工智能用户体验


🛠️ 效率工具

Mockdown:用纯文本画线框,喂给 AI

这个工具做了一个很直接的假设:AI 比你啰里啰嗦地描述「左边一个搜索框、下面一张表、右下一个分页」更擅长读结构化文本。

所以它做了一个可视化线框编辑器。你拖拖拽拽拼出按钮、表单、表格、导航,然后一键导出成结构清晰的 Markdown。把这个 Markdown 丢进 Claude Code、Cursor 或 Copilot,模型照着 ASCII 线框图写代码。

这个思路的本质是把「沟通成本」从「人→人」转移到了「人→AI」。人跟人说需求,经常需要反复确认、画草图、举例子。人跟 AI 说需求,一份结构化的 Markdown 可能比十分钟的语音更准确。

有趣的是,这也呼应了上面 Slax Note 团队的 spec 驱动理念。不管是谁来写代码,一份清晰的规格文档是前提。Mockdown 只是把这个前提做得更轻量了——不需要写长篇文档,画个线框就行。

🔗:Mockdown


sipsip.ai:信息河流的浓缩器

你订了一堆 YouTube 频道、播客、PDF 报告,但真正点开看的那一刻少得可怜。sipsip.ai 的主线能力很清晰:给它一个入口(YouTube / 播客 / 本地音视频 / PDF / 文章 URL),它帮你搞定转录、结构化摘要、要点提炼,然后每天早上推一份你关注源的更新浓缩版。

它的价值不在于「帮你看了」,而在于「帮你判断哪些值得看」。

Daily Brief 模式很关键。不是每次更新都推,而是每天早上汇总。这本质上是一种信息节食——不是不吃,而是有节制地吃。对于已经被信息过载压得喘不过气的人来说,这种「有人帮你先嚼一遍」的体验,可能比再多一个好工具都有用。

🔗:sipsip.ai


为所有 Agent 统一 Skill 库

电脑上开着 Claude Code、Cursor、OpenClaw、Trae,各自有一套 Skills。装一次 Skill 要重复好几遍,版本还经常不同步。

这篇文章的核心解法很工程师:用软链接做一个中央 Skill 文件夹,让所有 Agent 的 skills 目录都指向同一个地方。维护这一份中央库,所有工具即时跟随更新。配合 Git 做版本管理和多设备同步,Skill 变成个人的长期资产,而不是散落在各个软件里的临时配置。

这个思路的价值在于它解决了一个正在变大的问题:随着 AI 工具的碎片化,个人的「AI 工作流资产」正在被分散到太多地方。统一的 Skill 库是一个应对策略。

它本质上是在做一件传统开发者早就在做的事——dotfiles 管理。只是现在,这个概念被扩展到了 AI Agent 的配置层面。

🔗:统一 Skill 库方案


🌍 AI 硬件出海

不写进 BP 的大实话

四个不同赛道的 AI 硬件 CEO 讲了点融资时不会说的实话。

Demeter Robot 为规避国内农业非标场景的改造难题,直接出海欧美利用其标准化农场。本质是「用中国的 PPI 对标欧美的 CPI」——中国的硬件成本优势打欧美的服务价格溢价。

ALLTIME 万物时发现欧美用户对治愈系「赛博盘串」的接受度超预期,产品定位在跨文化中自然分化为「宠物陪伴」或「解压美学」。同一个产品,在不同文化里找到了不同的价值锚点。

Wavenote 为追求极简体验,不惜投入高昂成本将两个按键合而为一。这揭示了硬件为抹平用户体验门槛所付出的残酷取舍——软件上多写几行代码的事,硬件上可能要重构整个工业设计。

Sipeed 矽速科技直面供应链现实,指出「内存比金子还贵」的地缘政治与成本压力,迫使团队加快透明化开源以应对猜忌。

贯穿这些案例的潜台词是:技术决定上限,而中国成熟的供应链体系与灵活的本土化策略,才是支撑 AI 硬件出海活下去的生存底线。

这不是什么秘密。但由一线创业者在融资 BP 之外说出来,还是很有参考价值。

🔗:AI 硬件出海实话


📡 行业观察

GEO 造假手册:当优化变成魔术

一位卧底交付员的自述,揭开了 GEO 行业数据造假的两个关键手法。

其一,推荐率的邪修算法。将同一词包内各关键词的推荐率简单相加而非求平均,使 1% 的真实推荐率在报告中呈现为 100% 甚至更高。

其二,用设备数偷换搜索次数。通过模糊分母定义将极低的真实曝光率放大为可观的推荐率。

这听起来像是 SEO 时代的旧把戏换了个新名字。但它的危害更大。因为 GEO 的评估标准比 SEO 更模糊——AI 的引用不像搜索引擎排名那样可以客观测量。这就给了造假更大的空间。

反过来说,这也提醒了 GEO 从业者:真正可持续的 GEO 优化,靠的不是数据魔术,而是内容本身的质量。AI 会引用什么,最终取决于它认为什么可信。

🔗:GEO 行业数据造假手册


Claude Design:Figma 的背景板时刻

一篇文章形象地说清楚了 Figma 面临的困局。

Figma 的功能是弥合需求策划和落地实现之间的 GAP。但现在的 Agentic Coding 已经在越来越多的编程语言种类中达到需求即代码、代码即交付的状态。当设计师可以直接用 Claude Design 从提示词生成可交付方案,为什么还需要一个中间协作工具?

Figma 团队没犯什么错,对 AI 的探索也非常积极。但无奈地成为了证明模型公司想象力的背景板。

这和之前 AI 写小说投七猫被拒的案例形成了有趣的对比。七猫的编辑 AI 能识别出「节奏把控、爽点设计、情绪感染力」的缺失,说明在内容质量评估上,AI 已经能做出人类编辑级别的判断。而 Claude Design 能直接生成设计稿,说明在内容生产上,AI 也在逼近专业水平。

生产 + 评估,AI 在两端同时推进。中间的 GAP 越来越窄。

Figma 的应对策略可能不是对抗这个趋势,而是找到自己的新定位——也许是从「设计协作工具」变成「设计系统管理平台」,也许是从「设计师的工具」变成「产品和工程之间的翻译层」。

但无论如何,这个过渡期不会轻松。

🔗:Thoughts around Claude Design


✨ 随便看看

  • 漕河泾的年轻人:上周爆火的文章,受访对象大多拥有宽松的家庭氛围,上学时能花大量时间在游戏上,毕业后从事相关工作。环境的宽容度对职业选择的影响,比想象中更大。原文
  • AI 做会议纪要是生产力幻觉:产出增加不等于效益增加,AI 完成不等于人已掌握。当会议纪要越来越容易生成,真正的问题是谁来看、看了之后做了什么。原文
  • The creation of instant coffee:和 AI 无关的内容。速溶咖啡的发明历史比大多数人想象的更有趣——它是战争、化学工业和商业创新的交汇产物。有时候脱离屏幕看看这些故事,大脑需要呼吸。原文
  • Codex 拖拽开启 macOS 权限:把 App 图标拖进系统权限面板就完成了权限开启。拖拽是 macOS 用户最熟悉的交互范式,零学习成本。详情
  • Faces:用官网做产品演示:把自己官网做成一份交互式在线幻灯片,点进去的瞬间就体验了核心卖点。不需要冗长的功能罗列,滑两下就懂了。详情
  • Ian Handdrawn PPT:给 AI Agent 用的画图说明书,把文字内容变成中文手绘技术解释图,21:9 封面,16:9 正文,每页一整张 PNG。详情
  • WhatsTheWeb 浏览器扩展:在当前页面直接打开侧边栏,显示网站访问量、流量来源、SEO 体检、技术栈探测,一站式站点情报。详情
  • Google 图标设计风格转变:从强制四色扁平化回到渐变与玻璃拟态,呼应 Gemini AI 的视觉语言。Material Design 的设计语言可能也要换说法了。详情
  • 单篇 100 万阅读的内容公式:选题占 50%,标题占 20%,开头占 10%,正文占 20%。六条标准:逻辑层层递进、开头反常识制造冲突、持续设置阅读钩子、高信息密度、可操作的解决方案、独特节奏与风格。详情

The Why·Liam·Blog by WhyLiam is licensed under a Creative Commons BY-NC-ND 4.0 International License.

WhyLiam创作并维护的Why·Liam·Blog采用创作共用保留署名-非商业-禁止演绎4.0国际许可证

本文首发于Why·Liam·Blog (https://blog.naaln.com),版权所有,侵权必究。

本文永久链接:https://blog.naaln.com/2026/05/newsletter-119/