Why·Liam·Blog

人生若如初見

AI 技术正在高速演进,从模型能力的跃升到产品形态的不断革新,如何在复杂性与可用性之间做出有效取舍,是每个产品人和工程师都必须面对的现实问题。本期我们聚焦两个关键主题:其一是构建 Agent 系统与工作流系统的设计原则与实践方法,其二是 AI 产品如何达成 Product-Market Fit(PMF)。同时,我们也梳理了 DeepSeek 最新模型的推理创新进展,帮助你把握技术前沿。我的感受是,今天构建 AI 应用已经不仅是拼技术,更是拼对场景、拼对节奏、拼对成本——洞察这些机制,是我们穿越 AI 泡沫的关键。

在 AI 系统设计中,工作流系统强调可预测性和流程控制,适用于任务路径清晰的场景;而 Agent 系统则适用于任务路径不确定、需动态决策的开放性问题。当前主流开发趋势不再盲目追求复杂的 Agent 框架,而是鼓励以增强型 LLM 为基础,构建可组合、易调试、透明的类 Agent 系统。最佳实践是从提示链、路由、并行、编排、评估等基本模式出发,通过量化评估与迭代优化,组合出最适配特定任务的解决方案。Anthropic 的建议明确指出,开发者应优先直接调用 LLM API,框架使用需确保对底层机制有充分理解。系统复杂性的提升只有在带来明显效果增益时才值得引入,这种「从简出发、按需加码」的工程思路,是未来 Agent 系统构建的主流路径 [1]

AI 产品成功的关键,不仅在技术领先,更在是否精准击中真实需求(PMF)。Cursor 团队以 Vim 为灵感,从底层重构开发体验,结合 Claude 3.5 能力突破,完成了技术与需求的深度耦合;而 Arc 虽在设计美学上表现出众,却因功能堆叠与方向模糊未能获得广泛市场认同。AI 时代的 PMF 需要新的衡量维度:不仅要「技术能做」,还要「成本可控」「用户愿买」。从案例中可以提炼三点经验:第一,PMF 不能只依赖早期极客小样本;第二,功能聚焦优于面面俱到;第三,实践中对需求真实反馈的获取比空想更具价值。这些都提醒我们,在构建 AI 产品时,理解技术 - 市场 - 体验的三元动态,而非一味迷信模型能力,是产品成败的分水岭 [2]

DeepSeek 推出的 Prover-V2 模型针对 Lean 4 形式化系统进行定制优化,采用「复杂定理 - 子目标 - 结构草图 - 形式化语言」的递归式证明流水线,实现了对复杂数学问题的自动化分解与合成。模型采用了两个关键技术路径:其一是使用通用 LLM 生成证明计划与结构,其二是调用小型专用 Prover 模型进行子目标递归求解。该方式显著提升了模型在数学推理中的精度与效率,标志着 AI 在形式化逻辑领域的一次深度迈进。这类「任务结构化 + 模型协同分工」的模式或将成为高复杂度 AI 任务解决的新范式,为教育、科学、工程等场景提供更高质量的知识生成基础 [3]

阅读全文 »

当前 AI 发展呈现出三个显著特征:技术民主化(低代码平台降低使用门槛)、系统透明化(算法原理的主动公开)、交互人性化(心理学模型的引入)。这些趋势共同指向一个核心命题:人工智能的终极价值不在于替代人类,而是通过增强人类的认知边界与创造力,构建新型的人机协作生态。当开发者开始思考「如何向 AI 提出好问题」时,这不仅是技术应用层面的进步,更预示着人机关系正在从单向指令模式向双向启发模式进化。未来,随着技术架构的持续优化与跨学科思维的深度融合,AI 有望在保持技术先进性的同时,真正成为人类思维的延伸与共创伙伴。

OpenAI 近期发布了针对企业客户的三份研究报告,其中《构建 AI 代理的最佳实践指南》(A Practical guide to building AI agents) 尤为值得关注。该指南专为探索如何构建首个智能体的产品和工程团队设计,提炼了众多客户部署中的见解,形成了实用且可操作的最佳实践。
报告提供了识别有前景用例的框架,指导企业如何在实际业务中有效应用 AI 代理技术。它强调了从小规模试点开始,逐步验证效果,再拓展应用范围的迭代思路,确保 AI 代理能够在实际业务场景中发挥最大价值 [1]
OpenAI 的报告指出,AI 代理 (Agents) 与传统工作流 (Workflow) 有显著区别,AI 代理能够以高度独立的方式代表用户执行任务。报告还详细介绍了何时选择单智能体系统或多智能体系统的适用场景,以及实现不同功能的简单代码方法 [2]

在内容创作领域,AI 正展现出强大的辅助能力。基于 MCP(模型上下文协议)思路,创作者可以快速搭建小红书灵感选题器,实现内容创作的智能化。
这一工具的核心功能包括:输入关键词,获取趋势数据、内容结构建议等。通过阿里云百炼平台,创作者可以编写高效的 Prompt 提示词,实现快速的内容灵感获取。这种工具不仅节省了内容创作者的时间,还提高了内容创作的效率和质量 [3]
随着 AI 技术在内容创作领域的应用越来越广泛,我们可以预见未来会有更多类似工具出现,帮助创作者更高效地生产内容,实现内容创作的智能化和个性化。

近期,抖音在其官网上公开了平台推荐算法的逻辑及用户行为预测机制,这一举措对创业者和用户均具有重要的参考价值。长期以来,推荐算法常被 “ 妖魔化 “,显得神秘莫测,而此次公开透明化尝试有助于打破这种误解 [4]
抖音推荐算法的核心逻辑可以简化为 “ 推荐优先级公式 “:综合预测用户行为概率×行为价值权重=视频推荐优先级。推荐算法通过各种 “ 目标 “ 来预估用户行为,比如将视频观看时长作为用户兴趣的指标 [5]
抖音推荐算法的本质是一个信息过滤系统,通过分析用户的历史行为,预测用户的喜好,从而实现高效的信息匹配。这一公开透明的做法不仅有助于用户理解平台内容推荐机制,也有助于创作者更好地适应平台规则,创作出更符合用户需求的内容 [6]

阅读全文 »

这篇内容来自「少楠」的分享,实在找不到原链接了。

这是 Marc Andreessen 在 2013 年的一篇文章,他提出了一个有趣的概念:结构化拖延。其核心思想并非对抗拖延,而是巧妙地利用拖延的时间来完成其他有价值的任务。

为了更好地实践结构化拖延,Andreessen 建议维护以下三个清单:

  • TODO:必须完成的任务(按时间排序):这是优先级最高的任务列表,需要按照截止日期或重要性进行排序。
  • 观察:需要持续跟进的事项:这个清单记录了需要长期关注和监测的事项,例如产品上线后的数据、运营活动的效果、以及个人的长期变化(健康、投资等)。这类事项往往不紧急但很重要,容易被遗忘。
  • 稍后:未来想做但不紧急的任务:这个清单用于记录一些想法和未来的计划,暂时不需要立即执行。

建议每天睡前写下第二天必须完成的三件事,并在醒来后优先处理。即使看起来任务不多,坚持完成也能带来成就感。同时,记录下当天完成的清单外事项,帮助自己了解时间的实际流向,而不是为了指责自己。

阅读全文 »

人工智能领域正经历前所未有的快速发展与变革。随着 AI 技术的不断发展,我们可以预见未来将出现更多创新应用和商业模式。AI 将不仅是一种技术工具,更将成为推动社会进步和经济增长的重要力量。在这个过程中,开放协作的生态将加速创新,而技术与伦理的平衡将成为 AI 发展的关键考量。

OpenAI 近期发布了两款突破性 AI 模型——o3 和 o4-mini,它们能通过图像进行推理,并可自主调用多种工具,被专家称为人工智能能力的一次飞跃式提升。这些推理模型是 OpenAI”o 系列 “ 的最新成员,经过训练后,它们能在响应前进行更长时间的思考,是 OpenAI 迄今为止发布的最智能、最强大的模型。
这些模型的突出特点包括:

  1. 图像思维能力:o3 和 o4-mini 能够 “ 看到 “ 图像并以此进行思考,将图像信息有效融入到自己的思维链中。用户可以上传白板笔记、草图和其他图像内容,让 AI 进行分析与讨论 [1]
  2. 自主工具调用:这些模型兼容使用 ChatGPT 内的所有工具,包括网页搜索、图像生成和使用 Python 进行数据分析等功能。它们不仅能判断何时使用工具,还能决定如何使用工具,从而提供经过深思熟虑的详细回答 [2]
  3. 性能提升:在数学竞赛、编程、指令遵循和工具调用方面,o3 和 o4-mini 取得了显著进步。o3 在 AIME 2024 数学竞赛题目中的准确率达 91.6%,在 Codeforces 编程竞赛评分中取得了 2706 的 ELO 分数,显示出在复杂数学与代码任务中的强大推理与执行能力 [3]
  4. 应用案例:在一次展示中,用户询问电池技术的新突破对电动车的潜在影响,o3 模型在经过 40 秒的推理后,不仅可以生成丰富的文字内容,还能生成相关的图像和图表数据 [2]

OpenAI 近期宣布计划在未来几个月内发布自 GPT-2 以来首个 “ 开放权重 “ 模型,这一决定标志着 OpenAI 在技术策略上的重要转变:

阅读全文 »

过去一周,AI 领域呈现出技术快速迭代、开源生态繁荣发展的态势。DeepSeek 引领开源浪潮,OpenAI 宣布开源新模型计划,Gemini 持续迭代更新,Anthropic 的 Claude 模型在代码能力上表现出色,AI Agent 能力呈现「摩尔定律」式增长,Prompt 工程成为 AI 交互的关键技术。
这些发展表明,AI 技术正以前所未有的速度向前推进,开源生态日益繁荣,技术融合不断深化,应用领域持续拓展。随着中美 AI 大模型性能差距的缩小,全球 AI 竞争格局正在重塑,中国在 AI 领域的影响力正在提升。
未来,随着 AI 技术的不断发展和普及,我们将看到更多创新应用的出现,AI 将为各行各业带来更深远的变革,推动社会生产力的提升和人类文明的进步。

斯坦福 HAI 研究所发布的《2025 年人工智能指数报告》显示,中美顶级 AI 大模型性能差距已大幅缩小至 0.3%,接近抹平 [1]。报告评选出 2024 年全球 61 个重要 AI 大模型,其中谷歌、OpenAI 和阿里分别入选 7 个、7 个和 6 个 [1]
这一差距的显著缩小主要归功于中国 AI 技术的快速发展。开源模型在 2024 年迎头赶上,顶尖开源模型与顶尖闭源模型之间的差距大幅减小。2024 年 1 月初,领先闭源模型的表现比顶级开源模型高出 8.0%,而到 2025 年 2 月,这一差距已大幅缩小 [2]

DeepSeek 凭借其出色的成本效益、惊人的推理速度以及开源生态,迅速崛起成为 AI 领域的明星产品。2025 年 2 月,DeepSeek 的访问量达 5.25 亿次,超过 ChatGPT 的 5 亿次,市场份额达到 6.58%,仅次于 ChatGPT(43.16%) 和 Canva(8.27%)[3]
DeepSeek 的技术优势主要体现在以下几个方面:

  1. 成本效益:DeepSeek V3 的完整训练仅需 2.788M H800 GPU 小时,训练过程仅用约 2000 张二流芯片,大幅降低了 AI 开发成本 [4]
  2. 性能卓越:在教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩,性能已与领先闭源模型 GPT-4o 相当 [5]
  3. 全面的开源生态:DeepSeek 的开源项目几乎覆盖了 AI 基础设施的方方面面,包括存储 (3FS)、计算 (DeepEP)、通信 (smallpond)、数据处理 (FlashMLA) 等 [6]
阅读全文 »

前段时间在产品设计过程中注意到:iPhone 的每个按键竟然如此小巧。 这些按键排列紧密,每个尺寸甚至小于指尖,且几乎没有触觉反馈来帮助判断是否准确按下。手指容易遮挡目标按键,导致用户无法确认实际点击的是哪个键。按照传统直觉来看,这样的设计似乎不可行,理应遭到坚决反对。

然而,事实却正好相反。用户从未对此提出不满,反而习惯并认可了这一设计。这种「看似反直觉」的设计,最终成为智能手机行业的标准配置之一。

在 iPhone 发布前,市面上的智能手机主要采用两种实体键盘设计:全键盘设备(如黑莓)滑盖键盘手机。前者具备真实的触觉反馈和盲打能力,但占用了大量屏幕空间;后者虽在外观上更紧凑,但受限于机械结构,可靠性和耐用性都存在问题。

第一代 iPhone 项目启动时,乔布斯提出了一个坚定不移的原则:必须使用纯触摸屏,完全取消物理键盘。 他明确表示:

面对团队质疑,乔布斯的态度强硬——「要么接受触控屏,要么就滚蛋。」

阅读全文 »

在技术层面,GPT-4o 的图像生成能力大幅提升,MCP 协议推动 AI 模型无缝协作,DeepSeek 在医疗等领域的应用不断深化,这些都为 AI 技术的发展注入了新的动力。

在应用层面,AI 技术在零售、金融、医疗、能源等多个行业实现了广泛落地,推动了这些行业的数字化转型和智能化升级。同时,随着 AI 技术的不断发展和应用场景的不断拓展,我们可以期待看到更多创新应用的出现,进一步推动 AI 技术的发展和应用。

在学术研究方面,ICLR 2025 会议汇聚了众多关于大语言模型和智能体的前沿研究,这些研究为 AI 技术的发展提供了重要的理论基础和实践指导。通过解决多智能体协作系统的扩展性问题,赋予 LLM 代理个性化特征,研究人员可以开发出更强大、更灵活的 AI 系统,为各种应用场景提供更丰富、更自然的交互体验。

OpenAI 于 3 月 28 日宣布对 ChatGPT 的基座模型 GPT-4o 进行重大升级,并对所有付费用户开放使用。这次更新主要聚焦四大核心部分:多指令解析优化、技术问题处理增强、逻辑推理与决策能力提升 [1]。更新后的 GPT-4o 在图像生成能力方面表现尤为突出:

阅读全文 »

在 AI 技术加速迭代的当下,大模型正在以颠覆性的方式重塑行业生态。
大模型的「去工程化」能力虽可能挤压中小团队的生存空间,但同时也为开发者提供了新的创作接口——通过低代码工具链快速整合 API 资源,形成差异化竞争力。值得关注的是,技术普惠与巨头垄断的矛盾或将持续存在,开发者需在技术迭代中找到「人机协作」的新平衡点。

OpenAI 推出的 GPT-4o 在文本 - 图像对齐技术上实现质的飞跃,其生成质量与控制精度显著超越现有模型。通过简化工作流程,该模型不仅可精准生成吉卜力风格等复杂图像,更通过自然语言交互降低创作门槛。技术层面,其多模态能力支持透明通道生成、UI 设计修改等专业场景,使创意行业的工作流效率大幅提升。但这也带来行业集中化隐忧:大模型的「一站式」解决方案可能削弱创业公司通过垂直工具突围的机会,倒逼开发者转向更高阶的创意价值创造。

OpenAI 复制吉卜力,大模型正在吞噬一切产品?

GPT-4o 的真正突破在于将复杂图像操作转化为自然语言对话。用户无需掌握专业提示词或技术参数,即可完成换脸、风格迁移等高阶任务。其支持透明通道图片生成与 UI 设计稿直接修改,标志着图像生成技术从「技术驱动」向「需求驱动」转变。文中强调,技术成熟的核心在于「消解复杂性」,通过简化交互逻辑实现人机本质转变。这种变革不仅提升创意行业效率,更预示着未来 AI 工具将更注重「意图理解」而非「操作门槛」。

阅读全文 »

MCP(Model Context Protocol)的核心价值在于定义了应用程序与 AI 模型间标准化的上下文信息交换机制。通过这套协议,开发者能够以统一的方式连接各类数据源、工具和功能到 AI 模型,无需为每个特定场景开发独立适配器。[1]

传统 AI 系统集成外部工具时面临显著挑战。每个 API 都需要独立处理代码实现、文档学习、认证机制、错误处理和持续维护,这种碎片化的开发模式极大增加了系统复杂度。[2] 在 MCP 出现前,AI 助手与外部工具的每次交互都需要预先编码和 API 调用,这种手工对接方式效率低下且难以规模化。

更严峻的是配置组合爆炸问题。假设存在 1000 个 AI 助手和 1000 个外部工具,传统方式需要开发 100 万(1000×1000)个独立连接,而 MCP 通过标准化协议将这个数字降低到 2000(1000+1000)。这种数量级的效率提升重构了智能体生态的连接范式。

打个比方:API 就像是不同的门,其中每扇门都有自己独特的钥匙和使用规则:

阅读全文 »

一年一度的 Mac Software 整理如期而至,本次是因为新入手了 Mac mini。谁叫这个价格实在是太香了。

去年的见:2024-08-mac-software

Homebrew 是 Mac 上非常强大的包管理工具,可以方便地安装和管理各种软件。

阅读全文 »
0%