Liam's Notes

L69_设计工具革新

发表于 2025-05-16 分类于 AI & Systems Waline：

2025年AI智能体元年到来，大语言模型快速迭代推动智能体技术发展。DeepSeek R1、Claude 3.7、GPT4.5等模型奠定基础，多模态模型在专业工作流、对话生成、轻量工具等场景深入应用。智能体商业化规模庞大，从2024年51亿美元预计增至2030年471亿美元。华为、微软、亚马逊等企业案例验证实际应用价值。Figma Make践行设计即提示理念，Lovart.AI成为首个专业设计A

设计工具革新

2025 年已被业内视为「AI 智能体元年」，而 AI 设计工具的革新则为「设计即代码」注入强大动力。DeepSeek R1、Claude 3.7、GPT 4.5 等模型迭代，奠定了 Agent 技术发展的基础；Figma Make 与 Lovart.AI 等工具则以新范式重塑设计与开发的边界。面对多模态细节、商业化和协同挑战，行业需进一步完善技术与生态。站在「智能体团队」与「设计即服务」的交汇点，从业者唯有持续学习、敏锐洞察，方能在这一波浪潮中抢占先机，实现从通用能力竞争到垂直场景深耕的跨越。

2025 年 Q1 以来，国内首款推理模型 DeepSeek R1 发布，凭借低成本、高性能路径，实现了接近国外主流 LLM 的效果，突破了芯片封锁限制，并推动中小企业将关注点从模型研发转向应用落地。国外厂商纷纷跟进：Claude 3.7 在代码生成与交互体验上表现卓越，GPT 4.5 则以高情商对话和低幻觉率为卖点；但其使用成本明显较高 ^[1]。

多模态模型在丰富应用场景上具有天然优势。目前可分为：

专业级工作流（如 ComfyUI），支持自定义流程与极致细节，但对硬件要求高；
对话式生成（Midjourney、Gemini、生图 GPT），可通过多轮交互细化创意；
轻量级工具（即梦、可灵），兼顾易用性和成本，在国内即梦 3.0 质量领先。

阅读全文 »

L68_从教育挑战到投资机遇

发表于 2025-05-09 分类于 Product & Intelligence Waline：

AI以惊人速度改变教育与企业，推动交互范式从读心到织网，成为社交货币与创作入口。Figma把设计即代码变为现实；AI编程产品分AI IDE与VibeCoding两类。中国AI投资由模型叙事转向应用价值，投资者建议在技术未收敛期持续迭代，选择真正兴奋方向。教育体系面临普遍AI作弊与诚信挑战，评估需转向批判性思维与创造力。数据与垂直Agent正在企业落地，重塑工作流与协作方式。拥抱变化警惕风险，方能

从教育挑战到投资机遇

AI 技术正在以惊人的速度改变我们的生活和工作方式。从教育到商业，从设计到投资，AI 的影响无处不在。把握这些趋势，不仅需要关注技术本身的发展，更要理解其在各领域的应用和带来的变革。
随着技术的不断发展和应用场景的不断拓展，AI 将继续重塑我们的世界。教育系统需要转型，更注重培养 AI 无法替代的能力；企业需要重新思考工作流程和管理方式；设计师和开发者需要适应新的工具和工作方式；创业者需要关注 AI 带来的新机遇。
在这个 AI 快速发展的时代，我们需要保持开放的心态，积极拥抱变化，同时也要警惕潜在的风险和挑战。只有这样，我们才能在这个新的技术浪潮中乘风破浪，创造更加美好的未来。

AI 技术正在深刻改变教育领域，既带来了机遇也带来了挑战。

根据相关研究，AI 作弊已成为大学教育中普遍存在的现象。一项面向 1000 名大学生的调查显示，近 90% 的学生使用了生成式 AI 完成作业。这种趋势不仅限于编程等技术课程，甚至在英语、法律、原住民研究等人文课程中也十分普遍 ^[1]。
在哥伦比亚大学等顶尖学府，学生坦言几乎所有作业都是通过生成式 AI 完成的。一位学生表示他提交的每篇论文约有 80% 是由 AI 撰写的，他只添加约 20% 的「人性」和自己的声音 ^[1]。这种现象已经蔓延到各个层次的教育机构，从大型州立大学、常春藤盟校，到职业学院和社区大学，学生们在学习的各个环节都开始依赖 AI。

AI 的普及正在动摇传统教育的基础。教育机构的诚信体系面临严峻考验，零宽容政策往往难以执行。教师们越来越常见到语言生硬但语法完美、听起来不像是人写的论文。然而，研究发现大多数教授无法准确识别 AI 生成的内容，一项研究中教授们错过了 97% 的 AI 生成作业 ^[1]。
更令人担忧的是，这种依赖 AI 完成作业的趋势可能导致学生批判性思维能力的下降。加州州立大学奇科分校的伦理学教授特洛伊·乔利莫尔表示：「我们可能正在见证一整代人的学习被严重削弱，学习过程正在被短路，而且来得非常快。」^[1]

阅读全文 »

L67_聚焦Agent系统构建

发表于 2025-05-02 分类于 AI & Systems Waline：

围绕智能体系统与工作流系统的构建，提出以增强型大语言模型为基础的可组合、易调试、透明化实践，指出系统复杂性只在效果显著提升时值得引入；通过Cursor与Arc的案例揭示AI产品在技术、成本与真实需求之间的匹配边界，强调聚焦核心场景、获取真实反馈的关键；介绍DeepSeek新模型在Lean4形式化证明中的递归分解与模型协同，展现提升数学推理精度与效率的新范式。

聚焦Agent系统构建

AI 技术正在高速演进，从模型能力的跃升到产品形态的不断革新，如何在复杂性与可用性之间做出有效取舍，是每个产品人和工程师都必须面对的现实问题。本期我们聚焦两个关键主题：其一是构建 Agent 系统与工作流系统的设计原则与实践方法，其二是 AI 产品如何达成 Product-Market Fit（PMF）。同时，我们也梳理了 DeepSeek 最新模型的推理创新进展，帮助你把握技术前沿。我的感受是，今天构建 AI 应用已经不仅是拼技术，更是拼对场景、拼对节奏、拼对成本——洞察这些机制，是我们穿越 AI 泡沫的关键。

在 AI 系统设计中，工作流系统强调可预测性和流程控制，适用于任务路径清晰的场景；而 Agent 系统则适用于任务路径不确定、需动态决策的开放性问题。当前主流开发趋势不再盲目追求复杂的 Agent 框架，而是鼓励以增强型 LLM 为基础，构建可组合、易调试、透明的类 Agent 系统。最佳实践是从提示链、路由、并行、编排、评估等基本模式出发，通过量化评估与迭代优化，组合出最适配特定任务的解决方案。Anthropic 的建议明确指出，开发者应优先直接调用 LLM API，框架使用需确保对底层机制有充分理解。系统复杂性的提升只有在带来明显效果增益时才值得引入，这种「从简出发、按需加码」的工程思路，是未来 Agent 系统构建的主流路径 ^[1]。

AI 产品成功的关键，不仅在技术领先，更在是否精准击中真实需求（PMF）。Cursor 团队以 Vim 为灵感，从底层重构开发体验，结合 Claude 3.5 能力突破，完成了技术与需求的深度耦合；而 Arc 虽在设计美学上表现出众，却因功能堆叠与方向模糊未能获得广泛市场认同。AI 时代的 PMF 需要新的衡量维度：不仅要「技术能做」，还要「成本可控」「用户愿买」。从案例中可以提炼三点经验：第一，PMF 不能只依赖早期极客小样本；第二，功能聚焦优于面面俱到；第三，实践中对需求真实反馈的获取比空想更具价值。这些都提醒我们，在构建 AI 产品时，理解技术 - 市场 - 体验的三元动态，而非一味迷信模型能力，是产品成败的分水岭 ^[2]。

DeepSeek 推出的 Prover-V2 模型针对 Lean 4 形式化系统进行定制优化，采用「复杂定理 - 子目标 - 结构草图 - 形式化语言」的递归式证明流水线，实现了对复杂数学问题的自动化分解与合成。模型采用了两个关键技术路径：其一是使用通用 LLM 生成证明计划与结构，其二是调用小型专用 Prover 模型进行子目标递归求解。该方式显著提升了模型在数学推理中的精度与效率，标志着 AI 在形式化逻辑领域的一次深度迈进。这类「任务结构化 + 模型协同分工」的模式或将成为高复杂度 AI 任务解决的新范式，为教育、科学、工程等场景提供更高质量的知识生成基础 ^[3]。

阅读全文 »

L66_从技术实践到生态探索

发表于 2025-04-25 分类于 AI & Systems Waline：

当前AI发展呈现技术民主化、系统透明化、交互人性化三大特征，OpenAI发布构建AIAgents最佳实践指南帮助企业部署智能体应用，AI技术在内容创作领域实现小红书选题自动化，抖音公开推荐算法原理强调用户行为预测，提示词工程成为优化AI回应的关键技术，乔哈里视窗模型被应用于优化Prompt交互，MCP技术生态实现AI与外部工具标准化连接，提升人机协作效果的关键在于向AI提出高质量问题。

Pasted image 20250428002016

当前 AI 发展呈现出三个显著特征：技术民主化（低代码平台降低使用门槛）、系统透明化（算法原理的主动公开）、交互人性化（心理学模型的引入）。这些趋势共同指向一个核心命题：人工智能的终极价值不在于替代人类，而是通过增强人类的认知边界与创造力，构建新型的人机协作生态。当开发者开始思考「如何向 AI 提出好问题」时，这不仅是技术应用层面的进步，更预示着人机关系正在从单向指令模式向双向启发模式进化。未来，随着技术架构的持续优化与跨学科思维的深度融合，AI 有望在保持技术先进性的同时，真正成为人类思维的延伸与共创伙伴。

OpenAI 近期发布了针对企业客户的三份研究报告，其中《构建 AI 代理的最佳实践指南》(A Practical guide to building AI agents) 尤为值得关注。该指南专为探索如何构建首个智能体的产品和工程团队设计，提炼了众多客户部署中的见解，形成了实用且可操作的最佳实践。
报告提供了识别有前景用例的框架，指导企业如何在实际业务中有效应用 AI 代理技术。它强调了从小规模试点开始，逐步验证效果，再拓展应用范围的迭代思路，确保 AI 代理能够在实际业务场景中发挥最大价值 ^[1]。
OpenAI 的报告指出，AI 代理 (Agents) 与传统工作流 (Workflow) 有显著区别，AI 代理能够以高度独立的方式代表用户执行任务。报告还详细介绍了何时选择单智能体系统或多智能体系统的适用场景，以及实现不同功能的简单代码方法 ^[2]。

在内容创作领域，AI 正展现出强大的辅助能力。基于 MCP（模型上下文协议）思路，创作者可以快速搭建小红书灵感选题器，实现内容创作的智能化。
这一工具的核心功能包括：输入关键词，获取趋势数据、内容结构建议等。通过阿里云百炼平台，创作者可以编写高效的 Prompt 提示词，实现快速的内容灵感获取。这种工具不仅节省了内容创作者的时间，还提高了内容创作的效率和质量 ^[3]。
随着 AI 技术在内容创作领域的应用越来越广泛，我们可以预见未来会有更多类似工具出现，帮助创作者更高效地生产内容，实现内容创作的智能化和个性化。

近期，抖音在其官网上公开了平台推荐算法的逻辑及用户行为预测机制，这一举措对创业者和用户均具有重要的参考价值。长期以来，推荐算法常被 “ 妖魔化 “，显得神秘莫测，而此次公开透明化尝试有助于打破这种误解 ^[4]。
抖音推荐算法的核心逻辑可以简化为 “ 推荐优先级公式 “：综合预测用户行为概率×行为价值权重=视频推荐优先级。推荐算法通过各种 “ 目标 “ 来预估用户行为，比如将视频观看时长作为用户兴趣的指标 ^[5]。
抖音推荐算法的本质是一个信息过滤系统，通过分析用户的历史行为，预测用户的喜好，从而实现高效的信息匹配。这一公开透明的做法不仅有助于用户理解平台内容推荐机制，也有助于创作者更好地适应平台规则，创作出更符合用户需求的内容 ^[6]。

阅读全文 »

结构化拖延

发表于 2025-04-19 分类于 Notes & Essays Waline：

将拖延转化为动力的实用方法：维护三个清单——必须完成的任务、需持续跟进的事项、未来不紧急的想法；睡前写下次日三件优先事，醒来先处理；不要最小化承诺，用伪压力任务驱动行动；减少承诺、一天仅两次邮件与电话、谨慎答应他人，释放精力专注真正重要的事情。

这篇内容来自「少楠」的分享，实在找不到原链接了。

这是 Marc Andreessen 在 2013 年的一篇文章，他提出了一个有趣的概念：结构化拖延。其核心思想并非对抗拖延，而是巧妙地利用拖延的时间来完成其他有价值的任务。

为了更好地实践结构化拖延，Andreessen 建议维护以下三个清单：

TODO：必须完成的任务（按时间排序）：这是优先级最高的任务列表，需要按照截止日期或重要性进行排序。
观察：需要持续跟进的事项：这个清单记录了需要长期关注和监测的事项，例如产品上线后的数据、运营活动的效果、以及个人的长期变化（健康、投资等）。这类事项往往不紧急但很重要，容易被遗忘。
稍后：未来想做但不紧急的任务：这个清单用于记录一些想法和未来的计划，暂时不需要立即执行。

建议每天睡前写下第二天必须完成的三件事，并在醒来后优先处理。即使看起来任务不多，坚持完成也能带来成就感。同时，记录下当天完成的清单外事项，帮助自己了解时间的实际流向，而不是为了指责自己。

阅读全文 »

L65_从多模态推理到自主决策智能体

发表于 2025-04-18 分类于 AI & Systems Waline：

AI领域快速发展推动社会进步。OpenAI发布o3和o4-mini模型革新图像思维和自主工具调用能力，计划推出首个开放权重模型增强推理与生态活力。AI代理技术从简单工具调用演进至自主决策，深度渗透重塑各行业商业价值。提示工程在产品经理工作中显著提升需求迭代效率如周期压缩、数据分析和文档管理优化。DeepSeek以低成本高效率挑战OpenAI，OpenAI采取开放搜索和政策响应应对竞争。

从多模态推理到自主决策智能体

人工智能领域正经历前所未有的快速发展与变革。随着 AI 技术的不断发展，我们可以预见未来将出现更多创新应用和商业模式。AI 将不仅是一种技术工具，更将成为推动社会进步和经济增长的重要力量。在这个过程中，开放协作的生态将加速创新，而技术与伦理的平衡将成为 AI 发展的关键考量。

OpenAI 近期发布了两款突破性 AI 模型——o3 和 o4-mini，它们能通过图像进行推理，并可自主调用多种工具，被专家称为人工智能能力的一次飞跃式提升。这些推理模型是 OpenAI “o 系列” 的最新成员，经过训练后，它们能在响应前进行更长时间的思考，是 OpenAI 迄今为止发布的最智能、最强大的模型。
这些模型的突出特点包括：

图像思维能力：o3 和 o4-mini 能够 “ 看到 “ 图像并以此进行思考，将图像信息有效融入到自己的思维链中。用户可以上传白板笔记、草图和其他图像内容，让 AI 进行分析与讨论 ^[1]。
自主工具调用：这些模型兼容使用 ChatGPT 内的所有工具，包括网页搜索、图像生成和使用 Python 进行数据分析等功能。它们不仅能判断何时使用工具，还能决定如何使用工具，从而提供经过深思熟虑的详细回答 ^[2]。
性能提升：在数学竞赛、编程、指令遵循和工具调用方面，o3 和 o4-mini 取得了显著进步。o3 在 AIME 2024 数学竞赛题目中的准确率达 91.6%，在 Codeforces 编程竞赛评分中取得了 2706 的 ELO 分数，显示出在复杂数学与代码任务中的强大推理与执行能力 ^[3]。
应用案例：在一次展示中，用户询问电池技术的新突破对电动车的潜在影响，o3 模型在经过 40 秒的推理后，不仅可以生成丰富的文字内容，还能生成相关的图像和图表数据 ^[2]。

OpenAI 近期宣布计划在未来几个月内发布自 GPT-2 以来首个 “ 开放权重 “ 模型，这一决定标志着 OpenAI 在技术策略上的重要转变：

阅读全文 »

L64_开源浪潮与技术迭代重塑AI格局

发表于 2025-04-11 分类于 AI & Systems Waline：

开源浪潮与技术迭代重塑AI格局，斯坦福HAI报告显示中美顶级大模型性能差距缩小至0.3%。DeepSeek引领开源，成本效益与推理速度领先，覆盖AI基础设施全栈，月访问量5.25亿次，市场份额6.58%。多家厂商宣布新计划，开源与多模态能力持续提升。AI智能体呈现摩尔式增长，推理任务能力每七个月翻倍。Claude在代码能力上表现突出，提示工程成为交互关键，中国大模型快速崛起并发布行业模型与应用场景

开源浪潮与技术迭代重塑AI格局

过去一周，AI 领域呈现出技术快速迭代、开源生态繁荣发展的态势。DeepSeek 引领开源浪潮，OpenAI 宣布开源新模型计划，Gemini 持续迭代更新，Anthropic 的 Claude 模型在代码能力上表现出色，AI Agent 能力呈现「摩尔定律」式增长，Prompt 工程成为 AI 交互的关键技术。
这些发展表明，AI 技术正以前所未有的速度向前推进，开源生态日益繁荣，技术融合不断深化，应用领域持续拓展。随着中美 AI 大模型性能差距的缩小，全球 AI 竞争格局正在重塑，中国在 AI 领域的影响力正在提升。
未来，随着 AI 技术的不断发展和普及，我们将看到更多创新应用的出现，AI 将为各行各业带来更深远的变革，推动社会生产力的提升和人类文明的进步。

斯坦福 HAI 研究所发布的《2025 年人工智能指数报告》显示，中美顶级 AI 大模型性能差距已大幅缩小至 0.3%，接近抹平 ^[1]。报告评选出 2024 年全球 61 个重要 AI 大模型，其中谷歌、OpenAI 和阿里分别入选 7 个、7 个和 6 个 ^[1]。
这一差距的显著缩小主要归功于中国 AI 技术的快速发展。开源模型在 2024 年迎头赶上，顶尖开源模型与顶尖闭源模型之间的差距大幅减小。2024 年 1 月初，领先闭源模型的表现比顶级开源模型高出 8.0%，而到 2025 年 2 月，这一差距已大幅缩小 ^[2]。

DeepSeek 凭借其出色的成本效益、惊人的推理速度以及开源生态，迅速崛起成为 AI 领域的明星产品。2025 年 2 月，DeepSeek 的访问量达 5.25 亿次，超过 ChatGPT 的 5 亿次，市场份额达到 6.58%，仅次于 ChatGPT(43.16%) 和 Canva(8.27%)^[3]。
DeepSeek 的技术优势主要体现在以下几个方面：

成本效益：DeepSeek V3 的完整训练仅需 2.788M H800 GPU 小时，训练过程仅用约 2000 张二流芯片，大幅降低了 AI 开发成本 ^[4]。
性能卓越：在教育类基准测试中，DeepSeek-V3 的表现超越了所有开源模型，在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩，性能已与领先闭源模型 GPT-4o 相当 ^[5]。
全面的开源生态：DeepSeek 的开源项目几乎覆盖了 AI 基础设施的方方面面，包括存储 (3FS)、计算 (DeepEP)、通信 (smallpond)、数据处理 (FlashMLA) 等 ^[6]。

阅读全文 »

iPhone虚拟键盘的设计哲学

发表于 2025-04-09 分类于 Product & Intelligence Waline：

从iPhone小巧按键引发的疑问出发，文章梳理了全触控取代实体键盘的决策过程，阐释了Blob键盘的失败及保留QWERTY、每键单字、降低操作负担的关键教训。进而展示基于QWERTY的新方案如何通过智能联想、自动纠错、动态词库、点击评分与接触面积偏移等技术提升输入精度。最终强调以约束中创造自由的设计理念，实现看似反直觉却成功的用户体验。

前段时间在产品设计过程中注意到：iPhone 的每个按键竟然如此小巧。 这些按键排列紧密，每个尺寸甚至小于指尖，且几乎没有触觉反馈来帮助判断是否准确按下。手指容易遮挡目标按键，导致用户无法确认实际点击的是哪个键。按照传统直觉来看，这样的设计似乎不可行，理应遭到坚决反对。

然而，事实却正好相反。用户从未对此提出不满，反而习惯并认可了这一设计。这种「看似反直觉」的设计，最终成为智能手机行业的标准配置之一。

在 iPhone 发布前，市面上的智能手机主要采用两种实体键盘设计：全键盘设备（如黑莓） 与滑盖键盘手机。前者具备真实的触觉反馈和盲打能力，但占用了大量屏幕空间；后者虽在外观上更紧凑，但受限于机械结构，可靠性和耐用性都存在问题。

第一代 iPhone 项目启动时，乔布斯提出了一个坚定不移的原则：必须使用纯触摸屏，完全取消物理键盘。 他明确表示：

「我们需要的是全触控设备，不能有任何物理按键。」

阅读全文 »

L63_从大模型到智能体的全面突破

发表于 2025-04-04 分类于 AI & Systems Waline：

2025年，GPT4o在图像生成、指令解析和上下文理解方面实现突破，与ChatGPT付费用户规模增长同步；智谱发布具备深度研究与操作能力的AutoGLM沉思智能体，标志着AI从思考转向边想边干；MCP协议提供开放标准，实现模型无缝协作，提升效率；零售业引入AI智能体，实现自然语言导购、视觉库存监控和需求预测；ICLR2025收录多篇LLMAgent研究，聚焦多智能体协作可扩展性与技术栈全景图。

从大模型到智能体的全面突破

封面设计 by 宇宙特工

在技术层面，GPT-4o 的图像生成能力大幅提升，MCP 协议推动 AI 模型无缝协作，DeepSeek 在医疗等领域的应用不断深化，这些都为 AI 技术的发展注入了新的动力。

在应用层面，AI 技术在零售、金融、医疗、能源等多个行业实现了广泛落地，推动了这些行业的数字化转型和智能化升级。同时，随着 AI 技术的不断发展和应用场景的不断拓展，我们可以期待看到更多创新应用的出现，进一步推动 AI 技术的发展和应用。

在学术研究方面，ICLR 2025 会议汇聚了众多关于大语言模型和智能体的前沿研究，这些研究为 AI 技术的发展提供了重要的理论基础和实践指导。通过解决多智能体协作系统的扩展性问题，赋予 LLM 代理个性化特征，研究人员可以开发出更强大、更灵活的 AI 系统，为各种应用场景提供更丰富、更自然的交互体验。

阅读全文 »

L62_从模型突破到工具革命

发表于 2025-03-28 分类于 AI & Systems Waline：

大模型在图像生成与自然语言交互上实现突破，GPT4o支持透明通道、UI编辑和多轮对话，语音输入实现用嘴改图；MCP通过零代码快速将API转化为功能模块，推动AI工具箱的普及，指向未来创意行业向需求驱动转变，开发者需在技术迭代中寻找人机协作新平衡。

从模型突破到工具革命

在 AI 技术加速迭代的当下，大模型正在以颠覆性的方式重塑行业生态。
大模型的「去工程化」能力虽可能挤压中小团队的生存空间，但同时也为开发者提供了新的创作接口——通过低代码工具链快速整合 API 资源，形成差异化竞争力。值得关注的是，技术普惠与巨头垄断的矛盾或将持续存在，开发者需在技术迭代中找到「人机协作」的新平衡点。

OpenAI 推出的 GPT-4o 在文本 - 图像对齐技术上实现质的飞跃，其生成质量与控制精度显著超越现有模型。通过简化工作流程，该模型不仅可精准生成吉卜力风格等复杂图像，更通过自然语言交互降低创作门槛。技术层面，其多模态能力支持透明通道生成、UI 设计修改等专业场景，使创意行业的工作流效率大幅提升。但这也带来行业集中化隐忧：大模型的「一站式」解决方案可能削弱创业公司通过垂直工具突围的机会，倒逼开发者转向更高阶的创意价值创造。

OpenAI 复制吉卜力，大模型正在吞噬一切产品？

GPT-4o 的真正突破在于将复杂图像操作转化为自然语言对话。用户无需掌握专业提示词或技术参数，即可完成换脸、风格迁移等高阶任务。其支持透明通道图片生成与 UI 设计稿直接修改，标志着图像生成技术从「技术驱动」向「需求驱动」转变。文中强调，技术成熟的核心在于「消解复杂性」，通过简化交互逻辑实现人机本质转变。这种变革不仅提升创意行业效率，更预示着未来 AI 工具将更注重「意图理解」而非「操作门槛」。

阅读全文 »