Manus 的调研与思考
Manus[1],是中国的创业公司 Monica 发布的全球首款通用 Agent(自主智能体)产品。Manus 定位于一位性能强大的通用型助手,对于用户不仅仅是提供想法,而是能将想法付诸实践,真正解决问题。
Manus 作为全球首款真正意义上的通用 AI Agent,具备从规划到执行全流程自主完成任务的能力,如撰写报告、制作表格等。它不仅生成想法,更能独立思考并采取行动。以其强大的独立思考、规划并执行复杂任务的能力,直接交付完整成果,展现了前所未有的通用性和执行能力。据团队介绍,Manus 在 GAIA 基准测试中取得了 SOTA(State-of-the-Art)的成绩,显示其性能超越 OpenAI 的同层次大模型。
GAIA(General AI Assistant Benchmark)是专门评估通用 AI 助手能力的基准测试。其核心特点包括:
- 任务复杂度 :要求完成多步骤跨平台操作(如网页搜索→数据下载→表格处理→生成报告)
- 真实性 :模拟现实办公场景(如处理 PDF/Excel/邮件附件等格式文件)
- 工具集成 :测试浏览器操作、API 调用、本地文件系统交互等综合能力
- 评分标准 :成功率、步骤优化度、结果准确率三维度评估
L61_重构组织形态与技术边疆的破界时刻
在 AI 技术加速迭代的浪潮中,我们正见证着人类社会组织形态与技术应用范式的双重变革。从 AI 原生公司的组织实验到 GPT-5 的技术突破,从企业数字化转型的阵痛到人机协作模式的哲学思辨,这场变革正在重塑商业逻辑、工作形态乃至社会结构。
AI 发展已进入「创造性破坏」的关键阶段:一方面,DeepSeek 等工具正在瓦解传统科层制组织的合理性;另一方面,黄仁勋的「十五个大饼」预示着硬件革命将重构技术边疆。这种撕裂与重构的张力中,真正的机遇或许属于那些既能驾驭 AI 工具又能保持人性化创新的组织形态。但需警惕的是,在追求效率最大化的竞赛中,我们不应让技术理性完全吞噬人类创造力的混沌之美。
AI 原生公司正在颠覆传统企业架构,创始人通过编排 AI 代理网络实现小团队运作。这种模式以「非必要不雇人」为原则,利用 AI 工具将传统需要数十人的工作压缩至几人完成。Paul Jarvis 的「一人公司」理念在此得到进化,创始人从管理者转变为系统设计师。但该模式面临三重挑战:创意障碍可能导致同质化、AI 过度迎合用户偏好、决策责任模糊化。解决方案包括保留人工创意环节、构建对抗性 AI 系统、建立透明决策框架。这种组织实验揭示出,未来的商业竞争将更多是系统设计能力的较量。
L60_未来发展的双引擎
在人工智能技术快速迭代的浪潮中,我们看到两条并行不悖的发展主线:技术突破带来的生产力革新与商业叙事构建的市场价值创造。从 OpenAI 的 Deep Research 展现的端到端任务处理能力,到中国 AI 企业以惊人性价比挑战技术霸权;从 Agent 模式对传统工作流的颠覆可能,到商业叙事在资本市场中的战略价值——这些现象共同勾勒出 AI 时代「技术 + 商业」双轮驱动的创新图谱。
真正的行业引领者既需要像 DeepSeek 那样用算法突破技术天花板,也需要具备比尔·盖利所言的「重构估值体系」的叙事智慧,这种硬实力与软实力的结合,或将重新定义未来十年的科技竞争格局。
基于端到端强化学习的 AI Agent 正在重塑知识工作范式。OpenAI 开发的 Deep Research 系统通过 o3 推理模型的微调版本,展现出在医疗研究、市场分析等场景中生成万字级结构化报告的能力。其技术突破体现在三个维度:通过网站信息聚合实现跨平台数据整合,利用强化学习优化搜索推理路径,以及构建用户意图理解与任务分解的闭环系统。当前已实现的旅行规划、代码开发等应用场景,预示着未来在个性化教育、私有数据分析等领域的扩展潜力。值得关注的是,这种「思考型 AI」正在改变传统的人机协作模式,将原本需要数小时的研究工作压缩至分钟级,但同时也引发了关于信息溯源与决策透明度的新思考。
「PDAA 循环」问题驱动行动系统
最近,完成了述职,感觉稍微空一点,又开始折腾笔记软件了。
过去半年,我执着于寻找「完美方案」。Obsidian 的稳定性与开放性确实满足了我的基础需求。但当我将「管理混乱」归咎于工具时,却忽略了更本质的真相:「工具的价值,在于它是否能延伸你的行动力。」(彼得·德鲁克语)
重读《原则》《终身成长》时,我试图将 PMK(个人管理知识体系)、PDCA(计划 - 执行 - 检查 - 行动循环)等方法论融入日常,却发现它们如同精致的瓷器——「过于完美的系统,往往经不起现实的磕碰。」 当系统与个人节奏、认知成本产生冲突时,工具反而成了束缚行动的绳索。
L59_社会变革与技术新纪元
Ray Dalio 认为,美国未来五年将面临国内极化、AI 竞赛加速与全球秩序瓦解的挑战。贫富差距、教育鸿沟和党派对立可能导致社会进一步撕裂,而 AI 技术的发展虽提升经济效率,却也带来更大不平等和治理难题。全球 AI 竞争缺乏统一协调机制,中美在该领域各有优势,但仍存技术扩散与地缘冲突的风险。Dalio 强调,人类需通过社区建设、教育改革和价值观引导,让科技服务于共同福祉,以避免社会陷入失序。
L58_推理、平权与全球博弈
DeepSeek、千问和 O3 背后的推理语言模型(RLM)融合大型语言模型的广度、强化学习的探索深度以及高性能计算的强大算力,实现从简单预测到系统化推理的跃迁。RLM 由推理、训练、数据生成三大流程构成,并结合树状结构和蒙特卡洛搜索优化决策路径。其模块化蓝图降低了研发门槛,推动学术与应用创新,同时提供实验框架「x1」,支持快速原型设计,帮助开发者构建适用于不同场景的智能推理系统。
推理模型创新大爆发,DeepSeek、千问、O3 背后的基础技术科普
L57_开启AI竞赛新纪元
Grok-3 凭借数学领域 87.2% 的准确率(较 GPT-5 提升 23%)、代码生成 Benchmark 92.4 分的成绩,刷新了 AGI 领域的性能天花板。其独创的神经架构搜索技术,使模型参数量突破 2 万亿仍保持高效推理能力。值得注意的是,Chatbot Arena 竞技场中用户自发测试的 1.3 万组对话数据显示,其多轮对话连贯性得分达 4.81/5.0(行业均值 3.92)。
闭源策略虽加速技术迭代,但可能加剧行业马太效应,中小开发者更需关注开源生态建设。
L56_让 AI 学会「深度思考」
DeepSeek 对数据标注极为重视,甚至传闻创始人梁文锋也亲自参与。AI 领域除了算法和技术,数据的精准度至关重要。特斯拉在标注方面的投入是中国自动驾驶行业的 20 倍,他们的策略是寻找驾驶经验丰富的人进行标注,从而优化自动驾驶能力。而在机器人训练中,特斯拉挑选小脑健康的人来标注动作,确保机器人的动作更加丝滑。DeepSeek 在数据标注上的精细化投入,正是其模型效率出色的关键。
L55_你又在绘制新的航线了吗
在模型的预训练阶段,Scaling Laws 的效果确实有所放缓,但在后训练和多模态模型的场景下,数据的 Scaling 仍然有显著的提升空间。有研究员从 Scaling 的原理出发,认为模型在第一阶段的性能提升依赖于从小模型到大模型的「非线性到线性」转变。然而,当模型已经足够大时,这种转变的效果难以预测,预训练的效果可能会趋于瓶颈。尽管如此,研究员们并不认为预训练的 Scaling Laws 已经完全结束,尤其是在多模态模型中,数据的 Scaling Laws 仍有许多未被探索的领域。目前,许多公司选择大力投入后训练,主要是出于性价比的考虑。