L78_数字工作伙伴的升级与未来

最近,我参加了 OpenAI 的技术直播,重点发布内容是全新的 ChatGPT Agent。这个产品不仅是对现有 ChatGPT 的扩展,更像是一次对「数字工作伙伴」概念的全面升级。
Agent 能够自主判断任务所需的工具,整合了 Operator、Deep Research 和 ChatGPT 本体三者的能力。换句话说,它不再是被动响应,而是主动分析、执行复杂流程的智能体。
Agent 的核心能力有哪些
- 统一架构设计:Operator、Deep Research 和 ChatGPT 融合为一体,实现真正意义上的统一智能体系统;
- 工具链丰富:具备图文浏览器、终端和 API 调用器等多种工具,支持手机端使用;
- 深度连接工作流:可接入 Gmail、GitHub 等第三方应用,嵌入到我的日常工作流中;
- 任务执行智能化:任务完成后会主动推送结果,无需手动检查;
- 高性能和高配额:Pro 用户每月可获得 400 次调用,其他付费用户也有 40 次,并支持按需扩容。
这些能力在真实场景中展现得非常直观。以下是发布会中三个具有代表性的应用案例:
- 根据请柬中的信息(时间、地点、着装),Agent 搜索并推荐合适的服装和礼物,并给出理由和购买链接;
- 自动设计贴纸、比价、下单,同时还能响应临时指令(如推荐鞋子);
- 根据 MLB 赛程规划一条完整的观赛路线,包含城市、交通、住宿和可视化路线图,结果以表格形式输出。
我对比了其他平台的实现
为了进一步理解 ChatGPT Agent 的优势,我对比了当前市场上几款具代表性的智能体系统:
| 能力维度 | ChatGPT Agent | Manus | Skywork |
|---|---|---|---|
| 技术架构 | 统一整合 Operator、Deep Research 与 ChatGPT 本体 | 多智能体系统,支持 200+ 工具和多层级接入 | 多模态智能体协作框架 AgentOrchestra |
| 执行方式 | 可运行代码、浏览网页、生成文档等,自动推送结果 | 操作过程透明、可中断与手动接管 | 全流程自动化执行,强调办公场景的内容输出优化 |
| 任务规划 | 强化学习驱动路径动态调整 | 使用任务树算法实时优化 | 顶层调度与底层分工协作,支持跨模态逻辑推理 |
| 学习与记忆能力 | 当前未提及显式的用户偏好记忆 | 可记忆用户行为偏好以优化后续任务流程 | 多模态奖励机制优化模型泛化能力,尚未提供偏好记忆功能 |
| 应用场景 | 生活服务、通用办公 | 专业研究、教育创意等多个领域 | 内容创作、自动化办公、学术写作等专业场景 |
这个对比让我更清楚地认识到,ChatGPT Agent 的亮点不仅在于工具融合,还在于它执行任务的流畅度和结果呈现的完整性,尤其适合需要高可靠输出的实际工作。
AI 行业其他重要进展
除了 OpenAI,其他公司近期也有不少值得关注的新动态:
- 推出 AI 自动通话功能,结合 Gemini 模型,用户在搜索服务时,AI 可直接帮忙拨打电话、预约、甚至协商价格;
- Gemini 嵌入模型在 MTEB 排行榜中得分 68.37,超越 OpenAI 的 58.93,展现了在嵌入表达能力上的技术领先;
- NotebookLM 推出公共笔记库,用户可浏览知名媒体和研究者的笔记,并基于内容提问和总结。
百度
- 推出 Tizzy.ai,无广告搜索助手,强调「干净」、「直达」;
- AI 助手上线视频通话功能,拓展对话边界,适应更多生活场景。
开发工具相关
- MiniMax 推出一键构建全栈应用的 Agent,支持 Supabase、Stripe、Cron Job 等后端功能;
- AWS 推出 Kiro IDE,主打「规范驱动开发」,集成 Claude 模型,致力于提升开发一致性和效率;
- 月之暗面开源 Kimi K2,具备 1T 参数、128k 上下文窗口和复杂指令解析能力,强调代码与 Agent 场景兼容性。
内容生成与创作工具
- 秘塔 AI 搜索开放「深度研究」模式,整合全网信息、生成结构化报告,并以网页形式交付;
- 通义千问发布 Qwen Chat 桌面客户端,支持快速唤起和本地资源管理;
- PresentAgent 可将文档转化为配音演示视频,节省制作幻灯片和录音的时间;
- PixVerse 支持多关键帧视频生成,提高叙事连贯性和场景掌控力;
- 美图推出 RoboNeo,整合图像处理与网页搭建功能,支持一站式图像需求;
- B 站发布 IndexTTS2,开放本地语音合成模型,支持情绪克隆与语音风格控制。
The Why·Liam·Blog by WhyLiam is licensed under a Creative Commons BY-NC-ND 4.0 International License.
由WhyLiam创作并维护的Why·Liam·Blog采用创作共用保留署名-非商业-禁止演绎4.0国际许可证。
本文首发于Why·Liam·Blog (https://blog.naaln.com),版权所有,侵权必究。
本文永久链接:https://blog.naaln.com/2025/07/newsletter-78/