Why·Liam·Blog

人生若如初見

在 AI 技术不断升级的浪潮中,各大厂商正以不同策略应对创新与安全、开放与控制、能力与信任的博弈。OpenAI 的「安全优先」让开源生态面临进一步推迟,xAI 的 Grok 4 则用更激进的姿态标榜突破,但仍需面对内容与偏见机制的问题;而 Perplexity 以 Comet 进入 AI 浏览器赛道,试图重塑用户体验,但也面临技术可靠性与版权约束的挑战。这个夏天,AI 领域正从模型算力逐步转向平台落地与信任机制的深水区。

2025 年 7 月 12 日,OpenAI CEO Sam Altman 在 X 上宣布,将无限期推迟原计划在未来几周公开发布的「open-weight」(即可下载模型权重的)开源大模型,原因是需要进行「额外的安全测试,并审查高风险领域」。该发布已在一个月前延期,当时被推迟到「今夏稍后」[1]。Altman 强调,「模型一旦公开,无法收回」,因此在未达高标准之前不敢贸然发布。这是 OpenAI 在 GPT‑5 时代展开前沿技术的一步谨慎举措,也体现了他们在技术突破与责任式部署之间的平衡态度。业内前高层将 GPT‑4 比作「优秀高中生」,而 GPT‑5 的目标则是「博士水平」——公众期待值之高可想而知。但发布节奏的反复延缓,也让人不禁思考,在 AI 安全理念日趋重要的当下,这是否会成为开源生态长久分歧的源头之一。

与此同时,埃隆·马斯克旗下的 xAI 于 7 月 9 日(北京时间 7 月 10 日)推出了新一代模型 Grok 4,并声称其为「世界上最强 AI 助手」。官方宣称该模型在推理速度和多模态处理方面实现「Big Bang Intelligence」式突破,新增编程能力与五种语音模式,定位直指 GPT‑5 和 Claude 4 Opus 等领先产品 [2]。不过,Grok 系列此前曾因「自称 MechaHitler」这样的仇恨言论而引发争议,xAI 后续在 GitHub 上调整机制,试图改善偏见生成问题。此外,最新版本被发现会「在回答问题时优先搜索马斯克本人观点」,进而引发是否偏向马斯克立场的客观性质疑 [3]。种种迹象表明,虽然 Grok 4 在技术能力层面标榜顶尖,但真要构建起稳固的信任与中立体系,仍然任重道远。

同一周,Perplexity AI 在 Nvidia、贝佐斯和软银支持下,于 7 月 9 日发布了名为 Comet 的 AI 驱动浏览器,入局被称作「AI 浏览器之战」的新赛道。依托 Chromium 核心,Comet 将 Perplexity 的 AI 搜索助手整合到浏览器侧边栏,用户可实时询问、总结网页内容,并直接进行产品对比、邮件预订、行程安排等操作。订阅制定为每月 200 美元,仅限 Perplexity Max 用户先行体验,后续采用邀请制逐步放开。Perplexity 强调其隐私策略,通过本地存储避免训练个人数据,与依赖云端信息的大厂产品形成鲜明对比 [4]。CEO Aravind Srinivas 表示,大厂可以复制 AI 驱动搜索功能,但很难复制其复杂的底层交互机制 [5]。然而,市场质疑也随之而来,有媒体指出 Comet 偶尔「幻觉」错误,如预定机场停车时日期错乱;而该公司也因使用新闻媒体内容未获得授权而遭到批评 [6]。此举不只是浏览器功能的一次进化,更代表 AI 平台级服务与用户信任较量的新战场。

阅读全文 »

Meta 从 OpenAI 挖走人才,显示出对顶尖研究力量的争夺已进入白热化;微软则通过裁员和重组销售团队来适应 AI 方案销售的新需求,这种从「卖产品」到「卖服务」的转变让我觉得,企业技术落地的竞争正在变得越来越具体和务实。阿里巴巴砸下 530 亿美元投入 AI 和云计算,背后不仅是商业野心,更是一种应对全球技术割裂的战略防御。

与此同时,OpenAI 面临内部动荡和外部合作压力,暴露出在快速扩张中平衡使命与利益的困难。而谷歌、Meta 和微软等公司在 AI 体验上的更新,如主动聊天机器人、语音搜索增强、个性化体育观赛工具等,虽然看起来像是功能迭代,但它们共同指向了一个方向:AI 正在悄悄渗透进用户日常习惯之中,成为不可见却不可或缺的一部分。

Meta 豪掷千金「挖角」OpenAI,AI 人才争夺战进入白热化

本周,AI 行业的人才争夺战急剧升温。为了组建其全新的「超级智能实验室」(MSL),Meta 公司向竞争对手 OpenAI 的核心研究员们发起了猛烈攻势,成功挖走至少 8 名顶尖人才。据报道,Meta 开出的薪酬包极具诱惑力,部分可能高达数亿美元,尽管 Meta 官方否认了最高数字。此举不仅是为了弥补其 Llama 4 模型在市场上反响平平后的技术差距,更被视为一种直接削弱竞争对手核心研发能力的战略打击。OpenAI 内部对此反应激烈,其高管在内部信中将此比作「有人闯进家里偷走了东西」,可见其冲击之大。这场「挖人大战」标志着 AI 领域的竞争已从单纯的技术竞赛,升级为对顶尖人才的战略性围猎。原文链接

阅读全文 »

人工智能领域的发展呈现出一种动态、混沌而又极具变革性的态势。最显著的趋势是,AI 正以前所未有的速度从云端的抽象算法,转变为普通用户触手可及的工具和深入现实世界的物理实体。本周,我们见证了大量旨在「普惠化」的 AI 工具涌现,它们极大地降低了内容创作、软件开发乃至科学分析的门槛。与此同时,科技巨头之间围绕顶尖人才、算力基础设施和战略数据资源的争夺战愈演愈烈,其激烈程度堪比一场无声的军备竞赛。

更重要的是,AI 的应用正在从实验室走向现实世界,深刻地影响着生命科学、医疗诊断和工业制造等关键领域。从解码人类基因组到在工厂产线上部署人形机器人,AI 的实际影响力正在具体化。然而,这种飞速的进步也伴随着日益严峻的治理挑战和安全危机。从内部的「安全与利润」之争,到外部的网络攻击与信息操纵,整个行业正努力在技术狂飙与社会责任之间寻找平衡。本周的事件清晰地表明,AI 革命的下一阶段,不仅关乎技术创新,更关乎我们如何负责任地引导这股力量,以确保其最终能造福全人类。

一系列重大产品发布与模型更新,描绘了先进 AI 能力从专业精英走向普通用户的轨迹,AI 技术正以前所未有的速度「民主化」。HeyGen 发布的 Video Agent 工具,以一种高度自动化的方式彻底重塑了视频内容的生产流程,用户只需提供素材,AI 即能完成构思、场景安排与成片生成,无需专业知识即可产出媲美商业标准的视频成果;Anthropic 的 Artifacts 功能,则以「自然语言对话构建应用」的创新方式,让任何人都能低门槛地创造自己的数字工具,从简单的网站、小游戏到复杂的企业内部系统,全部可通过与 AI 的几轮交流构建成形;与此同时,谷歌在其 Gemini 生态系统中引入了面向开发者的 CLI 接口,让 AI 在代码生成、调试优化、命令执行等任务中成为开发者贴身的智能助手,而这些能力也在进一步强化 Gemini 取代 Google Assistant 的战略部署,后者将于 7 月 7 日起在 Android 系统中全面替代原有助手角色,带来更具操作性的 AI 中枢体验。原文链接

不仅限于软件,AI 也在以设备形态进入我们的日常环境,小米推出的 AI 智能眼镜将拍摄、语音识别与虚拟助理功能集于一身,让佩戴者能够用第一人称视角记录生活、实时查询信息或控制家庭设备,正标志着「环境计算」时代的到来;在创意内容的音视频生成领域,ElevenLabs 的移动语音合成应用与 Midjourney 的文本生成视频模型均表现出极强的易用性与质量优势,使个人创作者可以在几分钟内完成过去需专业团队协作数天才能产出的作品,视频、音频的创作门槛被进一步拉低,创意本身得以回归其最初的灵感与表达,而非受限于工具复杂性。

阅读全文 »


一些科技巨头因过度承诺而陷入困境,另一些则进一步巩固了其市场主导地位。与此同时,在远离法庭和董事会的实验室里,科学家们正教会机器如何去触摸、感知,甚至以全新的方式进行思考。这不仅仅是关于新产品的一周,更是关于一个行业在成长阵痛中经历范式转移的一周。

苹果 AI 承诺落空,股东怒提集体诉讼:苹果公司及其首席执行官蒂姆·库克(Tim Cook)陷入了一场法律风波。股东们提起了集体诉讼,指控该公司就其 AI 进展,特别是为 iPhone 16 承诺的「苹果智能」(Apple Intelligence)Siri 新功能,发表了「严重虚假和误导性」的声明。诉讼核心在于,苹果在 2024 年 WWDC 上夸大宣传 AI 功能,实际却无原型产品,且明知需至 2026 年才能上线,最终导致销量受损与股价下跌,投资者遭受重大损失。更多参考

谷歌搜索新时代:AI 生成内容主导超 50% 查询:谷歌的「AI 概览」(AI Overviews)现已出现在超 50% 的搜索结果中,由 Gemini 2.5 提供支持。这意味着传统搜索模式正在让位于 AI 主导的答案生成,对 SEO 策略构成冲击。企业将需从「排名靠前」转变为「成为 AI 摘要引用来源」,整个数字经济规则正在重塑。更多参考

机器人拥有「触觉」:能感知热、痛和压力的新型皮肤问世:研究人员开发出可感知多种刺激的柔性机器人皮肤,拥有 86 万 + 信号通路,并借助机器学习进行解释。它能显著提升假肢使用者的触感体验,以及工业机器人在协作中的安全性与人机互动的自然度。更多参考

16 岁创始人打造千万美元 AI 公司,点燃科技创业新浪潮:普兰贾莉·阿瓦斯蒂(Pranjali Awasthi)年仅 16 岁,创办的 Delv.AI 致力于将学术内容结构化,其估值已达 1200 万美元。这反映出强大模型 API 与活跃资本生态正激励更多年轻创业者投身 AI。更多参考

阅读全文 »

AI 领域呈现出技术迭代加速、应用场景扩展、企业战略调整和投资热度上升的特点。从模型能力的提升到实际应用的落地,从开源社区的活跃到商业化的推进,AI 技术正以前所未有的速度改变着各行各业。
OpenAI 的 o3-Pro 和 Sora 模型、谷歌的 Veo3 视频生成模型、Mistral 的 Magistral 推理模型等技术突破,代表了 AI 发展的最新方向。苹果、微软、字节跳动等科技巨头的战略布局和产品发布,则展现了 AI 应用的广阔前景。

OpenAI 推出了最新推理模型 o3-Pro,正式取代之前的 o1-Pro 模型,已登陆 ChatGPT Pro/Team 版。该模型在科学、教育、编程领域表现出色,人类测评胜率达 64%,展现出强大的推理能力 [1]
o3-Pro 模型具有三大升级亮点:

  1. 在专家测评中全面优于 o3 模型,尤其在科学、教育、编程和数据分析场景表现卓越
  2. 学术评估显示其数理与代码能力突出
  3. 独创 “4/4 可靠性 “ 评估体系:要求模型需连续四次正确应答才算通过 [1]
    功能突破方面,o3-Pro 模型支持网页搜索、文件解析、视觉推理、Python 执行和记忆个性化响应等实用功能 [1]

谷歌 DeepMind 发布了 AlphaZero、MuZero 和 AlphaDev 三大 AI 工具,分别用于提高数据中心资源利用率、提升视频压缩效率和发现更快算法 [2]
其中,AlphaDev 发现的新算法将短元素序列的排序效率提高 70%,其新排序算法已发布到 C++ 库中,为算法优化提供了新的思路 [2]

阅读全文 »

OpenAI 推出了实用的连接器和记录模式功能,提升企业协作效率;Anthropic 对 Windsurf 断供引发争议,部分用户转向 Cursor;Cursor 1.0 则通过新增 Bugbot、Jupyter 支持等功能,展现了其成为跨场景 AI IDE 的野心,同时 ElevenLabs v3 在多模态与多语言支持上的突破进一步巩固了其在 TTS 领域的领先地位。

OpenAI 近期未推出大型模型,而是聚焦于两项实用功能:连接器(Connectors)记录模式(Record Mode)

  • 连接器:支持与 Google Drive、Box、SharePoint、OneDrive 和 Dropbox 等云服务的无缝集成。这对中小企业尤为实用,ChatGPT 可跨平台搜索信息并回答问题。一位印度工程师在演示中展示了如何利用此功能查询产品数据和用户反馈,快速生成季度规划文档,令人心动。
  • 记录模式:桌面端新增 AI 会议记录功能,类似现有 AI 会议软件。用户可记录会议或语音笔记,ChatGPT 自动转录、提取要点并生成摘要和待办事项,点击摘要还能查看原始转写。目前已在 macOS 上向团队用户推出,更多用户群体即将解锁。

此外,企业管理员还能自定义添加 MCP(模型上下文协议),连接专有系统,进一步提升深度研究能力。

阅读全文 »

人工智能正在从一个概念演变为一种基础技术。这种转变不仅体现在新工具的出现,更在于行业运作方式和价值创造模式的根本性变革。人工智能对职业和专业的影响,进一步证明了这种转型是系统性的,而非表面化的。

此外,人工智能正在引发一场从「互联网」到「智能」的平台级转变。玛丽·米克尔的报告将人工智能比作「移动或云计算」的「历史性平台转变」[1]。这意味着人工智能不仅仅是一项附加技术,而是一个新的基础层,将重新定义界面、用户交互和商业模式。从「应用程序到智能体」的转变 [1] 直接体现了这一点,预示着未来人工智能将超越简单的辅助功能,自主处理任务。这对公司如何设计产品以及用户如何与技术互动产生了深远的影响。

自主智能体(Agentic AI)指的是能够自主启动行动、规划步骤并完成任务的系统,无需持续的人工干预 [2]。这意味着人工智能不再仅仅回答问题,而是主动执行工作 [2]。例如,OpenAI 的 o1 模型专为链式思考而设计,结合记忆和规划工具,这些智能体能够安排会议、分析报告或管理工作流程 [3]。高德纳咨询公司预测,到 2028 年,33% 的企业应用程序将包含自主智能体,使 15% 的工作决策能够自动完成 [3]。这一趋势预计将成为知识工作的核心组成部分,改变金融、法律和项目管理等领域的预期 [2]

人工智能从反应式工具到主动决策者的转变,预示着其在自动化任务方面的巨大潜力。然而,这种能力的提升也同时加剧了人们对「安全性、对齐和偏见缓解」的担忧 [3]。当人工智能变得更加自主时,确保其可靠性和道德行为的风险也随之增加,这使得道德考量和强大的监督变得至关重要。

阅读全文 »

红杉资本对 Workday CEO Carl Eschenbach 的访谈 [1] 揭示了传统 SaaS 企业如何在守住基本盘的同时,完成 AI 时代的战略升级。

1. 从成本思维转向增长思维

Eschenbach 指出:「AI 的讨论不应局限于 ROI,而应转向增长价值。」通过将 AI 视作「赋能员工」的工具,而非替代者,有助于企业更顺畅地导入 AI 能力,推动组织采纳。

2. 构建 AI Agent 的人事管理体系

阅读全文 »

2025 年已被业内视为「AI 智能体元年」,而 AI 设计工具的革新则为「设计即代码」注入强大动力。DeepSeek R1、Claude 3.7、GPT 4.5 等模型迭代,奠定了 Agent 技术发展的基础;Figma Make 与 Lovart.AI 等工具则以新范式重塑设计与开发的边界。面对多模态细节、商业化和协同挑战,行业需进一步完善技术与生态。站在「智能体团队」与「设计即服务」的交汇点,从业者唯有持续学习、敏锐洞察,方能在这一波浪潮中抢占先机,实现从通用能力竞争到垂直场景深耕的跨越。

2025 年 Q1 以来,国内首款推理模型 DeepSeek R1 发布,凭借低成本、高性能路径,实现了接近国外主流 LLM 的效果,突破了芯片封锁限制,并推动中小企业将关注点从模型研发转向应用落地。国外厂商纷纷跟进:Claude 3.7 在代码生成与交互体验上表现卓越,GPT 4.5 则以高情商对话和低幻觉率为卖点;但其使用成本明显较高 [1]

多模态模型在丰富应用场景上具有天然优势。目前可分为:

  • 专业级工作流(如 ComfyUI),支持自定义流程与极致细节,但对硬件要求高;
  • 对话式生成(Midjourney、Gemini、生图 GPT),可通过多轮交互细化创意;
  • 轻量级工具(即梦、可灵),兼顾易用性和成本,在国内即梦 3.0 质量领先。
阅读全文 »
0%