2025 年,LLMs 的「幽灵革命」如何悄然改变我们的世界?

想象一下,一个既能在数学难题中展现出天才思维,又可能被简单的提示骗得团团转的「智能体」。这不是科幻小说中的角色,而是 2025 年的语言模型(LLMs)的真实写照。它们不再是单纯的工具,而更像是一种「幽灵智慧」——一种完全不同于人类、却又与我们深度交织的新型存在。
过去一年,LLMs 的发展不仅令人惊叹,还带来了许多颠覆性的变化。让我们一起来看看,这场技术浪潮中,哪些趋势正在重新定义人工智能的边界。
2025 年,LLM 训练的技术栈迎来了一个重要的新阶段——基于可验证奖励的强化学习(RLVR)。在此之前,LLM 的训练主要依赖于两个步骤:预训练和监督微调(SFT),以及通过人类反馈进行强化学习(RLHF)。然而,这些方法有一个共同的限制:它们依赖于人为标注的数据,难以深入优化复杂的推理能力。
RLVR 的出现改变了这一切。通过在自动化环境中设置明确、不可操控的奖励机制(例如数学或代码问题),LLMs 学会了生成类似于人类「推理」的策略。它们开始将问题分解为多个中间步骤,并尝试多种解法来回推导结果。这种能力在过去的技术框架下几乎是不可能实现的。




