ChatGPT 的发展

发表于 2022-12-12 更新于 2026-07-22 分类于 AI & Systems Waline：

生成式预训练变换器（GPT）从第一代到第三代的演进历程，分析各代在网络结构、参数量与任务表现上的差异。第一代模型具备基础语言理解与分类能力，泛化效果有限；第二代通过增大参数与数据首次展示强大文本生成与创作潜能；第三代进一步成为大规模统计语言模型，无需微调即可在翻译、摘要、代码生成、算术等多任务上实现接近或超越人类的性能，展现通用人工智能的可能。

该蹭的热点还是要蹭的。

什么是 GPT？从 GPT-1 到 GPT-3

Generative Pre-trained Transformer (GPT)，是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。

2018 年， GPT-1 诞生，这一年也是 NLP（自然语言处理）的预训练模型元年。性能方面， GPT-1 有着一定的泛化能力，能够用于和监督任务无关的 NLP 任务中。其常用任务包括：

自然语言推理：判断两个句子的关系（包含、矛盾、中立）
问答与常识推理：输入文章及若干答案，输出答案的准确率
语义相似度识别：判断两个句子语义是否相关
分类：判断输入文本是指定的哪个类别

虽然 GPT-1 在未经微调的任务上有一些效果，但其泛化能力远低于经过微调的有监督任务，因此 GPT-1 只能算得上一个还算不错的语言理解工具而非对话式 AI。

GPT-2 也于 2019 年如期而至，不过， GPT-2 并没有对原有的网络进行过多的结构创新与设计，只使用了更多的网络参数与更大的数据集：最大模型共计 48 层，参数量达 15 亿，学习目标则使用无监督预训练模型做有监督任务。在性能方面，除了理解能力外， GPT-2 在生成方面第一次表现出了强大的天赋：阅读摘要、聊天、续写、编故事，甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在「变得更大」之后， GPT-2 的确展现出了普适而强大的能力，并在多个特定的语言建模任务上实现了彼时的最佳性能。

之后， GPT-3 出现了，作为一个无监督模型（现在经常被称为自监督模型），几乎可以完成自然语言处理的绝大部分任务，例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。而且，该模型在诸多任务上表现卓越，例如在法语 - 英语和德语 - 英语机器翻译任务上达到当前最佳水平，自动产生的文章几乎让人无法辨别出自人还是机器（仅 52% 的正确率，与随机猜测相当），更令人惊讶的是在两位数的加减运算任务上达到几乎 100% 的正确率，甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好，似乎让人们看到了通用人工智能的希望，可能这就是 GPT-3 影响如此之大的主要原因。

GPT-3 模型到底是什么？

实际上， GPT-3 就是一个简单的统计语言模型。从机器学习的角度，语言模型是对词语序列的概率分布的建模，即利用已经说过的片段作为条件预测下一个时刻不同词语出现的概率分布。语言模型一方面可以衡量一个句子符合语言文法的程度（例如衡量人机对话系统自动产生的回复是否自然流畅），同时也可以用来预测生成新的句子。例如，对于一个片段「中午 12 点了，我们一起去餐厅」，语言模型可以预测「餐厅」后面可能出现的词语。一般的语言模型会预测下一个词语是「吃饭」，强大的语言模型能够捕捉时间信息并且预测产生符合语境的词语「吃午饭」。

通常，一个语言模型是否强大主要取决于两点：首先看该模型是否能够利用所有的历史上下文信息，上述例子中如果无法捕捉「中午 12 点」这个远距离的语义信息，语言模型几乎无法预测下一个词语「吃午饭」。其次，还要看是否有足够丰富的历史上下文可供模型学习，也就是说训练语料是否足够丰富。由于语言模型属于自监督学习，优化目标是最大化所见文本的语言模型概率，因此任何文本无需标注即可作为训练数据。

由于 GPT-3 更强的性能和明显更多的参数，它包含了更多的主题文本，显然优于前代的 GPT-2。作为目前最大的密集型神经网络， GPT-3 能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本，甚至模仿已故的各位哲学家——预测生命的真谛。且 GPT-3 不需要微调，在处理语法难题方面，它只需要一些输出类型的样本（少样本学习）。可以说 GPT-3 似乎已经满足了我们对于语言专家的一切想象。

参考文献：