L11_开放态度看待世界

发表于 2023-03-12 分类于资讯阅读次数： Waline：

ChatGPT 的背景故事，包括它的创造过程、OpenAI 对其的更新、以及它的训练方式和应用场景。
三个公式：1. 灰度思维，开放态度看待世界的可能性；2. 建立立体的人生系统，不只有单一目标；3. 相信自己有实现人生系统的能力，身体是改变身边世界的关键。
Life Audit 是一种自我反省的练习，通过清除杂乱的、外部的目标和当前的干扰，重新审视或揭示真正的主题和核心价值。

一个故事：ChatGPT 如何被创造

为了了解这款聊天机器人背后的故事——它是如何被创造的，OpenAI 自发布以来是如何更新的，以及它的创造者对其成功有什么看法——我采访了四位帮助开发这款有史以来最受欢迎的互联网应用程序之一的人。除了阿加瓦尔和费杜斯，我还采访了 OpenAI 的联合创始人约翰·舒尔曼（John Schulman）和 OpenAI 校正团队的负责人简·莱克（Jan Leike），该团队致力于让人工智能做用户想让它做的事情（仅此而已）。

自去年 11 月以来，OpenAI 已经多次更新 ChatGPT。研究人员正在使用一种称为对抗性训练的技术来阻止 ChatGPT 让用户欺骗它做出不良行为（或称越狱）。这项工作让多个聊天机器人相互对抗：一个聊天机器人扮演对手，通过生成文本来攻击另一个聊天机器人，迫使它打破通常的约束，产生不必要的响应。成功的攻击会被添加到 ChatGPT 的训练数据中，希望它能学会忽略这些攻击。

团队的部分困惑来自于 ChatGPT 内部的大多数技术都不是最新的。ChatGPT 是 GPT-3.5 的一个微调版本，GPT-3.5 是 OpenAI 在聊天机器人之前几个月发布的一系列大型语言模型。GPT-3.5 本身就是 2020 年出现的 GPT-3 的更新版本。

ChatGPT 模型是通过与 InstructGPT 相同的语言模型进行微调的，我们使用了类似的方法进行微调。添加了一些对话数据，并对训练过程进行了一些调整。所以我们不想把它说成是一个巨大的基础进步。只能说对话数据对 ChatGPT 有很大的积极影响。你可以把 ChatGPT 理解为我们已经有一段时间的人工智能系统的一个版本。它并不比我们之前的模型更强大。在 ChatGPT 出现之前，相同的基础模型已经发布 API 了将近一年。从另一个意义上说，我们让它更符合人类想要用它做的事情。它与你对话，在聊天界面中很容易访问，它试图提供帮助。

ChatGPT 的训练方式与 InstructGPT 非常相似，使用了一种名为「从人类反馈中强化学习（RLHF）」的技术。这就是 ChatGPT 的秘密武器。其基本思想是采用一个大型语言模型，该模型倾向于吐出它想要的任何东西，并通过教它人类用户更喜欢哪种类型的响应来对其进行调整。我们让一大群人阅读 ChatGPT 的提示和回复，然后判断这些回复的优劣。然后将所有这些数据合并到一次训练中。它的大部分内容与我们在 InstructGPT 中所做的是相同的。你希望它是有用的，你希望它是真实的，你希望它是——你知道——无毒的。

原文链接：

The inside story of how ChatGPT was built from the people who made it

三个公式：我应该怎么与这个世界相处？

生活里我常常被淹没在各种各样的信息里，导致我不断怀疑自己以前做的决定、以及正在做的决定是否是正确的。我应该怎么做，才能坚持自己的选择？或者怎么样才能做出『好的选择』？

当我们谈论「与这个世界相处」时，「世界」指的是什么呢？

首先是「别人」，即我们的朋友、家人、爱人、同事、陌生人，乃至我们关注的明星和 influencer。各种各样的人对我们的影响是极大的。父母让我们选择的大学专业、朋友升职的信息、明星代言的品牌、关注的大 V 说的某个观点，这些信息无时无刻不在影响我们对世界的看法。如何与这些人（及背后的信息）相处？

其次是「信息」，关注的新闻、读的书、朋友圈里的信息，这些信息是真是假？我应该相信哪些？我应该怎么处理这些信息？

最后，但也是最重要的，就是「自我」，我是一个怎样的人？我想要怎样的生活？我的经历带给我了什么？我为什么生气或者开心？

三个因素及其背后的信息在生活中不断交叉，让我们难以决策，或者在决策之后时常后悔、怀疑自己的决定，到最后难以真正享受当下，享受人生。

但我承认，回答这个问题可能需要一辈子的时间，需要不断地思考、尝试、经历、反思，然后循环，最后也许能够达到某个和自己和解、和世界和解的阶段。

同时，我也认为，这样的探索是可以学习的。通过学习一些思考方式，就好比学习数学公式，当我们遇到具体问题时，运用学到的公式，也许就能够解开问题；在应用的同时对于公式的理解也会越来越深，之后找到问题答案的可能性就越来越高。

我认为，回答「应该怎么与这个世界相处？」这个问题，至少有三个「公式」可以学习和应用。

首先我们需要用**「灰度思维」看待世界**，承认事物存在的合理性，并且用开放的态度看待世界存在的诸多可能性；

其次，建立人生的系统，可以有目标，但单一的目标不能决定人生的成败。人生应当是立体的，是一种生活方式；

最后，我们要相信自己有实现人生系统的能力，很多事情看似无法改变，但是当我们换一个角度思考，我们可以改变任何事物，只是有些我们能改变的程度低、有些程度高。尤其是我们自己的身体——我们是身体的主人，不是奴隶。而当我们改变了自己的身体（饮食、睡眠、大脑活力等等），身边的世界也会开始改变。

三个思维方式，都需要反复的思考、应用，才能让它们融入自己的潜意识中。正如在文章的开头，我之所以花了较多的篇幅来记录我找到答案的过程，是想告诉大家：很多重要的结论、想法，可能不是一瞬间产生，而是经由时间、经历等各种各样输入和输出锤炼之结成的果。所以保持耐心，也是与自己和世界相处的前提之一。

三本书：

《学会提问》Asking the right questions: a guide to critical thinking by M. Neil Browne / Stuart M. Keeley
How to Fail at Almost Everything and Still Win Big by Scott Adams
Decisive: How to Make Better Decisions by Dan Heath & Chip Heath

来自：

我应该怎么与这个世界相处？

为生活进行审计

Life audit，自我反省的练习，帮助你清除杂乱的、外部的目标和当前的干扰，重新审视或揭示真正的主题和核心价值，驱动和激励你，又名: 灵魂的春季大扫除。

作者用 100 个便利贴和一个周末的午后为最近的生活进行一次审计。

100 post-its in 1 hour，可以是任何你想要的愿望或目标，不区分大小，大部分人只有 30-40 个就写不下去，挺住写满 100。
描绘你的愿望：分类你的便利贴，将愿望分组成主题。有些主题让人惊讶，有些则不然。事实证明，对人的愿望的优先事项有一个鸟瞰式的视角是出奇地令人兴奋的。
用时间来描绘愿望，毕竟不是所有的愿望都是平等的。注意到每个便签都可以进一步分类为「一系列的时间」，不管它适合什么主题。有些偏向于未来，有些偏向于当下，都和时间有关系，给每张便利贴加上 3 个时间维度：Now/Soon、Someday、Always/Every day
5 Activities：快速记下我花费最多时间做的五件事，来评估我的「无意义的比率」。
5 People：根据平均法则，你的成功取决于你花最多时间在一起的五个人。如果我真的要认真对待这次审计，我就必须做一些思考。我的亲朋好友中有合适的人来帮助我实现这 100 多个愿望？这个思考的过程中，我发现我们中的许多人花了很多时间和那些很容易相处的人在一起，而不是那些鼓舞和激励你去追求你每天都在思考、谈论和梦想的事情的人，而不是那些挑战你的想法并推动你做得更好的人，而不是那些在你陷入困境时帮助你的人，那些在任何特定时间为你正在做的任何事情提供建议并充当共鸣板的人。（当然并不是说和那些很容易相处的人在一起不好，而是别忘记他们，审视你的 5 个人。）