你真的了解ChatGpt嘛

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

导读

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

2022年11月，OpenAI推出⼈工智能大语音模型—聊天机器⼈ChatGpt。

随着ChatGpt的出现，2023年刮起了⼀阵“AI风”。各种文章铺天盖地，鼓吹着AI时代的来临，AIGC将席卷整个科技行业甚至是颠覆整个⼈类社会。

但你真的了解ChatGpt嘛？你可以尝试问自己几个问题：

01 ChatGpt是什么：LLM是什么？NLP是什么？GPT是什么？BERT是什么？Transformer是什么？RLHF是什么？AGI是什么？

02 ChatGpt超能力来源是什么？是新的范式突破吗还是过往AI的延伸？

03 ChatGpt的发展过程是怎样的？现在以及未来呢？

01 行业观点

搞清楚ChatGpt是什么和它超能力的来源是什么，其实是⼀件很困难的事情 (毕竟基于现在看，ChatGpt并不可能会开源) ，况且连最顶尖的⼈工智能大佬们也没有达成共识。

比如，图灵奖得主Yann LeCun认为GPT家族所依赖的学习范式就是⼀个基于auto-regressive ( 自回归) 的LLM (large language model ，大语言模型) ，只是因为OpenAI 是个创业公司，大家宽容度较高。

他也曾在⼀场辩论中提出了“Nobody in their right mind will use autoregressive models 5 years from now” (从现在起5年内，没有哪个头脑正常的⼈会使用自回归模型。)‘

但同时，ChatGpt受到许多大佬的吹捧也是有⼈提出“此刻是属于AI界的IPhone时刻”观点，比如越来越多的AI大佬们决定朝着AGI(artificial general intelligence ，通用⼈工智能)前进。

开始深入探讨之前，我们可以着重参考两篇综述（点击可直达原文）：

大语言模型技术精要

ChatGpt的各项超能力从哪里来

02 真正的难点

结合上面的图可以⼀起简单的梳理⼀下：

GPT-3Initial ：通过超大量的语言模型进行预训练，已经成了⼀个非常令⼈惊艳的 LLM ，但最多也只能说是引起了量变。
Codex Initial和InstructGPT Initial ：通过阅读代码和InstructGPT的模式，训练出了两款新的模型。
GPT3.5 ：在这个阶段其实已经涌现了“乌鸦”能力，产生了质变。其实“乌鸦”能力的涌现就可以看作是新的范式突破 (下文会详细介绍) 。但此时，可能并不适合⼈类使用。
ChatGpt ：在通过RLHF ( Reinforcement Learning Human Feedback ，基于⼈类反馈对语言模型进行强化学习) 的帮助下和监管下的指令微调，找到了合适⼈类自然语言的GPT应用，也更加符合了“Chat”这⼀特性。

其实我们就可以明白，真正厉害的模型是GPT-3.5 ，而ChatGPT只是⼀个厉害的应用方式。

应用方式容易复制，聊天机器⼈⼗年前就已经出现的应用，RLHF难度其实也不大，就连微软最近也是开源了“DeepSpeed Chat”这款炼丹神器 (用于各种规模的ChatGPT类模型的简单、快速且经济的RLHF训练) 。

真正的难点是什么呢？是上面提到的“乌鸦”能力的复现。

除了OpenAI公司，可能根本没有⼈知道它是如何涌现的，是随着数据量的不断扩充还是数据质量的不断提高还是模型大小的不断提升？但这些都是猜想，这⼀个观点其实也更加证明了OpenAI是不可能开源的。

所以这很有可能不是通过烧几万张显卡或是GPU就能实现的，说不定投入即使够多但仍有可能是打了水漂。

也正是因为这⼀优势，足以使OpenAI公司与其他各家公司拉开好几年的发展优势；反观国内的各家公司，也许同样只是“东施效颦” ，在没有“乌鸦”能力的LLM模型上套了⼀个与ChatGPT的应用方式。

03 理解新范式—乌鸦

下面，我们首先简单的介绍下什么叫ChatGPT所属于的可能的新范式—乌鸦

对于⼈工智能，朱松纯教授以“鹦鹉”和“乌鸦”为例，进行了⼈工智能范式的区分：

“鹦鹉范式”的⼈工智能，就是学界目前普遍认定的大数据+大算力+深度学习，这包括当前的大型预训练模式。

机器学习，包括深度学习，所遵循的都属于这种范式“data fitting”。我们通常会把机器学习、自然语言处理的数据、模型的输出称为向量数据。具体来说就是数据之间大概也可以用我们数学上的函数类似于Y=F (X) 来推导，给定⼀些X和结果Y ，机器学习寻找出X和Y⼀定的对应关系，优化成⼀个特定的方程。

因此，即使碰到⼀个未知的X ，也可以按照规律推导出Y的最佳目标。

但这其中有⼀个弊端，就像是我们的方程会有限制条件，类似于我的X因素只能输入数字，不能输入字母。

在现实中的例子就是我训练的因子的范围只是动物类图片，但你给了我⼀张建筑类的图片，输出的结果肯定是会差强⼈意的。

这就很想鹦鹉学舌的机制，鹦鹉不管你输出内容的真实意义，只是通过自己的方式理解了这个发音，并且模仿了出来。

04 举例：推荐算法的原理

现有算法的主要做法是 (抖音举例)：

把每个视频抽象成特征。
把每个⼈抽象成特征。
通过特征之间的泛化来互相匹配。

如果用实际例子来理解就是：

年轻男性A用户喜欢看女主播变装视频 ( 内容+画像推荐)
你的“朋友们”点赞过该类型视频。( 关系链)
跟你有着⼀样画像的⼈，除了喜欢看变装视频还喜欢看女主播唱歌。

因此属于这种范式的NLP处理过程，必须首先设定好具体的任务，规划好如何把数据之间形成固定的function ，以及function如何调用相应的能力。

“乌鸦范式” ，则是⼀种“小数据、大任务”的模式。

摄影师曾在日本拍摄到⼀只没有受过⼈类训练的野生乌鸦—— 它来到城市自己生活，需要寻觅食物。当它找到⼀个坚果时，只凭借自己的力量无论如何也打不开它，哪怕从高空扔下去也砸不开。

但随后它发现：如果把坚果放在马路中间，坚果便能够被路过的车辆碾压开。但路上车来车往，对自身安全威胁太大。

观望了⼀阵后它最终发现：把坚果扔到斑马线上，让车辆压开坚果，自己只需在⼀旁的电线杆处等待红灯亮起、车辆都停下时，再大摇大摆地下去吃掉坚果即可。

总结⼀下：乌鸦通过观，自主串通了：

汽车能压碎坚果。
车对自身安全威胁较大。
红绿灯能够控制车辆通行。其实就是在做inferencing这件事。

05 ChatGPT拥有乌鸦能力的证据

LLM模型是否真的拥有“达成inference”的能力并不像图灵测试，他没有⼀个具体的标准衡量。我们也可以从下面几点感受出，他是否真的具有这样的能力。

01 ChatGPT拥有in-context correction的能力 (结合上下文的能力)

即使如果说错了，他也能对自己进行矫正，也能听懂用户所描述的错误，并以正确的方向或是用户所要求的方向进行修正。毕竟correction的能力比learning的能力难多得多

02 描述的越详细ChatGPT反而回答得更好。

我们可以想⼀想，描述的越具体或者更精细如果是通过“鹦鹉学舌”的逻辑，预训练的文本里应越难匹配到。

03 在询问ChatGPT互联网上搜索不到的内容时，也能给出不错的答案。

04 ChatGPT能通过信息猜你心中的想法 (不知道大家有没有刷到过⼀条关于让 ChatGPT扮演自己母亲的视频) 。

05 你可以给ChatGPT设立独特的规则 ，并且它能够完美理解你的规则且不出差错的利用规则。

可以对比过往的NLP ( 自然语言处理) 模型范式是否能够达到类似效果。

当然可以，但它有个前提，过往的模型你需要针对具体的问题进行具体的设计，且只要你说的话不够结构化，模型的表现就很难保证，更别说在模型预训练的资料库中没有出现过的问题了。

ChatGPT是⼀个“开窍”之后拥有理解能力的人，从而带来了举⼀反三的能力，逻辑推演的能力，知错就改的能力。

过往ML ：需要“喂” ，之后“模仿” ，基于的是“对应关系”

ChatGPT ：需要“教” ，之后“懂” ，基于的是“内在逻辑”

后者的能力上限，可能也是为何引起业界既兴奋⼜焦虑的原因之⼀吧。

06 发展预测

ChatGPT后几年的发展可能是什么？

ChatGPT4也已经发布了⼀段时间了，其中更新的亮点包括：GPT-4模型可以对图片进行理解以及增加了ChatGPT4结合插件的功能。

GPT-4模型相比GPT-3模型，模型参数⼜大了多少，我们不得而知。

但值得肯定的是，往多模态的方向发展。

目前已经推出了支持图片的输入 (虽然目前即使是升级了plus的用户，也并没有看到上传图片的入⼝) ，GPT-4模型已经不再是以前的瞎子了，对世界的丰富多彩只能靠别⼈的转述来想象。

现在它似乎已经拥有了视觉，就像OpenAI团队演示的视频⼀样：给他⼀张小男孩拿着⼀个即将飞上空中的气球图片，问他剪断线之后，可能会发生什么？

GPT-4能够正确推理出结果，气球将会飞入空中，这也更加验证了我们上文所说的具有inference的能力。

07 ChatGPT Wrapper

上文提到的第⼆点，结合了插件的功能。

从此以往，ChatGPT不仅可以打开此前不能联网的限制，而且也许能够更好地服务我们平常⼈的日常需求。

结合目前的AIGC技术，AI可以跟你聊天、画画、写作、作曲、作视频等等；而我们希望AI干的事情可能是买东西、叫外卖、各种麻烦⼜费时间的事情。

因此，我们现在可以相信ChatGPT已经进⼊了第⼆阶段的应⽤⽅式。

现在属于是将ChatGPT的能⼒，包装成某种具体的解决⽅案。

ChatGPT结合New Bing就是很好的例⼦：

此前社交媒体⽹络上已经疯传New Bing将在下⼀次迭代结合进ChatGPT,关是相关消息⼀出，就已经让Google市值蒸发上亿美元，真正问世，可⻅⼜是⼀次不⼩的打击。

以及⽹络上出现的传闻，ChatGPT将杀向“office suite”，此后的办公⽂档软件使⽤更加便捷。（与我们⾃⼰提出的Cyber Excel概念类似）

显⽽易⻅，ChatGPT的通⽤性，万⾦油，能够保证他能和任何第三⽅应⽤完美结合。

那有没有可能以ChatGPT为底座，从零到⼀来打造呢？

再举个例⼦，假设抖⾳希望通过ChatGPT来优化下⼀代的短视频推荐算法，如何才能做到呢？

第⼀，ChatGPT需要能够调⽤抖⾳的数据；

第⼆，ChatGPT能够修改抖⾳的数据与参数。

⽬前在现有已成熟的框架下，哪怕对于ChatGPT来说恐怕也难以实现，因为你需要⼀个对系统和数据⾜够理解的⼈来教给ChatGPT,他才能通过推理进⾏优化。

但我们如果幻想从⼀开始ChatGPT就从头全程参与了数据建模和系统建设，那对于他来说，改进也就容易多了。所有我们可以⼤胆推测，以后各种软件⼯程⼀⽅⾯需要去适配ChatGPT,⼀⽅⾯也可能会⾯临收到ChatGPT的挑战。

08 TO C的转变

随着越来越多的⼤佬开始朝着AGI⽅向涌⼊，说不定也已经说明了未来之后的趋势。

ChatGPT可能会⾛向个⼈化，成为个⼈版ChatGPT。

就在不久之前，全球最⼤的开源对话数据集OpenAssistant Conversation发布，况且Hugging Face上还有很多可以使⽤的⼤

型数据集。（也许通过市⾯上已有的数据集训练模型，反推得到我们想要的数据集也是⼀

个不错的思路。）

因此，市⾯上也已经有了⼀套不错的组合拳打法：

DeepSpeed

Chat+数据集，每个⼈都可以打造属于⾃⼰的类ChatGPT模型且价格实惠。

我们预测会进⼀步向着这个⽅向加强，同样也是因为有⼏个明显的商业优点：

⼤家可以调教专属于⾃⼰的ChatGPT,跟它⻓时间的聊天，它不仅能够适配你的喜好，也能达成专属于你们的默契。
我们不得不承认ChatGPT已经赢在了起跑线上，如果还杀向同样的赛道不就是⾃寻死路嘛。我们能做的，也有可能是OpenAI公司后续要做的，打造垂类赛道。

想象如下场景，假如你是⼀名优秀的营销经理，假以时⽇，你的ChatGPT的营销能⼒，应该已经可以吊打其他ChatGPT的营销能⼒，专攻于某⼀⽅向，但若真的到了那⼀刻，可能也就离⼈类解放⽣产⼒的未来不远了。

09 Fine-tunning ——微调

讲到这⾥我们也可以科普下Fine tunning和Embedding的区别

Fine-tunning ⼀般称之为微调。

GPT-4已经预训练了⼤量的互联⽹内容，只需要在prompt⾥写了少量的⽤例，他基本可以感知你的⽤意，并⽣成⼀段基本合理的符合你预期的结果。这个功能⼀般叫做“few-shot learning”。

Fine-tunning就是基于few-shot learning，通过训练⽐写在prompt⾥更多的⽰例，可以得到更好的结果。被模型微调后，就不⽤在prompt⾥再写⼀些实例了。从⽽达到节省成本和耗时的效果。

⽐如不进⾏ fine-tune 提问

prompt:

⼩红喜欢洋娃娃。⼩红的性别是？

completion:

⼥孩，所以她很喜欢洋娃娃。洋娃娃通常有着丰富多彩的服装和装饰，可以让⼩红玩得很开⼼。此外，红还可以给洋娃娃起名

字，造出⼀个属于⾃⼰的⼩世界，从⽽获得更多的乐趣。

在 prompt ⾥加⼊⽰例

prompt:

⽰例：⼩红喜欢洋娃娃。⼩红的性别是？

答案：⼥

经过提⽰的 prompt 会按照⽰例的格式回答你的问题。

prompt:

⼩红喜欢裙⼦。⼩红的性别是？

completion:

答案: ⼥

10 Embedding——嵌⼊

Embedding⼀般称之为嵌⼊。

embedding ⼀般是指将⼀个内容实体映射为低维向量，从⽽可以获得内容之间的相似度。OpenAI 的 embedding 是计算⽂本与维度的相关性，默认的 ada-002 模型会将⽂本解析为 1536 个维度。⽤户可以通过⽂本之间的 embedding 计算相似

度。

embedding 的使⽤场景是可以根据⽤户提供的语料⽚段与 prompt 内容计算相关度，然后将最相关的语料⽚段作为上下⽂放prompt 中，以提⾼ completion 的准确率。

简单的你可以理解成，Embedding更像是封装了⼀层索引。

例：

我有⼀堆语料，想让 GPT-3 依据我的语料输出内容 - 使⽤ embedding

可以根据产品的使⽤⼿册来回答⽤户的问题- 使⽤ embedding

希望⽤户按照⼀定格式提交问题 - 使⽤ fine-tunning

想让 GPT-3 模仿⼀个温柔贤惠的⼥⼈和我对话 - 使⽤ fine-tunning

11 总结

ChatGPT的范式突破是“乌鸦”能⼒，它具有理解甚⾄推理的能⼒，⽽作为对⽐，过往ML的能⼒模式是“鹦鹉”能⼒，所做的只是通过固定规律寻找对应关系。

为什么是OpenAI作出了ChatGPT，⽽不是其他机构呢？我们也可以做个简单分析。

⼀点是OpenAI对LLM的理念，他们从⼀开始就视通往AGI为最终⽬标。

在他们的眼中，未来的AGI就应该是这样：有⼀个超⼤的LLM模型，⾜以从模型的海量数据中学习各种知识，并能通过它来解决各种各样的实际问题，⽽且他应该能够理解⼈类的指令，以便于⼈类使⽤。

他们并没有因为Bert的出现和爆⽕⽽放弃⾃⼰原来的线路切换⾄双向语⾔模型，仍然⾛⽂本⽣成的路，⽽且开始尝试零⽰例（zero shot）prompt和少量⽰例（few shot）prompt，虽然也⼩有成就，但只是被Bert+fine-tuning的光明所覆盖。

直⾄，我们上⽂提到的，不知何时涌现的“乌鸦”的能⼒，才有了GPT3.0的出现。

在当下，我们应该拥抱变化，学会通过⾃然语⾔调⽤ChatGPT,做好他的项⽬经理，才能更好的把握未来。

最后回答我们的第⼀个问题：

LLM，Large Language Model，⼤型语⾔模型。基于⼤型语⾔模型的实现，演进出了最主流的两个⽅向，即Bert和GPT，两个最主要的差别：

Bert，双向，预训练语⾔模型+fine-tunning。
GPT，⾃回归，预训练语⾔模型+Prompting。

Transformer则是GPT和BERT的前⾝，被⽤于处理NLP（⾃然语⾔模型）。

RLHF则是Reinforcement Learningfrom Human Feedback，GPT3.0模型就是⼀款通过GPT⽅式训练后再经过RLHF打造成更适合⼈类使⽤的⼀款⼤语⾔模型，并体现了NLP技术的实现，最终希望变成⼀款⼈们⼼仪的AGI⼯具。（Artificial general intelligence）