先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
本书是在“打开ChatGPT的大脑”,发现里面很复杂、但最终产生了可识别的人类语言。是由“人工神经元”构成的神经网络,试图模拟人脑的运作。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
概率从何而来?就要用到大语言模型。
模型:假如只有数据,而不知道支配它的基本规律,那就只能做出数学上的猜测。从来没有“无模型的模型”,任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(参数)。ChatGPT使用了许多这样的“旋钮”——实际上有1750亿个。
例如图像识别:如果某函数(输入是像素值的集合)总是与人类的意见相符,那么就是一个“好模型”,人类已经可以构建出不错的识别函数了。能“用数学证明”这函数有效吗?不能。因为还没有一个关于人类做这事的数学理论。
有时候用神经网络解决复杂问题比解决简单问题更容易。
ChatGPT有一个很好的特点,就是可以进行“无监督学习”,它的基本任务是弄清楚如何续写一段给定的文本。因此,要获得“训练样例”,要做的就是取一段文本,并将结尾遮盖起来,然后将其用作“训练的输入”,而“输出”则是未被遮盖的完整文本。
神经网络的实际学习过程归根结底,核心在于确定哪些权重能够最好地捕捉给定的训练样例。有各种各样的详细选择和“超参数设置”(之所以这么叫,是因为权重也称为“参数”),可以用来调整如何进行学习。有不同的损失函数可以选择,如平方和、绝对值和,等等。有不同的损失最小化方法,如每一步在权重空间中移动多长的距离,等等。
ChatGPT会获取到目前为止的所有文本,并生成一个嵌入向量来表示它。然后,目标就是找到下一个可能出现的各个词的概率。它会将答案表示为一个数字列表,这些数基本上给出了大约50000个可能出现的词的概率。[严格来说,ChatGPT并不处理词,而是处理“标记”(token),这是一种方便的语言单位。]
ChatGPT使用了一个称为Transformer的神经网络架构。原始输入是一个由数组成的数组(到目前为止标记的嵌入向量)。当ChatGPT“运行”以产生新标记时,这些数就会“依次通过”神经网络的各层,而每个神经元都会“做好本职工作”并将结果传递给下一层的神经元。没有循环和“回顾”,一切都是在网络中“向前馈送”的。
语言的语法结构可以构成个“解析树”,语义也要合乎逻辑。
ChatGPT是高智能、知错能改的对话系统,“一本正经地胡说八道”。
从回答问题转向学会如何提出问题。知识广度和思维清晰度将很重要。 直接学习所有详细的知识已经变得不必要了:可以在更高的层次上学习和工作,抽象掉许多具体的细节。“整合”,而不是专业化。尽可能广泛、深入地思考,尽可能多地调用知识和范式,学会使用工具来做事。
Wolfram|Alpha:知识计算引擎,结合知识和算法,用户采用自然语言发出命令,系统即可直接返回答案。 OpenAI和Anthropic公司。谷歌的BERT架构。 计算不可约原理:总有一些计算是没有捷径来加速或者自动化的。 语言在根本上比它看起来更简单。 AGI:通用人工智能 (artificial general intelligence) NLP:自然语言处理(natural language processing)
LLM:大语言模型(large language model)
网友评论