你需要对ChatGPT、Claude、DALL-E、Firefly、StableDiffusion或Llama2如何解码提示以及如何使用提示有一个基本的了解

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

今日份知识你摄入了么?

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

编写适当的提示语是一项非常艰巨的任务。有些人似乎总能从GPT中获得比其他人更好的结果。要想写出有效的提示语,让你的想法得到确切的结果,就必须了解GPT模型是如何工作的。你需要对ChatGPT、Claude、DALL-E、Firefly、StableDiffusion或Llama2如何解码提示以及如何使用提示有一个基本的了解。

在DiffusionBee中使用RealVisXL30模型生成,采用“黑暗幻想”风格,使用582个字符的提示符,通过不同权重调整光照、光源等。

图片来自作者

在本文中,我们将深入探讨提示工程的秘密,以及各种模型如何逐步处理你的提示。我还将用通俗易懂的英语进行解释,避免涉及不同步骤的数学背景。本文的目的是让你扎实地了解这些模型,从而更有效地进行提示。本文是有效提示的实践指南,不会过于理论化或具体化。

GPT如何处理你的提示

这里所说的人工智能模型是指生成预训练转换器,简称GPT。你给它一个文本,它就会返回一个输出,可以是一个新的文本、图像、视频或音频流。无论它被训练成什么样子。

什么是张量以及GPT“大脑”的结构

首先,GPT并不是类人的实体。它有能力产生看起来类人的输出。像HuggingFace或Civitai上的开源模型会将它们的信息存储为GGUF或Safetensors文件类型中的张量。所有的GPT都以一种形式或另一种形式使用张量。

张量的简单解释

将张量想象成一个神奇的盒子,可以容纳数字,就像玩具盒容纳玩具一样。但是,这个盒子不仅可以有玩具,还可以有许多行和列的数字,它以一种特殊的方式帮助我们理解事物之间的关系。

现在想象一下,GPT就像一个由张量组成的大型三维蜘蛛网,里面有小的“盒子”装着数据。这些小盒子是GPT训练过程的结果。每个小“盒子”(张量)都与另一个小“盒子”(张量)相连,它们之间也都相互连接。有些与彼此直接相连,有些通过它们的同行间接相连。这个蜘蛛网构成了GPT模型的“大脑”。

显示GPT内部信息网的GPT“大脑”幻想图

GPT是如何使用“大脑”的

由于GPT的“大脑”是一个大型网络(不要误解为神经网络!),每个GPT都有不同类型的网络,并以不同的方式处理它。根据你的提示,它可以识别出其“大脑”或“网络”中与提示最相关的部分。

(Simplified)生成文本或图像的GPT模型的不同步骤,图片来自作者

当你向GPT发送提示文本时,它首先会将文本分成标记。标记是具有相互关系的小文本片段。就像在学校里分析句子的语法一样。有了这些标记,GPT就会权衡特定标记(或“单词”)的重要性以及它们之间的关系。这种“结构化提示”可以想象成信息框的小网格,即张量。

然后,GPT会使用“结构化提示”找到最相关的其他信息框,并在一个称为“扩散”的过程中将它们混合在一起。它会在多个迭代(或循环)中执行这个过程,直到达到配置的最大循环次数。在每个周期内,它还会评估先前的结果。一旦完成了定义的循环次数,它会将结果返回给用户。无论结果的质量如何。

以张量为目标进行有效提示

现在,进入实际操作部分。在大多数情况下,你会在大脑中凭借着对最终结果的模糊想象来提示GPT。你的想象力是你的大脑根据之前的所见所闻创造出来的。现在,你需要用语言(最好是英语)将这种想象从你的大脑转移到GPT的大脑中。

确保GPT模型已掌握信息

对于GPT-4、Claude 3或Mixtral等大型模型来说,缺乏信息并不是问题,但对于小型开源模型来说,这却是一个问题。首先,你需要确保模型已经训练好了所有必要的数据。如果你给它发送了一个很好的提示,但它的“大脑”却没有你所指的信息,那么输出的质量就不会达到预期的形式。在制作一个完整的提示之前,先尝试一些较小的提示,看看模型是否拥有你所需要的数据。

憨豆船长:英国星际舰队“荒唐号”飞船指挥官

为RealVisXL30(稳定扩散XL)提供提示

«(((STAR TREK COMBADGE)))((masterpiece)),屡获殊荣的电影作品仍然以mrbean,mr_bean,Mr Bean的形象呈现,饰演一位星际迷航船长,穿着星际迷航制服。红色衬衫,黑布裤子。深色妆容,超详细的摄影,柔和的光线。充满活力,美丽,富有绘画感,细致,有质感,艺术气息浓厚。浅景深,晕影,高度详细,高预算,背景虚化,电影宽幅画面,沉郁,史诗般,华丽,电影颗粒感,粗糙感。((Vogue magazine)),((NatGeo people)),((Conde Nast)),完美的照明,完美的阴影,体积照明,次表面散射,(科幻海报)»

底片:低质量,最差质量,劣质,低分辨率,糟糕照片,劣质艺术作品,构图不佳,解剖结构不准确,签名,文字,错误,裁剪,JPEG伪影

请注意RealVisXL30既有大量与星际迷航相关的训练数据,也有来自Mr.Bean的数据。由于该模型有数百万张图片用于训练,仅输入“Mr.Bean作为星际迷航船长”是无法得到所需图片的。通过在提示周围添加额外的关键词和权重,可以明确地指导RealVisXL30模型选择能够产生所需图片的张量。其中大部分是“猜测训练数据”,并假设模型具有特定的风格或结构(或者简单地说是“网络”)

定义权重和目标张量

许多关于提示的教程都会提到“风格”、“情感”之类的东西。通过在提示中描述具体事物,可以将GPT引向必要的张量。描述“情感”、“风格”等会引导GPT在大脑中找到这些张量。此外,使用完整的语言,而不仅仅是关键词,也有助于GPT更好地解读提示。

Anthropic Claude 3 Opus(2024年2月29日)的提示要求写一个关于曼哈顿的小短文,字数为500个字符。按照Karl Baedeker在20世纪编写的旅行手册风格进行撰写。假设曼哈顿存在于George Orwell的书《1984》中描述的世界中。

曼哈顿,大洋国首都的跳动心脏,充斥着党的忠诚子民不断的活动。高耸的玻璃和钢铁建筑如同英社集体力量的象征。无产阶级群众在老大哥电视屏幕的监视下,在灰暗的街道上蹒跚而行。思想犯罪者,请小心行事--思想警察时刻保持警惕。但不要害怕,因为在曼哈顿,正统意味着无需思考。无知就是力量。

这个提示特意不包括“旅行指南”一词,因为那会导致Claude GPT选择大量学习的旅行指南数据。这会完全覆盖Karl Baedeker风格的提示。这是需要对模型进行彻底测试的发现。

这种特定行为可以在所有主要模型(GPT-4、Claude 3和Gemini)中观察到,被称为马太效应。除了正确地设计你的提示,并一遍又一遍地与模型进行测试,没有其他方法。

了解并处理幻觉效应

通常描述为“幻觉”的效应出现在模型要么没有足够的数据来匹配提示,要么数据中存在导致对特定张量产生重大偏向的数据点(马太效应会导致“GPT幻觉”)

有几种方法可以消除幻觉效应。

  • 最简单的方法是检查提示中的变化,删除可能导致幻觉的任何内容。

  • 如果减少提示并不能减少幻觉,则重新开始提示工程。

  • 如果模型继续出现幻觉,那么它显然缺乏完成任务所需的训练。你需要一个新的模型,或者用RAG(检索-增强生成)来扩展它。

让自己回想一下我们之前的网络插图。幻觉是指你的提示将GPT引向其方格网的边缘。你实质上是在要求它获取一个特定的内容,而它并没有这个盒子(没有经过训练),或者这个盒子藏在一堆其他盒子里(偏向其他信息,马太效应)

当提示“(((MontanaBlack))的肖像)”时,模型JuggernautXL会对德国YouTuberMontanaBlack产生幻觉,因为它缺乏来自社交媒体的任何训练数据(剧透:他是一名白人男性)

设计和维护良好的提示基础

你使用的提示文本在某种程度上可以比作计算机软件的源代码。你需要对提示文本进行跟踪,最好还能对其进行版本控制。使用Github资源库对最佳提示进行排序和分类无疑是一种好方法。我个人使用Civitai来存储图片和提示语,以便日后使用。这完全取决于你。

# My boilerplate prompt for creating magazine-like # high quality images with RealVisXL30 and JuggernautXL## Prompt((masterpiece)), award winning cinematic film still of **DESCRIBE SCENE HERE**. Dark makeup, hyperdetailed photography, soft light. Vibrant, beautiful, painterly, detailed, textural, artistic . shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy. ((Vogue magazine)), ((NatGeo people)), ((Conde Nast))## Negative Promptlow quality, worst quality, bad quality, lowres, bad photo, bad art, bad anatomy, bad hands, signature, text, error, cropped, jpeg artifacts

由于每个模型的训练数据和“信息网络”都完全不同,因此熟悉任何新模型都非常重要。Claude 3与GPT-4或Gemini几乎完全不同。在使用各种生成图像或视频的GPT时,这一点就更加明显了。

在我的模板中插入“在急诊室当外科医生的人形毛绒泰迪熊”,并使用JuggernautXL执行。图片来自作者

有效提示总结

GPT的内部运作非常复杂,本文只是浅显地介绍了它们的工作原理。希望这些见解能让你更好地理解如何进行提示。不过,它们仍然要求你进行提示工程练习。虽然有些人嘲笑“提示工程”是一种练习,但它可能是一项相当耗时的任务,这取决于你想要达到的结果质量。原文作者:Jan Kammerath

翻译作者:Qing

chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/1225.html

chatgpt对话技巧chatgpt 不能用了吗chatgpt使用 教程登录chatgpt需要梯子chatgpt plus如何付费ChatGPT解封GPT4免费版AutoGPTchatgpt4.0是不是真正的人工智能chatgpt4.0和3.5有什么区别

更多ChatGPT相关文章

网友评论