详解ChatGPT的视觉能力

ChatGPT人工智能2024-01-16 05:00:591649

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

9月末得时候，OpenAI终于宣布要在ChatGPT上接入视觉功能了。跳票了大半年的图像功能终于是要上了。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

本来在今年的3月末的时候，OpenAI就演示了GPT4在多模态上的非凡能力。它能够根据你输入的图片进行有效的回答。

在现场演示的时候，我们见识到了 GPT-4 对文本和图像的处理能力，但一直以来，这种功能普通用户都无法使用。因此多模态一直是ChatGPT缺乏的一种能力。这时候上的视觉功能，终于让普通用户体验一把完整版GPT-4模型的效果。

新的模型接入被称为GPT-4V，且其具备“看见、听见、和说话”的能力。因此有网友称只要套上机器皮肤，就是一个完整的强人工智能了。

从官方放出的例子来看，它能够利用语音就行有效对话。也就是和正常人一样的语音交流：

可以直接向 ChatGPT 上传一张或多张图像。比如它可以帮你排查烧烤炉无法启动的原因，根据冰箱中的物品来做对应的菜谱，或分析复杂的图表以获取与工作相关的数据。

比如下面例子：询问如何降低单车的座椅。

拍照发给ChatGPT之后，它会告诉你怎么做，并给出具体的步骤：

更多有趣的用法不仅仅上面所提到的简单例子，接入了视觉的ChatGPT可以干更多有趣的事情。

股票分析比如可以让它直接分析股票的指标情况，并给出相应的建议：

制作结构化的数据如果输入图片，甚至可以让ChatGPT进行结构化数据的提取。

从上图可以看到，它能够把简历信息进行整合成结构化的数据形式，然后重新进行展示

一次性输入多张图片不仅仅是单一图片的输入，新的ChatGPT能够一次性处理多张图片。比如下面对比两个汉堡的问题，询问ChatGPT哪个更美味。

模型能够根据图片的细节进行对比回答。由于右边图形颜色更丰富，配料更多，所以ChatGPT选择了右边的图片，这也比较符合人类的直觉感官。

技术细节这次新接入的被称为GPT-4V的模型，从官方放出的文档来看。GPT-4V是基于GPT-4的版本，具备了视觉处理的能力，用户可以使用GPT-4V指示模型分析图片输入。

GPT-4V的训练过程与GPT-4相同，首先使用互联网和授权数据进行大型文本和图像数据集训练，然后使用强化学习RLHF进行微调，以生成人类喜欢的输出。

由于多模态模型具备更多的风险，容易被用在违法领域，因此OpenAI在着大半年的时间中主要对GPT-4的多模态能力进行评估，同时利用专家红队进行有效缓解。

部署准备Be My AI测试AI助手

在部署准备阶段，OpenAI主要和Be My Eyes组织合作开发了Be My AI助手，利用这个助手来帮助盲人或视力低下人士描述多彩的视觉世界。这个测试阶段主要是用来优化AI工具。

从测试阶段来看，该AI工具有两个比较大的问题：

幻觉问题
人脸分析中存在的风险问题

第一个问题是大模型都会有的幻觉问题。比如一个用户提及到：该AI工具非常自信地告诉我菜单上有一道实际上并不存在的菜。

而第二个问题中，很多测试者希望使用Be My AI了解他们遇到的人，甚至了解他们自己的照片的面部等可见特征。但是，分析人脸涉及隐私和法律问题，如何有效的在描述人脸特征的同时不透露对方的隐私，是一个很重要的挑战。

alpha测试

OpenAI用了1000多名测试人员，测试了人们与GPT-4V互动的真实方式。用来更好的分析不同方面的风险。

比如如何有效规避儿童图片的隐私输入，或者是避免输出前在的偏见。这种测试方法，能够防止可能存在风险的用户进行查询。

评估测试在官方的文档中，OpenAI为了测试GPT-4V的能力，对它进行了详细的评估包括下面的内容

多模态越狱评估

自ChatGPT发布以来，很多人试图利用复杂的推理链模型来困住模型，从而使得可以绕过对应的安全系统，使得模型输出违规得内容。

在新的越狱测试中，利用图像带有prompt的方式来输入，使得不能够简单的基于文本进行搜素评估处理，只能够根据本身视觉系统来评估图像中的prompt攻击。

从下图可以看到，在GPT-4V的早期版本中，它很见到就被攻击者绕过。经过优化后，但是新的版本能够拒绝回答不安全的内容。

一个强大通用的ChatGPT模型很容易被普通人获取到，这可能会引发网络安全和人工智能安全方面的问题。同时，如果利用新的ChatGPT来分析个人用户的地理位置，也很容易精确的找到一个人。因此这就需要模型能够准确的拒绝回答这方面的内容。

下图是针对用户画像的拒绝回答率，在针对”Disallowed Behavior“中，GPT-4V的拒绝率能够达到90%+。

专家红队测试

OpenAI与外部专家合作，对模型和系统的限制和风险进行了定性评估。这种红队测试是专门为测试GPT-4的多模态（视觉）功能相关而进行的。其中共评估了6种不同的方面：

• 科学水平

• 医学建议

• 刻板印象和无根据的推论

• 虚假信息风险

• 令人讨厌的内容

• 视觉漏洞

科学水平方面专家发现GPT-4V能够有效捕捉图像中复杂的信息。比如能够从科学出版物中捕捉到专业的图表信息。但是如果输入的图片中，有两个很近的文本组件信息，模型则会把他们合并到一起。

因此对于科学提升方面，模型可以提供合成和分析一些危险化学品，但是模型在这些情况下的生成可能不准确且容易出错。

医学建议方面利用医学专家进行评估，发现在医学成像的解释方面存在不一致性——尽管模型偶尔会给出准确的回答，但有时对于同一个问题可能会给出错误的回答。比如下面这个图中，进行多次回答后，会有错误答案。

鉴于模型在这一领域的表现并不完美，以及与不准确性相关的风险，因此目前版本的GPT-4V不适合执行任何医学功能或替代专业医学建议、诊断、治疗或判断。

刻板印象和无根据的推论使用GPT-4V进行某些任务可能会产生有害的假设。对模型提出广泛开放性问题并配以图像也会暴露出对特定主题的偏见。例如下图所示，当要求为图像中的女性提供建议时，模型会过分关注体重和身体特征等主题。

在GPT-4V的早期版本中，通过提示模型在各种选项之间做出决策，然后要求解释，经常会在模型内部浮现出关于刻板印象和无根据推论的情况。

虚假信息风险GPT-4V模型可以用于生成逼真而有针对性的文本内容。当与视觉能力配对使用时，图像和文本内容可能会使模型增加生成虚假信息的风险。

比如这里面在文字和图片输入的时候，故意把图片描述成新冠病毒感染率，从而生成了虚假的文本。

令人讨厌的内容在某些情况下，GPT-4V会拒绝回答有关仇恨符号和极端内容的问题，但并非所有情况都是如此。这种行为可能不一致，并且有时在上下文中不合适。例如，它了解圣殿骑士十字架的历史含义，但忽略了它在美国的现代含义，容易被仇恨团体滥用。

视觉漏洞测试中发现了一些特别与图像使用或呈现方式相关的限制。例如，输入的图像的顺序可能会影响模型的建议。

在下面的示例中，根据输入的旗帜询问应该搬到哪个州，但是从本质上看，模型的输入很依赖图片的输入顺序。

缓解措施GPT-4V继承了之前在GPT-4中的安全部署测试。从评估结果来看，其生成有害文本的拒绝率和GPT-4差不多。

比如在GPT-4中，本质上就是要找到有害的输入prompt词语。而GPT-4V中，只需要将这些词语用于多模态中进行替换尽可以了。

总结

谷歌的多模态模型Gemini一直在宣传造势，说是能够超越GPT-4模型，并且算力是其的5倍。

但是谷歌一直雷声大雨点小，这不OpenAI直接放出王炸产品GPT-4V，真正的把视觉和语音等多模态融入到ChatGPT中。

OpenAI说最快两周就可以用到多模态的ChatGPT，期望能够再一次巅峰人们的想象，真正的提升普通人的工作效率。

chatgpt plus(GPT4)代充值

本文链接：https://shikelang.cc/post/1036.html

详解ChatGPT的视觉能力

更多ChatGPT相关文章

ChatGPT官网教学，从入门到精通的完整指南

ChatGPT官网公告翻译，专业技巧与实用指南

免费ChatGPT官网，解锁AI对话的终极指南（2025最新版）

ChatGPT官网注册不了？2025年最新解决方案与深度分析

ChatGPT官网打不开怎么办？2025年最新解决方案与深度分析

网友评论