OpenAI发布会完整记录,O1满血版 和 专业版ChatGPT Pro、 O3模型发布

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

刚刚过去的2024年圣诞节前期,OpenAI 为我们连续12天送上礼物,一系列令人瞩目的创新成果接连亮相。从首日升级满血版o1,到最后一天直接发布o3预告,每一天都潜藏着可能改变AI格局的新进展。区别于所有对OpenAI发布会的解读式报道,本文Day by Day 原汁原味地记录下了这12天发布会现场的所有精彩瞬间,还原展现每一项成果的发布测试过程,无论是模型性能的提升细节,还是新功能的独特之处,都一一呈现。文章内容全部来自Open官方发布会视频,我们以文字和视频截图形式整理,只记录、不点评,为大家呈现一份最原始、易理解、也有价值的参考资料。来一同回顾这12日可载入史册的AI盛宴吧!

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

Day 1 - O1满血版 和 专业版ChatGPT Pro

首日发布会上,OpenAI一口气推出了全新升级的o1模型以及高端订阅服务专业版ChatGPT Pro。

o1模型完整版

o1模型是OpenAI模型能力的又一次飞跃,显著提升了智能水平和用户体验。

首先是基本性能方面——更快、更聪明:

用简单历史问题进行测试,左侧是o1完整版,右侧是o1-preview,当面临“列出第二世纪的罗马皇帝,包括他们的在位时间和成就”的提问时,经过多次测试,o1平均响应速度比o1-preview快60%,交互效率显著提高,并且弥补了o1-preview曾忽视在位时间较短的罗马皇帝的问题,提升了回答正确率和准确性。

然后是多模态能力方面——多模态输入和图像理解:

这展示了一个高度简化的太空数据中心示意图。对于任何简化的假设,提供理由。你的任务是估算这个托管GPU的数据中心所需的散热器表面积的下限。在此过程中,也要回答以下问题:1)你如何处理太阳和深空?2)热力学第一定律如何发挥作用?

o1 首先识别出了手绘图中的重要信息——空间数据中心散发热量为1GW,然后利用其热力学理解,逐步推理估计所需的最小冷却板面积,结果为242万平方米。同时,关键参数——冷却面板温度,是重要但未知的,其良好的处理也展示了该模型处理歧义和做出一致假设以解决复杂问题的能力,突出了其在多模态推理和特定基准测试中的最先进性能。

ChatGPT Pro

为了满足高端用户的需求,OpenAI推出了“ChatGPT Pro”订阅服务,每月200美元。用户可以无限制访问o1模型、使用高级语音模式(更加自然流畅的语音交互能力)、使用高优先级服务(更快地获得技术支持和新功能试用)。最重要的是可以使用o1 pro 模式,提供了更多的计算能力来解决最困难的问题,在数学、科学、编程等领域具有最强的能力。

o1 pro一步提高了o1在具有挑战性的推理基准测试中的可靠性。在这个评测中,模型尝试每个问题四次,我们只考虑四次尝试都正确的问题。这种更严格的评测协议只奖励始终正确的答案。

 用o1-preview无法胜任的,相当具有挑战性的化学问题对o1 pro进行测试。

“以下蛋白质严格符合以下标准:1. 前体多肽的长度为210至230个氨基酸残基。2. 编程此蛋白的基因跨越32千碱基。3. 基因位于X染色体上,具体位于Xp22带。4. 信号肽由23个氨基酸残基组成。5. 该蛋白促进细胞间粘附。6. 该蛋白在维持神经系统特定部分健康方面发挥着关键作用。”

要求有6个标准,每一个都要求模型能够回忆起化学特定领域的知识。因此模型必须仔细考虑所有备选项,然后检查它们是否符合所有标准。最后o1 pro仅用了53秒就推理出来正确答案——视网膜母细胞瘤蛋白(RS1),同时可以点击并查看模型为获得答案所经历的一些思考过程。

👍从Day 1 的三个演示中可以分别看到,o1比o1-preview更快更智能;o1可以很好推理文本和图像;o1 pro可以思考和推理最难的科学和数学问题。

Day 2 - 强化微调(Reinforcement Fine-Tuning)研究计划

在 OpenAI 为期 12 天的发布会的第二天,推出了全新的“强化微调”(Reinforcement Fine-Tuning,RFT)技术。这项技术允许开发者、研究人员和机器学习工程师使用少量高质量数据,对 AI 模型进行定制,使其在特定领域的复杂任务中表现出色。

强化微调的特点:

  • 新颖的训练方法:与传统的监督式微调不同,RFT 通过强化学习算法优化模型的推理能力,而不仅仅是让模型模仿输入特征。这使模型能够在特定领域以新的方式进行推理。

  • 高效的数据利用:RFT 只需数十到数千个高质量任务的数据集即可实现有效微调。在某些案例中,甚至只需 12 个范例即可显著提升模型性能。

  • 广泛的应用领域:RFT 适用于需要深厚专业知识的领域,如法律、金融、工程、保险和医疗保健等。例如,OpenAI 与汤森路透合作,使用 RFT 微调 o1-mini 模型,开发了 AI 法律助理,协助法律专业人员完成复杂的工作流程。

实际应用案例:

在发布会上,伯克利实验室的研究人员 Justin Reese 介绍了 RFT 在罕见疾病基因研究中的应用。通过对 o1-mini 模型进行强化微调,模型在根据症状预测致病基因的任务中,表现超过了更大规模的 o1 模型。具体而言,微调后的 o1-mini 模型在 Top 1 准确率上从 17% 提升至 31%,超越了 o1 模型的 25%。

技术实现流程:

  1. 准备数据集:包括训练数据集和验证数据集,每个数据集由病例报告、指令和正确答案组成。在训练过程中,模型只能看到病例报告和指令,无法直接获取正确答案。

  2. 定义评分器(Grader):用于评估模型输出的质量,评分范围从 0 到 1。评分器可以自定义,OpenAI 也提供了一系列预设的评分器。

  3. 启动训练作业:在 OpenAI 平台上配置训练参数,启动强化微调过程。训练时间根据任务复杂度,可能需要数小时到数天。

  4. 评估微调后的模型:使用验证数据集和评估指标(如 Top 1、Top 5 准确率)评估模型性能。


未来展望:

OpenAI 计划在 2025 年初公开发布 RFT 技术。目前,OpenAI 已启动强化微调研究计划,适合正在处理复杂任务并拥有专家团队的组织。有兴趣的组织可以通过填写申请表加入该计划。

RFT 的推出标志着 AI 应用进入新的阶段,从泛化能力到领域专精,这一技术可能会深刻改变人工智能在专业领域的表现方式。未来,随着 RFT 的广泛应用,AI 模型将在更多领域展现出强大的专业能力。

Day 3 - Sora正式上线

在 OpenAI 为期 12 天的发布会的第三天,公司正式推出了 AI 视频生成工具——Sora。在原始Sora的基础上进行改进,使其速度更快,成本更低,推出Sora- Turbo,这是原始Sora模型的高端加速版本。兼容了今年早期发布的技术报告中所有的技术能力。Sora 能够根据文本描述、图像或视频输入,生成高达 1080p 分辨率、最长 20 秒的视频内容,支持宽屏、竖屏和方形等多种格式。

Sora 的主要功能包括:

  • 多种输入方式:用户可以通过文本转视频、图像转视频和视频转视频等方式生成内容。

  • 故事板工具:Sora 提供精美的分镜工具,允许用户在时间线上添加多个场景卡片,指导视频创作,实现复杂的视频序列。

  • 视频编辑功能:包括 Remix(重新混合)、Blend(混合)和 Loop(循环)等功能,用户可以更改视频中的元素,合并多个视频,或创建无限循环的视频。


目前,Sora 面向 ChatGPT Plus 和 Pro 用户开放。Plus 用户每月有 50 次视频生成配额,Pro 用户则高达 5000 次。用户可以通过 Sora.com 访问该工具,开始体验 AI 视频生成的强大功能。

Day 4 - Canvas迎来全面升级,并向所有用户免费开放

在 OpenAI 为期 12 天的发布会的第四天,宣布其协作工具 Canvas 迎来重大更新,并向所有用户免费开放。

Canvas 的主要更新包括:

  • 全面开放: Canvas 现已向所有 ChatGPT 用户开放,并直接集成到主模型中,用户无需额外加载即可使用。

  • 代码执行功能: 用户现在可以在 Canvas 中运行 Python 代码,并实时查看文本或图形输出,提升编程和数据分析的效率。

  • 集成至定制 GPT: Canvas 已集成到用户定制的 GPT(Custom GPT)中,允许 GPT Store 上的定制 GPT 充分利用 Canvas 的强大功能,增强用户体验。

Canvas 的这些更新使其成为一个更强大的协作平台,支持用户与 ChatGPT 在写作和编程方面进行实时协作,提升生产力和创造力。

Day 5 - ChatGPT 与 Apple 智能的集成创新

在 OpenAI 为期 12 天的发布会的第五天,本次主题是让 ChatGPT 更易用,尤其是在 Apple 设备上的无缝集成。宣布了 ChatGPT 在 iPhone、iPad 和 Mac OS 上的全面整合,并强调了无需账户即可使用该功能。

三大新功能亮点:

  • Siri 集成:Siri 在识别到复杂任务时,可将任务转交给 ChatGPT 提供解决方案。

  • 写作工具:借助 Apple 智能功能,用户可通过 ChatGPT 修改、总结文档,甚至从零创作。

  • 摄像头控制:在 iPhone 16 上,用户可使用 ChatGPT 提供基于视觉的智能交互,例如识别拍摄对象的详细信息。

在Siri识别到复杂问题时,将会转交给ChatGPT提供解决方案,示例包括组织圣诞派对和创建节日歌单,通过 Siri 向 ChatGPT 发出指令完成任务。

在视觉智能方面,用户通过摄像头分享图片让 ChatGPT识别并评估,比如评选最有趣的圣诞毛衣。

Siri 将复杂任务(例如分析长文档)转交给 ChatGPT。用户可以选择分享文档内容以获取更精确的回答。比如图中对整篇49页的文档进行分析时,siri将任务传递给ChatGPT。

根据长篇pdf内容,生成可视化分析饼图。

ChatGPT 与 Apple 的智能集成,是技术与用户体验结合的创新案例。从任务交接到视觉智能分析,这些功能使 ChatGPT 成为更高效的生产力工具,也展现了其在多平台环境下的卓越适配性。未来,用户将在更广泛的应用场景中发现其潜力,同时享受到科技带来的便利与乐趣。

Day 6 - 高级语音模式的全新功能

在 OpenAI 为期 12 天的发布会的第六天,ChatGPT 高级语音模式中加入了实时视频和屏幕共享功能。这些功能让用户可以与 ChatGPT 实现更直观的互动,例如分享视频或屏幕内容以提供上下文支持。

视频与屏幕共享功能,让GPT看见你的世界:

在演示中,GPT与不同的成员对话,并且记住了各自的姓名与外貌特征

展示了GPT实时指导如何冲泡一杯手冲咖啡,通过视频模式实时展示操作步骤和技巧建议,体现了 ChatGPT 提供实时视觉指导的能力。

引入了“圣诞模式”,用户可以与“圣诞老人”进行实时语音互动,包括分享圣诞故事、回答问题以及互动游戏。这一功能为节日增添了趣味性。

功能推广计划:

视频与屏幕共享功能将逐步向全球高级订阅用户(Plus 和 Pro)开放,企业和教育用户预计明年初可用。圣诞模式当天全球上线,用户可通过多种设备与圣诞老人互动,同时重置高级语音使用限制,让更多用户体验该功能。

ChatGPT 高级语音模式的功能升级,尤其是实时视频和屏幕共享的加入,让用户的互动更加丰富多样。“圣诞模式”则以节日主题增添了更多趣味性和实用性。未来,这些功能将为用户提供更加自然、生动且多样的使用体验,同时也展示了 OpenAI 团队在技术创新和用户需求之间的良好平衡。

Day 7 - Projects 项目功能

在 OpenAI 为期 12 天的发布会的第七天,发布了Projects功能。Projects功能通过整合原本分散的聊天记录、文件和指令,为用户提供一个更加高效、集中的工作环境。每个项目中,包含问答对话、上传文件、系统指令、聊天记录几个核心功能。

为ChatGPT提供项目管理能力:

用户可以自行将相关的对话记录整合在同一个“项目”中,便于随时查阅。

图中的"Chats in this project"展示了存储在该项目中的所有对话记录,可以作为与GPT对话时的参考内容。

用户可以通过在左侧导航栏中选择将对话记录添加至选定的项目中,也可以直接拖入相应的项目文件夹,拖出同理。

文件上传与RAG检索,搭建知识库:

用户可以自行上传Excel表格、PDF等文件,并且在回答时自动使用这些数据,相当于搭建项目知识库。

自定义Prompt,更加精准的风格把控:

为每个项目设定系统Prompt,包括角色、风格、任务等设定,确保项目中的对话能保持一致的语气和文体。

联动Canvas,更适合应用到生产场景:

用户可以在项目内通过Canvas查看开发中的代码或文本,并进行逐行对比差异或直接编辑。

左图展示了GPT中的表格形式,右图是更大的代码展示页面。

为了展示这些功能的应用场景,直播中演示了几个例子:

节日活动策划 Secret Santa

圣诞节礼物交换的过程比较复杂,策划者需要将每位家人希望收到的礼物与他们准备好的礼物进行匹配。为了解决这个问题,演示中创建了一个"Secret Santa"项目,传入活动相关的信息表格,比如每个人想要的礼物和每个人准备的礼物。然后对GPT发出指令“luther想要什么礼物?谁的礼物适合他?”随后GPT自动为其匹配了适合交换礼物的人选。

创建一个活动策划项目

上传相关的信息文件,这里包含了文档和表格

通过与数据交互,查看上传文件中的特定内容

针对项目进行对话问答

生成礼物配对表格、通过Canvas生成活动邮件。

生成礼物配对表格

Canvas生成邮件

第二个例子展示了Projects在家庭生活场景中的应用。

家庭维护日志 Home Maintenance

通过分析智能家居的日志数据,为用户提供家庭用具管理的指导。在项目中上传家庭管理规则、家电的使用说明等内容,通过问答得出操作建议。

上传说明书、指南等信息

进行提问并获得建议,比如图中“我是否需要更换冰箱的过滤器?”GPT根据用户在文档中设定的更换频率以及家庭维护日志给出更换建议。

效果:在聊天中即时获得家电维护历史和操作步骤。

自动整理说明书内容。

第三个例子展示了编程场景中Projects带来的高效帮助。

网站开发助手

搭建个人网站自己写代码太麻烦,如何通过Project快速搭建。

上传网站的代码模板、个人资料等

设定针对该项目的指令,对网站内容的生成进行自定义限制。

让GPT根据要求将个人信息填入网站的模板,通过Canvas呈现。

可以看到GPT根据模板修改出的网站效果很不错。

直接通过对话与代码进行交互,更改或增加网站的内容。

通过与GPT对话完成了个人网站的搭建,还可以通过对话进行调整修改,形成高效开发流程。

总之,“Projects”功能的推出使得ChatGPT的工作变得更加有序。过去分散的聊天记录和文件可以在一个项目中整合管理,提升了工作效率。随着未来功能的进一步扩展和改进,ChatGPT将提供更多的便利。

Day 8 - Search 更新搜索功能

在 OpenAI 为期 12 天的发布会的第八天,宣布了关于搜索功能的三项更新:根据用户反馈,搜索功能得到了优化,速度更快且移动端体验更佳;搜索功能已与高级语音模式集成,现在可以在与GPT对话中直接使用;搜索功能现已免费向所有用户开放。

优化现有搜索功能,更加丰富的展现形式:

图文并茂的形式

支持播放视频

可以直接作为搜索引擎使用,快速跳转到目标网页

手机端搜索更多的展示形态,包括列表、地图等。

集成搜索功能与高级语音模式:

实施语音交互也支持联网搜索。

OpenAI提升了在搜索场景下的用户体验,并且搜索功能现已免费向所有用户开放所有的用户都可以享受到GPT方便的联网搜索能力。

Day 9 -开发者专属的节日礼物——探索 OpenAI API 的最新功能

在 OpenAI 为期 12 天的发布会的第九天,OpenAI宣布了一系列针对开发者和企业用户的重要更新,包括模型功能扩展、实时 API 改进、新的微调方法以及开发者支持工具的优化。这些更新能够在提升模型的性能、易用性和应用场景的多样性,同时降低使用成本。

O1模型正式发布

从Preview到正式版发布,新增功能包括:函数调用、结构化输出、开发者消息。开发者消息是系统消息的新变体,实际上是指令层级工作的一部分,目的是教导模型按照什么顺序遵循哪种指令。开发者消息完全由开发者控制,用于引导模型。

此外,OpenAI还将推出“推理努力程度”。这是一个新的参数,告诉模型需要花费多少时间思考。这对于在较简单的问题上节省时间和金钱非常有帮助,然后用户可以将更多的计算能力用于最需要它的最棘手的问题。最后,在API中还推出了视觉输入,在制造业或科学等领域将会很有帮助。

实时 API 改进,函数调用更加精准:

OpenAI针对API用例进行了一些评估,包括内部函数调用评估,可以看到,新的O1模型在函数调用方面明显优于GPT-4。这实际上包括了函数调用的两个方面:在应该调用的时候调用正确的函数,以及在不应该调用的时候不调用函数

你也可以将函数调用与结构化输出结合使用,你可以看到,在这种情况,O1的表现也远优于GPT4。说到结构化输出,O1在这个评估中也明显优于。这意味着模型在遵循格式方面做得更好,因此当约束它时,我们减少了它的不确定性。

接下来是编程,Live Bench是一个开源的编程评,在这个评估中,O1的表现明显优于O1 Preview和4.0。

最后是AIME。在这个评估中,O1再次明显优于O1 Preview。但实际上,使用结构化输出的O1。在构建结构化输出时,确保了模型在使用结构化输出时的表现与不使用时一样好。即使有这个功能,推理能力也保持不变。这意味着你可以在你的应用程序中使用它,而无需担心结果。

评估之外,延迟方面实际上有一个非常有趣的变化。O1使用的思考token比O1 Preview少了60%,这意味着对于用户的应用程序来说,它更快更便宜

偏好微调(Preference Fine-Tuning)

我们引入了直接偏好优化,一种帮助模型更好满足用户需求的新方法。相比于传统的监督微调需要提供明确的输入和输出,偏好微调仅需提交一对响应,标明优劣,模型将学习其中的差异进行优化,如响应格式、风格或帮助性。

适用场景

  1. 客户支持:生成简洁且相关的回复。

  2. 文案与创意写作:优化特定风格和语气。

  3. 内容审核:确保内容符合组织要求的风格或语调。

偏好微调让模型更贴合需求,提升响应质量与用户体验。

让我来向您展示一下在我们的 API UI 中启动微调是多么容易。所以我现在在平台 UI 上,并且我在微调标签中。当我点击创建微调时,您现在可以看到方法有一个新的下拉菜单,我将选择直接偏好优化。接下来,我将选择基础模型;在这种情况下,我将选择 GPT 4o。

接下来,只需上传训练数据。格式稍有不同,以下是一个示例:假设我们询问助手纽约市的天气情况,并提供两种响应对比。 首选响应:更健谈,并使用华氏度回答。非首选响应:更简洁,并使用摄氏度回答。

这些示例会被整理成一个 JSONL 文件,每个示例包含输入消息、首选输出和非首选输出。上传后,模型将根据这些数据进行优化。

我们还提供了一些可以调整的超参数,但我现在只选择默认值并点击创建。这将启动微调过程。根据数据集的大小,这可能需要几分钟到几个小时不等。但是一旦完成,我们应该能够像在 API 的基本模型中一样,从模型中进行采样。

开发者支持更新

新增官方 Go 和 Java SDK,简化开发流程。

  • 优化登录和 API 密钥获取流程,提升用户体验。

  • 提供全球开发者日演讲视频回顾,并在 YouTube 上发布。

O1模型案例 - 图片信息识别

上传带有错误数据的文本表格的照片扫描件,检验O1是否可以检测出表格中的错误。

在Developer playground中,通过API实验OpenAI的模型。在Developer message中,用户可以为模型提供一些高级指令,或者是关于模型应该如何表现的详细指令。然后上传表单中的图片,要求模型找出所有的错误。

第一个错误是在第11行计算调整后的总收入,正确做法是用第9行减去第10行,但这里使用了加法;

第二个错误是使用了错误的标准扣除额,查看第四页的图表,标准扣除额取决于申报状态和第一页上勾选的方框数量。这意味着要得出正确的值需要参考其他两张图片的内容。

可以看到最终模型准确找出了图片里的错误,得出应纳税收入是9,325美元。

接下来根据表中的信息询问模型,如果我的应纳税收入是这么多,我需要缴纳多少所得税?

O1没有最新的2024年税表,但它可以使用我们在右侧提供的一组函数。函数是模型与用户的后端API交互的一种方式。所以在这里我们可以看一下其中一个函数。它是以JSON模式呈现的,我们提供了对函数的功能以及模型需要提供哪些参数来调用该函数的高级描述。所以这就是我们的函数调用功能。

模型调用函数的过程发生在应用程序后端,然后将信息发回到模型,以友好的形式展现给用户,这里就得出了最新的所得税。

最后将展示结构化输出。向模型提问“我的表格中需要哪些修改更正?”

在发送之前,我为模型提供一个用于响应格式的JSON模式。这将指示模型按照此JSON模式输出。最重要的是,我们还在API后端实施了解决方案,以确保模型输出100%符合此JSON模式。

它叫做表单修正,包含一个修正列表。每个修正都包含你所期望的:原因,这样我们就可以向用户展示他们哪里错了,然后是位置。这非常酷,因为我们可以为PDF渲染一个UI,并高亮显示新值和旧值的错误之处。

当你不想从模型渲染Markdown,而只是想自动提取JSON时,结构化输出非常有用。你可以看到,模型以友好的JSON格式输出了修正信息。我们有新值、旧值,所有的位置和原因。这对于构建功能丰富的应用程序非常有帮助。

实时API案例 - WebRTC

首先,WebRTC是为互联网而构建的。如果你做过会议或低延迟视频流,它们都使用WebRTC。它可以处理互联网的不断变化,调整你的比特率,并提供回声消除。令人兴奋的是,现在实时API获得了所有这些好处。

如果我构建一个应用程序,事情会容易得多,而且它直接就可以工作。为了说明这一点,我将向你展示一个小型的演示应用程序,以演示实现起来有多么容易。

所以这是一个小的HTML,为了给你一个结构,我们有一个音频元素。我们有一个对等连接。对等连接是你和实时API之间的一对一连接。

我们今天所做的是创建这个对等连接,并指定当实时API向你发送一些音频时,它应该被定向到该音频元素。接下来,我们捕获麦克风并将其添加到对等连接中。这意味着我们正在向OpenAI发送一个音频流。

现在我们已经设置了对等连接,我们继续进行一个offer-answer过程。offer-answer过程收集所有必要的本地信息,然后通过HTTP POST请求发送。之后,我们会收到一个响应。

使用WebRTC,一切都为你处理好了。你无需管理拥塞控制,捕获音频,或处理任何以前的挑战。这种简洁性真的很棒。

如果你之前使用WebSocket,这段代码可能会有200到250行。而且你还会有其他问题。你必须处理背压和所有这些事情。这是一个你直到投入生产才意识到它有多令人沮丧的问题。

让我们实际运行代码,看看它是什么样子的。“距离圣诞节还有多少天?”“圣诞节是12月25日,今天是12月17日。这意味着距离圣诞节还有8天。”不错。演示成功总是让人兴奋。

我们会把这段代码公开,这样你就可以直接去获取它。唯一需要你修改的就是你的API令牌。所以你可以去下载这段代码并运行它。我真的很期待看到大家用它来构建什么,因为我们让它变得简单多了。

接下来我需要请出一个小伙伴。我弄了一个草坪上的小鹿,草坪上的小鹿里面有一个微控制器,这是这个微控制器的非常小,就像一枚硬币那么大。我要插上电源,我们看看会发生什么。

草坪上的小鹿:圣诞快乐。

Sean:我们正在讨论将WebRTC添加到实时API中。

草坪上的小鹿:哦,这听起来对我来说有点太复杂了。我们不如来聊点更有趣的,比如派送礼物怎么样?在圣诞前夜翱翔天际,为每个人带来欢乐,没有什么比这更棒的了。

Sean:好吧,那我圣诞节会收到什么礼物呢?

草坪上的小鹿:哦,我不应该剧透惊喜,但我认为你今年可能会收到一些非常熟悉的东西。可能会有点冷?

我们看到了在驯鹿身上使用实时API的案例,但这只是冰山一角,你可以用它构建很多用例。有了这么小的东西,你可以把它放在像眼镜这样的可穿戴设备上。你可以把它放在家里的摄像头和麦克风里。你可以拥有情境感知助手。

我非常期待大家用它构建什么,因为有了这个SDK,你只需要设置你的令牌,并设置一些关于你的Wi-Fi的详细信息,它就能连接。这些微控制器可以从任何主要的零售商那里买到。你通过USB把它插上,就搞定了。

偏好微调案例

举个例子,Rogo AI 正在为金融分析师构建一个 AI 助手,他们正在使用我们的模型来重写和重构用户查询,以便给出更相关的答案。当他们使用监督微调时,他们发现性能无法超过基础模型。

但是,通过偏好微调,他们在内部基准测试中的准确率从基础模型的 75% 提高到了 80% 以上。所以我们非常期待看到其他开发者利用偏好微调能做出什么,这也是为什么我们今天将为 GPT-40 提供该功能,并且很快也会以与监督微调相同的训练token价格,为 GPT-4O mini 提供该功能。

总结

此次更新聚焦于增强模型的功能和适配性,为开发者提供更强大的工具支持:O1 模型的全面功能集和更低的推理成本,实时 API 的简化集成和更低语音处理费用,以及偏好微调方法的推出,都显著提高了开发和应用效率。未来 OpenAI 将继续优化产品,满足更多业务场景需求,同时降低使用门槛和成本,为开发者社区创造更多价值。

Day 10 - 给GPT打电话

在 OpenAI 为期 12 天的发布会的第十天,宣布了一项旨在降低 AI 使用门槛的重要更新——ChatGPT 现可通过电话和 WhatsApp 使用。这一扩展使用户在没有数据连接或账户的情况下,也可以轻松体验 ChatGPT 的强大功能。

电话接入 ChatGPT

  • 用户可拨打1-800-CHATGPT(1-802-428-478)直接与 ChatGPT 通话。

  • 每月提供 15 分钟免费通话时长(限美国用户)。

  • 适配多种设备,包括 iPhone、翻盖手机,甚至转盘电话。

WhatsApp 支持

  • 全球用户可通过 WhatsApp 与 ChatGPT 进行文字交互。

  • 无需账户即可直接使用;未来计划支持账户认证,开放更多功能(如图片处理和搜索)。

此次更新展示了 OpenAI 致力于降低技术门槛、拓展 ChatGPT 可及性的决心。通过电话和 WhatsApp 交互功能,ChatGPT 成为更广泛用户的 AI 助手,即便在没有网络连接或账户的情况下也可使用。这种创新进一步推动了 AI 在日常生活中的普及与应用,未来计划扩展更多功能,为用户提供更丰富的体验。

Day 11 - ChatGPT 桌面应用的全新功能上线

在 OpenAI 为期 12 天的发布会的第十一天,重点介绍了 ChatGPT 桌面应用的最新功能。这些更新通过本地集成和跨应用交互,为用户提供了更强大的生产力工具,并提升了自动化与文档协作体验。

桌面应用功能增强——更方便快捷:

提供轻量级的本地应用(支持 Mac 和即将推出的 Windows),运行效率高。快捷键支持(如 Option + Space)使用户可快速调用 ChatGPT,无需切换窗口。

“working with”功能——与其他应用协作

支持与用户正在使用的应用直接协作,例如Warp终端、Xcode、Notion等。并且能自动获取用户授权的应用上下文,减少手动复制粘贴操作。

Working with Xcode

新应用支持

新增 Apple Notes、Notion 和 Quip 的支持,拓展文档处理和创作场景。引入高级语音模式,通过语音与 ChatGPT 交互编辑文档或获取建议。

左图是与Notion协作场景,可以根据选择的内容进行问答交互;右图展示了用户可以使用语音与 ChatGPT 交互,例如修改文档或代码,并获得实时反馈。例如, ChatGPT 与 Apple Notes 的协同工作,通过与“圣诞老人”(语音选择的一个角色)的对话展示了其创意应用场景。

搜索与风格匹配功能

搜索功能支持从互联网上查找相关信息,并提供带有引用的答案。风格匹配功能让 ChatGPT 输出的内容更贴合用户文档风格。

开启搜索功能后,可以看到引用来源。

ChatGPT 桌面应用的新功能显著增强了生产力工具的适配性和便捷性,“与应用协作”的能力让 ChatGPT 成为更智能的桌面助手。此次更新已在 Mac 上线,Windows 支持也即将推出。未来,OpenAI 将继续推动 AI 技术在工作和创作中的深入应用,帮助用户更高效地完成任务。

Day 12 - O3模型发布预告

在 OpenAI 为期 12 天的发布会的第十二天,OpenAI宣布两款全新模型,O3与O3 Mini,前者是高性能推理模型,能够出色完成复杂任务,后者是高效推理模型,在性能和成本之间取得完美平衡。

O3模型的卓越表现

首先是编程能力,在Suite Bench Verified基准测试中,O3的准确率达到71.7%,比O1提升了20%;在Codeforces编程竞赛中,Elo评分接近2700,展现了强大的编程能力。

其次是数学推理能力,在美国数学奥林匹克筛选考试(Amy)中,O3取得96.7%的准确率,远超O1的83.3%。在GPQA Diamond测试(博士级科学问题)中达到87.7%,领先于O1的78%。

在高难度数学挑战Epic AI Frontier Math(目前最难的数学测试之一)中,O3在激进设置下取得了25%的准确率,而现有模型普遍不到2%。

ARC基准的历史性突破

ARC基准这一测试主要评估AI在未知规则下学习新技能的能力,是通向通用人工智能的重要里程碑。

O3在ARC保密测试集上的表现达到了75.7%的新纪录,并在高计算资源支持下提升至87.5%,超越了人类85%的平均水平。

O3 Mini的高性价比表现

o3-mini旨在低推理成本情况下实现高效推理。 研发人员提供了可调的思考时间设置 (低、中、高) 以满足各种使用情况,确保用户的灵活性。o3-mini在编程性能上与o1相当,但成本仅为o1的一小部分,在速度和成本上达到了一个数量级的提升,在成本效益推理方面取得了重大进步。

支持包括函数调用、结构化输出和开发者消息等API功能,满足开发者社区的核心需求。

图中展示了O3Mini如何生成并执行复杂的代码任务(如创建代码生成器和执行器)。

在右侧的图中,当测量这个匿名化的 O1 预览流量的延迟时,我们发现 O3 Mini Low模型大幅降低了延迟,像是即时响应。此外,O3-mini medium模型的延迟大约是 O1 的一半。

引入动态推理时间设置(低、中、高三种模式),可以根据任务复杂度灵活调整计算资源。在中等推理时间设置下,O3 Mini超越了O1 Mini,并以显著更低的成本实现类似的性能。

安全性改进与开放测试

O3 Mini现已向安全研究人员开放测试申请(截止日期为1月10日)。

新引入“推理对齐(Deliberative Alignment)”技术,利用模型推理能力更精确地划定安全边界。新技术显著提升了模型在处理不安全输入时的拒绝和接受准确性,进一步增强了AI的安全性。

chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/1845.html

chatgpt 中文人工智能机器人chatgpt必应chatgpt版本chatgpt衍生科技产品chatgpt可以用在智能家用电器上吗

更多ChatGPT相关文章

网友评论