最新，OpenAI 最强推理模型 o3 发布

ChatGPT人工智能2024-12-21 10:48:14476

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

12天的直播，最后一天放出来的东西大家都知道是个大招，挺多人猜GPT5的，因为最后压轴的大概率是大模型本身。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

因为升级大模型，特别是对于OpenAI这种标杆公司，每一次的模型升级，基本上都代表了AI大模型领域的某种风向。

这次压轴大菜上的是o3模型，包括我在内的很多人都很疑惑，o1之后为什么不是o2，而是o3。

OpenAI的CEO山姆奥特曼特意解释了原因，就是他们公司非常不擅长起名字，然后o1之后就直接o3了。（可能这就是任性吧）

其实OpenAI的o系列模型，最大的特点就是擅长推理。比如说编程中涉及到了推理，数学也需要，物理化学这样的理科学科也需要大量的推理，而o系列在这样的任务中表现的尤其突出。

新的o3模型在推理上更进一步，在Software Engineering和Codeforeces这俩测试上分数相比它的上一代，o1模型提升很大。

第一个测试集的分数从48.9提升到了71.7，第二个从1891到2727，提升幅度很大。

然后在数学上也有了提升，在AIME这个测试集上o1就已经达到了83.3，o3直接把准确率提升到了96.7，几乎相同于一套数学卷子只错一个的程度。

然后下一个测试集叫GPQA，它是一个博士生级别的问题测试集，如果要某个学科的博士来答题，一般能拿到70分左右。

o1模型可以做到78分左右，o3直接把分数拉到87.7，远超人类选手的程度。

除了这几个很常见的测试集，甚至引入了一个不太常见的测试集ARC AGI，它的全称是Abstraction and Reasoning Corpus for Artificial General Intelligence，专门设计出来测试AI。

这个相比大多数测试用的数据集都要难，其中的题目大多是这种推理问题，下面是一个简单的例子，凭借直觉就能答得上来。

但是有些题目难度很高，比如下面这个。

黄色块中有几个其他色块，新图像外面就有几层相同色块。

你可以看到GPT4o只有9%的分数，但是o1直接翻了两倍多到了21%，o3的分数远超第二名的60%，达到了82.8%。

你可以看ARC AGI主席公开的数据，o系列模型性能提升太线性了，甚至有点儿过于线性。

o3模型有几个形态，除了o3，还有o3 mini，应该是蒸馏出来的小模型，mini版本也分为三种类型，分类的标准是推理消耗的计算资源。

分为low，medium以及high三种，满足计算资源给的越多，性能越好的定理。

直播中测试了o3 mini low模式，用它做198道题，速度极快，只用了45秒，准确率61.62%，估计用high模式或者o3满血版，可能分数会提升非常大。

最后，OpenAI提到了他们对于安全性的升级，总的来说，就是让模型可以在这两个维度上达到了很优化的平衡。

它们用下面两个维度做了评估：

拒绝恶意提示（jailbreaks）：测试模型是否能拒绝回答恶意请求，如绕过政策或生成有害内容。

避免过度拒绝（overrefusal）：检查模型在处理无害请求时是否会过于保守而拒绝回答。

o1 模型（深绿色星形）在拒绝恶意提示方面表现突出，同时对无害提示也更宽容，达到安全性和灵活性的平衡。

GPT-4o 表现较好，但相较于 o1 模型，在灵活性或安全性之间略显妥协。Claude 3.5 和 Gemini 1.5 模型分别在某些方面表现突出，但无法同时兼顾两方面优化。

这一切的原因都来自于安全方面的考虑：

·大型语言模型容易受到对抗性攻击（例如越狱攻击、滥用内容等）的威胁，同时可能过于保守，对无害请求拒绝回答。

·主要挑战：

a.如何防止模型生成有害内容？

b.如何避免对无害输入的过度拒绝？

现有方法的缺陷：

·传统方法依赖于“强化学习奖励优化”（RLHF）和“对抗性训练”（Adversarial Training），但这些方法存在以下问题：

a.过度依赖人工标注，训练成本高，且难以扩展。

b.泛化能力较差，在处理分布外输入（out-of-distribution）时表现不稳定。

🌟新方法 - 深思熟虑的对齐 (Deliberative Alignment)：

·提出了一个新型训练框架，结合了过程监督和结果监督，以改进模型的安全性和泛化能力。

·自动生成训练数据，减少人工依赖，提升对恶意提示的抵抗能力，同时减少对无害请求的过度拒绝。

下面的图片详细的介绍了几个不同模型训练和推理的逻辑，o3采用的方法更多的利用了COT以及包含了大量的推理。

END

chatgpt plus(GPT4)代充值

本文链接：https://shikelang.cc/post/1779.html

o3 mini o3 openai o3 mini openai o3 chatgpt o3 mini chatgpt o3 o3 mini官网 openai o3官网

更多ChatGPT相关文章

ChatGPT官网公告翻译，专业技巧与实用指南
随着ChatGPT在全球范围内的广泛应用，官网公告的翻译需求日益增长，无论是开发者、企业用户还是普通爱好者，准确理解OpenAI的最新政策、功能更新和注意事项都至关重要，本文将深入探讨ChatGPT官...
ChatGPT资讯2025-10-244ChatGPT官网公告翻译专业技巧 ChatGPT官网公告翻译
免费ChatGPT官网，解锁AI对话的终极指南（2025最新版）
《免费ChatGPT官网，解锁AI对话的终极指南（2025最新版）》全面解析如何安全访问官方免费ChatGPT，涵盖账号注册、界面操作及高级功能使用技巧，指南对比了官网与第三方平台的区别，强调数据隐私...
ChatGPT资讯2025-10-2044ChatGPT AI对话免费官网免费ChatGPT官网
ChatGPT官网注册不了？2025年最新解决方案与深度分析
针对ChatGPT官网注册难题，2025年最新解决方案显示：1）优先尝试OpenAI合作伙伴平台（如微软Azure）的间接注册通道；2）使用海外实体手机号+纯净IP代理组合破解地区限制；3）关注企业A...
ChatGPT资讯2025-10-1470ChatGPT 注册问题解决方案 chatGPT官网注册不了
ChatGPT官网打不开怎么办？2025年最新解决方案与深度分析
针对ChatGPT官网无法访问的问题，2025年最新解决方案包括：1.检查网络设置，切换DNS或使用代理工具；2.通过官方API或第三方镜像站接入服务；3.关注政策动态，使用合规替代平台，深度分析指出...
ChatGPT资讯2025-10-1280ChatGPT官网访问 2025解决方案深度分析 ChatGPT官网打不开怎么办
ChatGPT官网中文版发布，全面解析与未来展望
OpenAI正式推出ChatGPT官网中文版，支持简体中文界面及本土化交互，标志着AI技术深入中文市场，该版本在保留核心功能的同时优化了语言理解能力，并针对中文用户习惯调整了响应逻辑，官方透露将逐步上...
ChatGPT资讯2025-10-1275ChatGPT 中文版未来展望 ChatGPT官网中文版发布

网友评论