CHATGPT 聊天中已可体验中等推理强度的 o3-mini 和高推理强度的 o3-mini-high 模型

ChatGPT人工智能2025-02-05 15:05:551024

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

o3-mini

今天凌晨，OpenAI 发布了其最新的推理模型，o3-mini 系列。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

这次发布的 o3 包含推理强度为低、中、高三个选项，目前 GPT 聊天中已可体验中等推理强度的 o3-mini 和高推理强度的 o3-mini-high 模型。

在 Humanity's Last Exam 的最新测评基准中，o3-mini-high 模型的准确率和校准误差均优于 DeepSeek R1 模型：

技术报告

与 o1 类似，o3-mini 针对 STEM 推理进行了优化：

o3 mini 对比 o1：性能相当，速度更快

在中等推理强度下，o3-mini 在数学、编程和科学方面的表现与 o1 相当，同时提供更快的响应速度。

o3-mini 在包括 AIME 和 GPQA 在内的一些最具挑战性的推理和智能评估中与 o1 的表现相当。

o3 mini 对比 o1-mini：更准确，更清晰

专家测试者的评估显示，o3-mini 比 o1-mini 能产生更准确、更清晰的答案，具有更强的推理能力。测试者在 56%的情况下更倾向于 o3-mini 的响应，并观察到在困难的现实世界问题上主要错误减少了 39%。

1. 数学能力

在 AIME 2024 的测试中，低推理强度的情况下，o3-mini 达到了与 o1-mini 相当的性能表现。而在中等推理强度的情况下，o3-mini 达到了与 o1 相当的性能表现。

在高推理强度的情况下，o3-mini 的表现超过了 o1-mini 和 o1 两者。

在 FrontierMath 这个专门用于评估大语言模型数学能力的基准测试集上，当使用 Python 工具时，高推理强度的 o3-mini 首次尝试即解决了超过 32%的问题，其中包括超过 28%的挑战性（T3）问题。

2. 科学问题

在博士级别的生物、化学和物理问题上，o3-mini 在低推理强度下表现优于 o1-mini。在高推理强度下，o3-mini 的表现与 o1 相当。

3. 编程能力

在编程的各项能力上，o3-mini-high 完全领先于 o1：

根据其在 LiveBench 的表现来看，随着推理强度升级，o3-mini的优势还在不断扩大：

4. 常识问题

o3-mini 在多个常识知识领域的评估中表现优于 o1-mini：

o3-mini-high 实测

1. 简单代码生成

用 o3-mini-high 生成一个春节主题的烟花效果，o3 一次就生成了我要的效果：

对比 DeepSeek R1，相同的提示词，R1 第一次生成的无法运行，修改两次后的效果如下：

2. 物理模拟测试

参考国外网友的 prompt 做了这样一个测试：让一个球在旋转的六边形内弹跳，球应受到重力和摩擦力的影响。

o3 一次生成结果如下：

Claude3.5 Sonnet：

只一秒， Sonnet 的球居然掉了......

R1 由于 API 不稳定，无法进行测试。

接下来，使用 Python 模拟四维超立方体内弹跳球。

o3 一次生成的结果如下，完全符合物理定律，并且在代码中给出了详细的速度分量的转化公式：

Claude3.5 Sonnet 的结果，足够幽默：

接下来，我让 o3 模拟三体运动。提示词就一句话：

写一个 python 程序，模拟三体运动，需要呈现天体运动轨迹。

o3 一次生成的结果如下，并且还告诉了我这些：

我让它修改代码，设定一个与 figure‑8 不同的初始条件进行模拟，也是一次出结果(由于公众号对 gif 大小的限制，我截取了前三段）：

第 0-10 S：

第10-20 S：

第 20-30 S:

完整视频如下：

它对于这次的初始条件也进行了说明：

3. 俄罗斯方块

用 o3 生成一个俄罗斯方块游戏，需要有难度选择和计分板。一次出结果：

4. 科学问题

前段时间刚好看了一篇利用 RL 进行水库联合调度的文章。于是我让 o3 思考这个问题。

相比于之前的 o1 或是 DeepSeek R1，o3 思考过程结构清晰，简单明了，没有“话痨”般的反复 Reflection：

o3 输出的内容逻辑也非常清晰：

我继续追问，让它设计奖励函数，调整目标的权重系数，它的完成度也很高（仅截取部分内容）：

5. 数学竞赛

我在 2024 年第 40 届中国数学奥林匹克竞赛的题目中，选了这样一道题目：

o3 思考 22 秒，给出了如下的答案：

同样的问题， R1足足思考了六分半钟：

R1 的答案是这样的：

结合上边的对于科学问题的测试，o3 的思考过程和结果输出，都更加“优雅”。

总结

在 DeepSeek 的追赶之下，o3-mini 的发布似乎是临时为之。

但 o3-mini 确实解决了 o1 、DeepSeek R1 在推理过程中那种混乱、过度反思的问题（R1 尤为严重），o3-mini 的思考过程更为精准，逻辑也更强。

实测下来，我自己的感觉是：

o3 的思考过程与结果输出有一种简洁、朴素和一致性的美。

简洁的描述代表着低复杂度、高压缩率，在理论上更接近事物的“最优”描述。

当一个 AI 能够用较少的信息有效描述和预测复杂现象时，这种精炼与高效本身就蕴含着一种独特的美感。

而最简单、最朴素的表述，往往也最能直接地反映事物的本质。

chatgpt plus(GPT4)代充值

本文链接：https://shikelang.cc/post/2054.html

o3-mini o3-mini-high o3

更多ChatGPT相关文章

ChatGPT官网公告翻译，专业技巧与实用指南
随着ChatGPT在全球范围内的广泛应用，官网公告的翻译需求日益增长，无论是开发者、企业用户还是普通爱好者，准确理解OpenAI的最新政策、功能更新和注意事项都至关重要，本文将深入探讨ChatGPT官...
ChatGPT资讯2025-10-248ChatGPT官网公告翻译专业技巧 ChatGPT官网公告翻译
免费ChatGPT官网，解锁AI对话的终极指南（2025最新版）
《免费ChatGPT官网，解锁AI对话的终极指南（2025最新版）》全面解析如何安全访问官方免费ChatGPT，涵盖账号注册、界面操作及高级功能使用技巧，指南对比了官网与第三方平台的区别，强调数据隐私...
ChatGPT资讯2025-10-2046ChatGPT AI对话免费官网免费ChatGPT官网
ChatGPT官网注册不了？2025年最新解决方案与深度分析
针对ChatGPT官网注册难题，2025年最新解决方案显示：1）优先尝试OpenAI合作伙伴平台（如微软Azure）的间接注册通道；2）使用海外实体手机号+纯净IP代理组合破解地区限制；3）关注企业A...
ChatGPT资讯2025-10-1470ChatGPT 注册问题解决方案 chatGPT官网注册不了
ChatGPT官网打不开怎么办？2025年最新解决方案与深度分析
针对ChatGPT官网无法访问的问题，2025年最新解决方案包括：1.检查网络设置，切换DNS或使用代理工具；2.通过官方API或第三方镜像站接入服务；3.关注政策动态，使用合规替代平台，深度分析指出...
ChatGPT资讯2025-10-1281ChatGPT官网访问 2025解决方案深度分析 ChatGPT官网打不开怎么办
ChatGPT官网中文版发布，全面解析与未来展望
OpenAI正式推出ChatGPT官网中文版，支持简体中文界面及本土化交互，标志着AI技术深入中文市场，该版本在保留核心功能的同时优化了语言理解能力，并针对中文用户习惯调整了响应逻辑，官方透露将逐步上...
ChatGPT资讯2025-10-1275ChatGPT 中文版未来展望 ChatGPT官网中文版发布

网友评论