Open chatgpt o1 推理能力为什么这么强

ChatGPT人工智能2024-09-29 14:24:10597

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

OpenAI 发布的 o1 模型标志着大语言模型革命的新阶段。o1 在数学、编程和科学问题上的表现远超 GPT-4，智商测试结果更是达到了120，超越90.82%的人类。

o1 的突破在于通过强化学习算法实现了"慢思考"能力，这不仅提升了模型性能，还形成了数据飞轮效应。o1 重新定义了缩放定律（scaling law），为 AI 发展开辟了新方向。

尽管如此，o1 在朋友圈中经历了短暂的热议后，似乎并未获得应有的关注。本文特意在热度褪去，查阅多方资料后，深入探讨 o1 背后的价值及其未来影响。

Open o1 标志着一个新时代的开始
Open o1 推理能力为什么这么强
缩放定律还有效吗

01

—

Open o1 标志着一个新时代的开始

你有没有这样一种感觉，在 OpenAI o1 发布前，不管是国外还是国内的模型，包括开源模型在内，有多个模型都同时达到了 GPT-4 的水平。

有时候你比我领先一点，有时候我比你领先一点，但大家都在同一个水平线上，并没有产生代差。

在几个月前的5月14日，OpenAI 抢在 Google I/O 发布 GPT-4o，短暂地引爆了朋友圈后，模型能力和话题热度很快就被新 Claude 3.5 所超越。

以至于大家开始怀疑 OpenAI 还是那个「遥遥领先」的 OpenAI 吗？

从 AI 专家到投资人，难免会有这样一个疑问：缩放定律（scaling law）还有效吗？

不要小看了这个问题，不仅与英伟达数万美元市值息息相关，而且决定了 AGI 甚至 ASI（Artificial Super Intelligence）的进程。

随着 OpenAI o1 发布，过去的质疑、猜测都已尘埃落定。

在数学竞赛（Competition Math）和编程竞赛（Competition Code）上，OpenAI o1 完全碾压 GPT 4o，在博士级科学问题上，已经超过了人类专家的水平。

横向跟同类大模型对比，门萨智商测试中，o1 测出来智商是120，不但碾压所有其他大模型，而且比90.82%的人类聪明。

下图非常形象地说明了 o1 一骑绝尘的「智商」。

o1 已经强大到让 OpenAI 不惜放弃 GPT 系列，而是将计数器重置为 1，并将这一系列命名为 OpenAI o1。

万维刚近期在专栏中表达了这样一个观点，大意是：2024年09月12日发布的 OpenAI o1，标志着大语言模型革命的第一阶段已经结束。

没错，OpenAI o1 意味着一个新时代的开始。

02

—

OpenAI o1 推理能力为什么这么强

熟悉提示工程的读者，大多都直观感受过「思维链（CoT：Chain-of-Thought）」的效果。

所谓的思维链，指的是不管对大模型多说一句“咱们一步一步想”，还是给它一个按步骤思考的用例（如下图所示），大模型就能分步骤思考，返回更准确的答案。

这个过程其实就是人类最核心的思考方式：慢思考。而「慢思考」用于逻辑推理和复杂决策。

以前我们通过提示词就能引导大模型做「慢思考」，那 OpenAI o1 的突破在哪呢？

o1 的突破在于，通过强化学习算法，让大模型内化了「慢思考」的能力。

强化学习算法的思路非常简单。以游戏为例，如果在游戏中采取某种策略可以取得较高的得分，那么就进一步「强化」这种策略或过程，以期继续取得较好的结果。

强化学习在许多领域都有应用，包括游戏、自动驾驶汽车等。著名的强化学习例子是早年 DeepMind 的 AlphaGo，它在围棋游戏中击败了世界冠军。

回到强化学习在 o1 中的应用，可能是如下的过程：

比如你问：月亮可以装多少个高尔夫球？

o1 会先想问题的第一步，对这一步，它产生了比如说四个想法：1）首先我知道月球有多大；2）我知道月亮是奶酪做的；3）一个高尔夫球有多大；4）我不知道怎么回答但我可以猜……

o1 自行判断，其中第3个想法最好（至于为什么是第3个想法好，这里涉及大量算法细节和工程优化，已经超出了本文的范畴）。

从第一步出发，o1 再考虑第二步。还是先产生四个想法，从中选择。

之所以是「可能」，是因为 OpenAI 还没有公布实现细节，甚至出于安全考虑，隐藏了推理过程的细节。

与传统的监督学习不同，强化学习没有事先标记好的数据集来训练模型。相反，o1 的推理过程还能产生大量高质量的训练数据，形成数据飞轮，进一步提升模型性能。

比起上一代大模型堆参数和算力的暴力解法，这个数据飞轮才是 OpenAI 真正的先发优势。

03

—

缩放定律还有效吗？

这不禁让我想起了 Ilya 前段时间关于缩放定律（scaling law）的洞见：“大家都在谈缩放，却忽视了一个问题：我们在缩放什么？有些人可以加班加点，更快走上同样的道路。这不是我们的风格。如果你走不同的路，那就有可能做出与众不同的东西。”

随着 o1 的发布，大模型与强化学习结合，缩放定律不仅有了广度，还有了深度，这里的深度指的是不仅可以通过模型参数量的提升来提高效果，还可以通过强化学习来进行慢思考，提高推理过程的质量。

相应的，「慢思考」会带来更多推理层面的算力消耗。

图中的草莓，代指 OpenAI o1，草莓是该项目的内部代号

以前大模型算力花费可以分为三部分：

预训练（Pre-training），用来学习、记忆海量的语料，这是绝对的消耗大头；
后训练（Post-training），包括微调和对齐，教会大模型说人话，对齐人类的价值观，这一步的花费略少；
推理（Inference），就是日常使用大模型消耗的 token（credit 或点数），单次的花费并不大。

在 o1 出来之前，按照一些分析师和投资人的推测，当大模型堆砌算力的效果进入「边际收益递减」的区间时，大模型厂商再去采购更多的 GPU，训练一个更大参数的模型，显然就不是一个划算的生意。

而推理过程对算力的消耗有限，这就会导致大模型发布后，对算力的需求将会骤降，从而引起 GPU 产能过剩。

而 o1 的发布，引领着强化学习的全新方向，带来了巨大推理算力需求提升，这才是 OpenAI 本次升级的里程碑意义，对于算力也是如此。

04

—

写在文末

用 OpenAI 应用研究领导人鲍里斯·鲍尔（Boris Power）的话说，o1更像是当年的 GPT-3：你可能不会立即感到它的价值，但那是因为它还很初步，连 OpenAI 自己都不能预测它能做什么 —— 但过不了多久，你就会感受到从 GPT-3 到 ChatGPT 那样的冲击力。

是的，尽管目前o1仍有局限性：价格贵速度慢，在功能上还有一定程度的倒退，但它可能会成为通向 AGI 的关键一步，值得我们拭目以待。

参考链接

关于 OpenAI o1 的几个认识，《万维刚精英日课 6》 https://www.dedao.cn/course/article?id=zl12vGeNAM0YVpPqQMVdmxjOQBP5oL
逆向工程 OpenAI 的 o1，https://www.interconnects.ai/p/reverse-engineering-openai-o1
从思维链到强化学习到OpenAI o1模型，系统解读推理大模型对AI Agent的影响，https://www.techsir.com/a/202409/89510.html
Open AI发布o1新模型：强化学习和LLM的双飞轮启动！https://xueqiu.com/4934696230/304556209

chatgpt plus(GPT4)代充值