先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
OpenAI 发布的 o1 模型标志着大语言模型革命的新阶段。o1 在数学、编程和科学问题上的表现远超 GPT-4,智商测试结果更是达到了120,超越90.82%的人类。
o1 的突破在于通过强化学习算法实现了"慢思考"能力,这不仅提升了模型性能,还形成了数据飞轮效应。o1 重新定义了缩放定律(scaling law),为 AI 发展开辟了新方向。
尽管如此,o1 在朋友圈中经历了短暂的热议后,似乎并未获得应有的关注。本文特意在热度褪去,查阅多方资料后,深入探讨 o1 背后的价值及其未来影响。
Open o1 标志着一个新时代的开始
Open o1 推理能力为什么这么强
Open o1 标志着一个新时代的开始
你有没有这样一种感觉,在 OpenAI o1 发布前,不管是国外还是国内的模型,包括开源模型在内,有多个模型都同时达到了 GPT-4 的水平。有时候你比我领先一点,有时候我比你领先一点,但大家都在同一个水平线上,并没有产生代差。在几个月前的5月14日,OpenAI 抢在 Google I/O 发布 GPT-4o,短暂地引爆了朋友圈后,模型能力和话题热度很快就被新 Claude 3.5 所超越。以至于大家开始怀疑 OpenAI 还是那个「遥遥领先」的 OpenAI 吗?从 AI 专家到投资人,难免会有这样一个疑问:缩放定律(scaling law)还有效吗?不要小看了这个问题,不仅与英伟达数万美元市值息息相关,而且决定了 AGI 甚至 ASI(Artificial Super Intelligence) 的进程。随着 OpenAI o1 发布,过去的质疑、猜测都已尘埃落定。在数学竞赛(Competition Math)和编程竞赛(Competition Code)上,OpenAI o1 完全碾压 GPT 4o,在博士级科学问题上,已经超过了人类专家的水平。横向跟同类大模型对比,门萨智商测试中,o1 测出来智商是120,不但碾压所有其他大模型,而且比90.82%的人类聪明。o1 已经强大到让 OpenAI 不惜放弃 GPT 系列,而是将计数器重置为 1,并将这一系列命名为 OpenAI o1。万维刚近期在专栏中表达了这样一个观点,大意是:2024年09月12日发布的 OpenAI o1,标志着大语言模型革命的第一阶段已经结束。没错,OpenAI o1 意味着一个新时代的开始。熟悉提示工程的读者,大多都直观感受过「思维链(CoT:Chain-of-Thought)」的效果。所谓的思维链,指的是不管对大模型多说一句“咱们一步一步想”,还是给它一个按步骤思考的用例(如下图所示),大模型就能分步骤思考,返回更准确的答案。这个过程其实就是人类最核心的思考方式:慢思考。而「慢思考」用于逻辑推理和复杂决策。以前我们通过提示词就能引导大模型做「慢思考」,那 OpenAI o1 的突破在哪呢?o1 的突破在于,通过强化学习算法,让大模型内化了「慢思考」的能力。强化学习算法的思路非常简单。以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略或过程,以期继续取得较好的结果。强化学习在许多领域都有应用,包括游戏、自动驾驶汽车等。著名的强化学习例子是早年 DeepMind 的 AlphaGo,它在围棋游戏中击败了世界冠军。回到强化学习在 o1 中的应用,可能是如下的过程:o1 会先想问题的第一步,对这一步,它产生了比如说四个想法:1)首先我知道月球有多大;2)我知道月亮是奶酪做的;3)一个高尔夫球有多大;4)我不知道怎么回答但我可以猜……o1 自行判断,其中第3个想法最好(至于为什么是第3个想法好,这里涉及大量算法细节和工程优化,已经超出了本文的范畴)。从第一步出发,o1 再考虑第二步。还是先产生四个想法,从中选择。之所以是「可能」,是因为 OpenAI 还没有公布实现细节,甚至出于安全考虑,隐藏了推理过程的细节。与传统的监督学习不同,强化学习没有事先标记好的数据集来训练模型。相反,o1 的推理过程还能产生大量高质量的训练数据,形成数据飞轮,进一步提升模型性能。比起上一代大模型堆参数和算力的暴力解法,这个数据飞轮才是 OpenAI 真正的先发优势。缩放定律还有效吗?
这不禁让我想起了 Ilya 前段时间关于缩放定律(scaling law)的洞见:“大家都在谈缩放,却忽视了一个问题:我们在缩放什么?有些人可以加班加点,更快走上同样的道路。这不是我们的风格。如果你走不同的路,那就有可能做出与众不同的东西。”
随着 o1 的发布,大模型与强化学习结合,缩放定律不仅有了广度,还有了深度,这里的深度指的是不仅可以通过模型参数量的提升来提高效果,还可以通过强化学习来进行慢思考,提高推理过程的质量。图中的草莓,代指 OpenAI o1,草莓是该项目的内部代号- 预训练(Pre-training),用来学习、记忆海量的语料,这是绝对的消耗大头;
- 后训练(Post-training),包括微调和对齐,教会大模型说人话,对齐人类的价值观,这一步的花费略少;
- 推理(Inference),就是日常使用大模型消耗的 token(credit 或点数),单次的花费并不大。
在 o1 出来之前,按照一些分析师和投资人的推测,当大模型堆砌算力的效果进入「边际收益递减」的区间时,大模型厂商再去采购更多的 GPU,训练一个更大参数的模型,显然就不是一个划算的生意。而推理过程对算力的消耗有限,这就会导致大模型发布后,对算力的需求将会骤降,从而引起 GPU 产能过剩。而 o1 的发布,引领着强化学习的全新方向,带来了巨大推理算力需求提升,这才是 OpenAI 本次升级的里程碑意义,对于算力也是如此。用 OpenAI 应用研究领导人鲍里斯·鲍尔(Boris Power)的话说,o1更像是当年的 GPT-3:你可能不会立即感到它的价值,但那是因为它还很初步,连 OpenAI 自己都不能预测它能做什么 —— 但过不了多久,你就会感受到从 GPT-3 到 ChatGPT 那样的冲击力。是的,尽管目前o1仍有局限性:价格贵速度慢,在功能上还有一定程度的倒退,但它可能会成为通向 AGI 的关键一步,值得我们拭目以待。
- 关于 OpenAI o1 的几个认识,《万维刚精英日课 6》 https://www.dedao.cn/course/article?id=zl12vGeNAM0YVpPqQMVdmxjOQBP5oL
- 逆向工程 OpenAI 的 o1,https://www.interconnects.ai/p/reverse-engineering-openai-o1
- 从思维链到强化学习到OpenAI o1模型,系统解读推理大模型对AI Agent的影响,https://www.techsir.com/a/202409/89510.html
- Open AI发布o1新模型:强化学习和LLM的双飞轮启动!https://xueqiu.com/4934696230/304556209
本文链接:https://shikelang.cc/post/1398.html
Bardchatgpt4.0代充会封号吗获取ChatGPT4账号ChatGPT智能客服医疗大模型
网友评论