OpenAI o1 如何思考的?

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:pingzi7856

o1 效果惊艳社区
OpenAI o1 悄然上线却震撼整个社区:编程、奥数、理化跻身人类最强大脑水平,标志着大模型发展到了一个新纪元。
https://openai.com/index/learning-to-reason-with-llms/
          
   
          
对于背后的技术,OpenAI 没有透露细节,只是一笔带过:o1的性能随着“强化学习”的增加而不断提高
“类似于人在回答难题前会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会了磨练自己的思维链,并完善使用策略。它学会了认识和纠正自己的错误,把棘手的步骤分解成更简单的步骤,当前的方法不起作用时,尝试不同的方法”。
这不就是古人教导我们的“三思而后行”吗?!
无独有偶,7 月谷歌宣布推出的 AlphaProof,就是将LLM与强化学习结合起来解决数学难题的。AlphaProof 通过查看正确答案来学习如何做数学推理,拿到奥数银牌。
          
AlphaProof强化学习训练循环: 大约一百万个非正式的数学问题被规范化网络翻译成一种规范的数学语言。然后,求解器网络搜索问题的证明或证伪,逐步通过 AlphaZero 算法训练自己来解决更具挑战性的问题。
特定问题效果确实很好,然而,关键问题是,不是所有事情都有正确答案。OpenAI o1 应该是找到了更通用的”元推理“策略而不是某个具体推理问题,“它实际上在所有领域都相当擅长推理”。
逆向强化学习?
OpenAI 将这个突破归因于强化学习,”薛定谔的小板凳与深度学习的后浪“中笔者探讨过强化学习:
通过让软件定义的智能体(Agent)与环境(Environment)交互来训练模型。当智能体的行为(Action)产生期望的结果时,智能体将获得激励(Reward),也就是环境给它这个行为正面或者负面的反馈,促其成长到新的状态(State),这一行为也将被强化,塑造智能体在此环境下,后续的良好行为。这一交互过程持续迭代,智能体在奖励或惩罚中不断的“学习知识”,“积累经验”,从而更加适应环境。    
在大模型中,对所有领域的复杂场景,给出强化学习必需的激励(Reward)是极其困难的,多数情况几乎不可行。
因此笔者觉得,OpenAI o1 中不是强化学习,而是逆向强化学习(IRL: Inverse Reinforcement Learning),笔者不是白马非马论,明确这一点有助于理解背后的机理:通过收集专家的经验与环境信息,来反向学习激励函数
             
          
如果是IRL, 专家经验与环境信息来自哪里呢?笔者注意到OpenAI声明中的一个细节:
“在 2024 年AIME( 美国数学奥林匹克竞赛 )评估中,GPT-4o 平均只解决了 12% (1.8/15) 的问题。O1 平均 74% (11.1/15, 每个问题只有一个样本),83% (12.5/15,在 64 个样本中达成一致),93% (13.9/15,在使用学习评分函数重新排名 1000 个样本时)”,这里的样本应该就是专家经验了。
同样在”薛定谔的小板凳与深度学习的后浪“文中笔者也进一步说过:
" IRL改造后的强化学习,其实像极了生成对抗网络GAN:只不过GAN中的左右手互博的猫和老鼠的对抗,变成了这里的专家对智能体的循循善诱的激励与辅导。学习效果的好与坏,本质上是比较专家样本分布,与智能体行为样本分布的差异,最小化这两个分布之间的距离。"  
 
笔者判断,o1 采用 IRL 的方式,拉长了推理时间进行多次尝试,学习获取专家的推理经验,本质上改善了 LLM 现在几乎接近初始随机采样的推理方式,把茶壶里的饺子倒了出来。
殊途同归罗马?
"如何提升大模型推理能力" 中,笔者预见过:大模型技术还在日新月异的发展,即使大模型永远不会停止幻觉, 在未来,专业系统会验证LLM输出,针对特定环境优化的人工智能工具将部分取代今天的通用模型。o1就是做了这样的专家验证。
从目前宣传的效果看,通过IRL, o1 已经学会拆解任务,自我纠偏,调整策略,多次尝试 等System2 层面的能力,System2原本是倾向于在Agent智能体中实现的。这实证了强化学习的强大,然而不是所有人都认同这个方向,尤以杨乐昆为典型代表。    
乐昆认为就试验次数而言,强化学习的效率低得令人难以置信,无法实现AGI, 与自回归一样都是歧路。他提出一种模块化的认知架构,核心是一个预测世界模型,就是他到处布道的”分层联合嵌入预测架构 (H-JEPA)”。请参考:通往世界模型之路Sora、Genie、Emo、LTX Studio
          
          
笔者也认同强化学习有内在的局限性,但不是单纯的效率问题。”薛定谔的小板凳与深度学习的后浪“文中笔者分析过:
强化学习体系的复杂性随着环境中智能体的数量增加而指数级的增长,很快就会触及维度灾难:
  • 如何为数量庞大的智能体确立学习目标,设定激励机制,促进群体共同学习;
  • 如何调整每一个智能体的变动的学习目标,调整其最优策略随着其他智能体的策略的改变而改变;
  • 如何在持续变更的环境中,描述长时间尺度的激励,以便智能体产生延迟满足,或者以退为进的协同策略;
这些目前看都是世界级难题。如果OpenAI 依赖强化学习通往AGI,恐怕这都是难以逾越的大山。IRL 会有Scaling Law的奇迹吗?
          
面对有限理性的人们,把他们的行为简单地看成神经系统对客观环境激励的反应,忽视了人的内在因素,诸如需要、兴趣、意识、观念、思想与价值判断等等,不符合心理活动的客观规律。
人的行为是外部环境和内部意识相互作用的结果,两者结合才能达到调整行为的目的。基于机械行为主义的深度强化学习,需要加强探索设计智能体本身的需求,结合“赫胥黎焦虑“中探讨的进化策略(Evolution Strategy)与适应度函数,设计短期长期结合的激励机制。    
OpenAI 放出o1 预览版,笔者觉得可能有两个意图:1. 证明自己的大模型实力依然不俗;2. 搜集更多实际场景中的专家推理经验。o1 已经放出,乐昆的H-JEPA 还在PPT上,未来还有机会殊途同归么?!
数理认知框架的指引 
华盛顿大学名誉教授、著名 AI 专家 Oren Etzioni 试用过o1后表示, “未来还有更多挑战,即使推理得到了解决,我们仍然会面临幻觉和事实的挑战“。
这符合笔者在降低大模型幻觉的必由之路一文中的见解,大模型的幻觉,解铃还须系铃人
          
          
在严谨性准确性要求较高的场景下尽快提升大模型的推理能力,是避免AI 领域再入寒冬的当务之急。这是笔者对"如何提升大模型推理能力"的建议:    
          
“ 想尽办法搜集人类推理的数据,通过引导大模型学习人类特定的推理经验,更好地理解“范畴的结构和关系”,优化范畴内和跨范畴采样算法,从而提升大模型的推理能力,降低幻觉。” 
笔者判断,强化学习可能只是增强大模型推理能力(范畴内和跨范畴采样)的初级阶段。如果未来存在“RL Scaling Law”,有潜在的可能积累足够多的“元推理”,通过“元推理”实现对复杂推理的涌现
从范畴角度看,这是面向“推理”的topos。读者可以将上图中“语料”,换成“推理案例数据”,就明白这句话在表达什么了。

chatgpt plus(GPT4)代充值

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

本文链接:https://shikelang.cc/post/1377.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

更多ChatGPT相关文章

网友评论