OpenAI o1打破数据瓶颈,AI也能像人一样思考

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI发了一个新模型——OpenAI o1系列模型。


推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

对比以往发布的模型,o1模型可以说相当有特色。用官方的说法,o1代表了现阶段AI最强的推理能力,尤其擅长解决数学解题、代码生成等等复杂推理任务。


OpenAI也很重视这个模型,没有用GPT继续给这个模型命名,而是采用了一个新名字:OpenAI o1。


Sam Altman更是将OpenAI o1的发布比作一个新阶段的开始:


可以进行通用复杂推理的AI。


那么,为什么AI学会复杂推理这么重要?o1的发布,又对AI通往AGI有着什么样的意义?


/ 01 /

AI也会慢思考了

与之前发布的模型相比,o1最大的特点就是推理能力很强。


打个比方,之前大模型更像是文科生,擅长文本类工作,但逻辑推理和复杂计算方面差点意思,遇到奥数题目就歇菜。而o1则更像一个理科生,不仅能推理复杂任务,还能解决科学、编码和数学领域中比以往更为困难的问题。


o1的逻辑能力有多强?用OpenAI发布的一组图,你就明白了。


第一个图是o1参加AIME 2024的成绩。AIME 2024是国际数学奥林匹克竞赛(IMO)的资格考试,难度不言而喻。在这个比赛里,o1的准确率是83.3%,而GPT4o的准确率只有13.4%。



第二项是编程竞赛,o1的准确率高达89%,而GPT4o准确率只有11.0%。最后一项测试是GPQA Diamond,主要测试的是化学、物理和生物学方面的专业知识。在这个测试里,o1超越了人类专家的表现,成为第一个在这个测试中表现优于博士级别专家的模型。


这些测试结果表明,o1在数学、编程、科学等推理类任务上达到了新高度,甚至在某些任务上已经超过了人类专家的水平。


为什么o1的推理能力这么强?这得益于思维链的构建。


思维链,最早出现在2022年谷歌发布论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中,是大模型提示词(Prompting)工作的一种。


在o1回答问题前,会产生一个内部的思维链,思维链会把大模型没办法直接回答的复杂问题,分解为一个个简单的任务各自计算,然后把这些答案拼接在一起进行求解,而不是直接给出计算结果。


对于思维链的价值,知乎答主绝密伏击打过一个很形象的比喻:


标准 Prompting


给大模型一道数学题,在标准Prompting下,模型无法做出正确的回答。但如果我们给模型一些关于解题的思路,在CoT提示下,它就会像我们数学考试,都会把解题过程写出来再最终得出答案,比如下图:


CoT提示


在这个过程中,大模型能够识别和修正自己的错误,不断改进推理策略。这种思维过程不仅让它的推理能力得到显著提升,还让模型在回答问题时更加可靠。


不过这种思维方式,需要更长的响应时间。理论上,大模型思考的时间越长,推理任务上的表现就越好,可以理解为用时间换取推理深度。


o1的发布补足了GPT模型在推理方面的缺陷,让AI更接近人类双系统的思考方式。


人类大脑在处理信息和做出决策通常有两种方式:快思考(系统1)和慢思考(系统2)。前者无意识且快速的,它依赖直觉、记忆和经验迅速作出判断。后者则有意识的、需要调动注意力的思考方式,它通过分析和解决问题,并作出决定,虽然较慢,但不容易出错。


这种互补性,也极有可能会出现在GPT和o1上。


GPT系列对应系统1,负责快速、直接决策,依赖于经验和情感,而o1则对应系统2,复杂较慢的思考和推理,依赖于逻辑和理性分析。


两种系统协同运作,当系统1快速反应不足以面对复杂情况时,系统2会介入进行更深入的分析,进而让AI最终能够让人一样思考。


当然,让AI像人一样思考,还不是o1唯一的意义。


/ 02 /

智能提升的另一种路径


在o1发布后,OpenAI研究员诺姆·布朗(Noam Brown)在X上写下:


o1模型,意味着一种新的扩展范式。


这是o1发布的另一个重要意义。大模型将进入了一个新的扩张范式:从模型参数增大,转向强化学习的探索。


众所周知,过去一年里,大模型的升级全靠“大力出奇迹”的方式,也就是说,随着计算量、模型参数和数据集大小的增加,模型的性能通常会显著提高。


但现在这条路越来越不好走了。因为在这种训练模式下,大模型需要大量且优质的训练数据,但这带来了两个问题:


一是随着训练需要的数据量越来越大,去哪找这么多高质量数据是个问题。二是喂了这么多数据,大模型学习方式本质还是归纳总结,但并没有真正搞懂事物的逻辑。


举个例子,大模型发现人渴了,就需要喝水。大模型理解了口渴和喝水之间的关联性,但它可能没办法理解,为什么人渴了,要喝水。这也是为什么大模型面对复杂问题时,经常出现逻辑错误的原因。


在这种情况下,就需要新的扩张范式来提升大模型的智能能力。于是,强化学习进入了AI大厂的视野。


所谓的强化学习,是让AI在一个环境里自己探索。在探索过程中会得到很多反馈,这些反馈有好的,也有不好的,AI再根据反馈不断调整自己的策略和对环境的认知。


这样的策略以前在AlphaGo身上也用过。为了提高AlphaGo的围棋水平,研究员让AlphaGo自己和自己下棋,从而产生大量高水平的棋谱,这有点像金庸武侠小说里老顽童周伯通的左右互搏武功。再通过下棋输赢(或者平棋)的结果对走棋路径进行评估。


在后来的AlphaZero训练里,模型进行了大约500万局自我对弈,每局大约200步,做好每一步平均需要1600次模拟。这使得总的模拟次数达到了1.6万亿次。大量的高质量合成数据,最终让AI探索出和人类不一样的游戏套路,并战胜了大部分职业选手。


从本质上说,这个方法是用AI无限的计算能力,来补足它数据利用效率不够的短板。也就是说,只要扩张推理计算能力,就能实现大模型智能水平的提升。


这更符合当下AI发展的现状。相比寻找更大规模的优质数据,通过基建实现推理算力的增长是一条更可行的路径。


如今,有了思维链,大模型可以把推理过程中的每一步思考都记录下来,并进行打分,再根据评分高低反馈给模型进行调整。在这个过程中,大模型不仅能学到如何给出正确答案,还能举一反三获得更多的数据反馈,进而提升其智能水平。


当然,作为刚刚发布的新模型,o1仍然有很多的缺陷。但在GPT5遥遥无期的情况下,这至少给行业带来了新的思路。至于这条路线究竟是否会将我们带向AGI,我们可以拭目以待。



文/林白


chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/1378.html

chatgpt是什么东西国内有哪些类似chatgpt的软件服装模特chatgpt需要电脑什么配置ChatGPT Plus插件搜索

更多ChatGPT相关文章

  • 苹果礼品卡充值gpt

    如何在GPT上使用苹果礼品卡充值?这里有你需要的指南!亲爱的读者朋友们,今天我们将一起探索如何将苹果礼品卡(iTunes Gift Card)充值到GPT账户中,对于许多国际用户来说,使用礼品卡支付是...

  • GPT机器人购买

    如何购买GPT机器人:一站式指南亲爱的读者们,你是否曾经想过拥有一个能随时随地提供帮助的人工智能助手?随着科技的进步,GPT(Generative Pre-trained Transformer)机器...

  • GPT会员是什么?解锁ChatGPT的高级功能!

    亲爱的读者,你是否曾经在使用ChatGPT时,感觉到了一些限制?或者,你是否有想过如何更高效地利用这个强大的人工智能工具?如果你的答案是肯定的,那么你可能会对GPT会员产生兴趣,在这篇文章中,我们将带...

  • 如何通过支付宝使用GPT付款?一文教你轻松搞定!

    亲爱的读者,你是否曾在线上购物或者支付时遇到需要使用GPT付款的情况?随着技术的不断进步,GPT(生成预训练转换器)技术已经渗透到我们的日常生活中,包括支付领域,我们就来聊聊如何通过支付宝这个广泛使用...

  • 如何在支付宝上轻松付费使用GPT-4?

    亲爱的朋友们,你是否曾想过,如何将人工智能的力量带入你的日常生活?GPT-4,作为最新的智能对话模型,已经准备好成为你的数字助手,但你可能好奇,如何在支付宝上为这项先进的服务付费?别担心,这篇文章将带...

网友评论