OpenAI发布最强模型o1:博士水平的物理题能拿92.8分

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI 的“草莓”模型正式发布,名为“o1”,作为一系列新的人工智能模型,“o1”模型将花更多时间在思考上,然后再做出回答。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

OpenAI发布新模型

这个新出的“o1”系列有多强呢?
在刚刚结束的2024 IOI信息学奥赛题目中,“o1”的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩,但如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌
在解决博士水平的物理问题时,GPT-4o是“不及格”的59.5分,“o1”系列则是一跃来到“优秀档”,直接干到92.8分
与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

开发人员提到,与以前的科学、编码和数学模型相比,“o1”系列可以推理复杂的任务,解决更难的问题,而且,就像人类一样,“o1”系列模型会用更多时间思考问题,通过训练后更是学会了完善思考过程、尝试不同的策略,并能够认识到自己的错误,简单来说,就是学会了“慢思考”。


 新出的o1系列 

 已经成为AI能力的新天花板?

“o1”不仅学会了磨练自己的思维链,还能自己进一步去完善使用策略,除此之外它也学会了将复杂的步骤分解为更简单的步骤,而且如果当前的方法不起作用,它也会尝试不同的方法。
以上的这些,就是我们人类最核心的思考方式:慢思考。
诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作,名叫:《思考,快与慢》。非常详细的阐述了人类的两种思考方式:
第一种是快思考,特点是快速、自动、直觉性、无意识,举几个例子:看到一个笑脸就知道对方心情很好,1+1=2 这样简单的计算,这些就是快思考,对应的就是传统的大模型,靠死记硬背学得的快速反应的能力。

图源网络

第二种是慢思考,特点是缓慢、需要努力、逻辑性、有意识,举几个例子:解决一道复杂的数学题、权衡利弊后做出重要决定,这就是慢思考,这是我们人类之所以强大的核心,也是目前AI要达到的目标。
而现在,“o1”终于踏出了坚实的一步,拥有了人类慢思考的特质,在回答前,会反复的思考、拆解、理解、推理,然后给出最终答案。
不过“o1”目前还在早期模型阶段,尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像,但对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。
说了很多关于“o1”学会思考的内容,那么TA思考起来究竟是什么样子?我们可以从官网示例中的编写Bash脚本的编程任务一窥究竟。
首先作为对比,GPT-4o会直接就开始写代码,遗憾得到错误结果。
而o1-preiview会先用自己的理解复述一遍要求,然后开始拆解要求,明确最终目标,接下来它会给自己定义任务、分析限制条件、列出需要用到的方法,然后进一步把任务拆解成明确的数个小步骤,最后才动手编写代码,并保证一次性得到正确结果。

“o1”把任务拆解成明确的数个小步骤

思路如此清晰!讲到这里好富想起来另一个AI大事件,今年七月份的时候,各大AI模型因为分不清9.9和9.11那个更大,还被嘲笑上了热搜😂不少网友表示“熟悉的人工智障”。


chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/1376.html

谷歌openai推付费版chatgptchatgptplus多少钱chatgptplus如何用支付宝付费chatgpt公司怎么盈利

更多ChatGPT相关文章

网友评论