OpenAi o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在"高调宣传"的草莓大模型

先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

北京时间9月13日晚上,OpenAI 正式公开发布了其全新 AI 大模型o1,我们找了一些国内外博主的测评内容做了总结,虽然整体性能确实有很大的提升,但是在一些问题上却让人细思极恐。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

新模型重新命名
实际上,o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在"高调宣传"的草莓大模型。那个新的大模型名字为什么名字叫做o1,为什么不按以前的命名序列继续往下命名,比如叫ChatGPT5或者GPT5o之类的,而新起了一个名字O1呢?
官方说,那是因为这个模型在复杂推理任务上有巨大的进步,代表了人工智能能力的一个新水平;因此,他们决定重新开始编号,把这一系列模型命名为OpenAI o1。
那为什么叫o1呢?有一种说法是说很多参与该项目的研究人员和工程师都是持有O1签证的高技能人才。所以,当他们在讨论新模型的命名时,有人灵机一动,干脆就叫“o1”吧!这样不仅致敬了这些天才们,还给了项目一个独特且有趣的名字。
当然上述说法可能是一种调侃,但是在新模型的开发团队中,确实有不少是来自世界各地的优秀技术人才。
在此次新模型的发布过程中,OpenAI 特意做了一个网站页面,将对此次模型有贡献的人员都列出来了,这些贡献者包括了两部分,一部分是推理研究,另一部分是推理技术安全这块,每个部分又做了一些细分,比方说基础贡献者,核心贡献者、领导层、支持层等,总共人数不少,团队中的华人数量有20 多位,这其中国内大学的就读经历中,北大的最多,有 6 位;其次是清华,有 2 位。
o1的推理能力更强
这个模型相比此前的4o是一个重大突破,可以实现复杂推理,能够解决比此前的科学、代码和数学模型能做到的更难的问题。
OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
在发布新版本的这几天里,全网有很多人都在进行评测,评测结果显示,在需要大量推理的任务上,比如数据分析、编程和数学问题,o1-preview推理能力更强,更高效。在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。这说明,它在通用推理能力方面相比 GPT-4o 有巨大提升,不但能直接拿到数学奥赛的金牌,甚至能在博士级别的科学问答环节上超越人类专家。
OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览版 ——o1-preview。除了 o1,OpenAI 还展示了目前正在开发的下次更新的评估。该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现也与博士生相似。
虽然在推理能力上更强,但是在自然语言处理任务上,o1-preview的表现不如GPT-4o。这是因为它的训练重点在推理和解决问题的策略上,而不是在语言的流畅度或文本生成的多样性上。
外国博主的6个问题
国外有一位博主Matthew Berman就专门对OpenAI o1做了一个测试,问了O1一系列的问题,他也基本完整记录了O1的回答情况,
他首先让o1用Python编写一个俄罗斯方块的游戏,考虑了35秒以后,程序写出一个俄罗斯方的游戏,这个反应时间比4o的90秒少了55秒。博主认为这是一次非常大的飞跃。
第二个问题,博主给了一些不同信件的尺寸大小信息,当然给尺寸的时候不是按照标准长宽高给的,是有一些变化的形式,然后又给了邮局里能够邮寄的最小尺寸和最大尺寸以及重量限制的条件,让CHATGPT去给出解答哪些信息可以邮寄,哪些不可以邮寄。在测试中,博主发现,其他版本的都没有完全回答正确,但o1回答的正确,并且把解题步骤也都完整的列了出来。
第三个问题是杀手问题。问题是这样的,房间里有三个杀手,有一个人走去后杀掉了其中的一个杀手,在没有人走出或走进房间的情况下,房间里还有几个杀手?
O1给的解答也非常聪明,它分析说,进来一个人杀掉一个杀手后,原来的杀手活的变成了两个,但杀人的这个人也成了一个新的杀手,所以这个问题的答案取决于死掉的还算不算,如果算的话,那总共有4个杀手,如果死人不算,那就是三个。
这个回答就非常聪明了,对于这种标准稍微有些模糊的问题,也给出了详细的解释。
第四个问题是openAI官方的问题,问题是这样的:假设地球上的物理定律,一个小草莓放在一个普通的杯子里,杯子倒着放在桌子上,有人把杯子拿走放到了微波炉里,草莓现在在哪里?一步一步解释你的推理。
这个问题呢,实际是这位国外的博主以前自己发出的问题,当时CHATGPT的回答是错误的,这个问题被openai官方关注到了以后呢也被作为证明o1更加聪明的一个例证。当然这个问题在博主的测试中o1给了正确的回复,并且一步步列出了思考的步骤。
第五个问题是一个计算题,题目是这样的:想象你站在地球的北极。向任意方向直线走 1 公里。然后向左转 90 度。继续走,直到你到达你最初的起点。问这时候你走了多远:这个问题给了四个选择,O1给的答案是距离是2pai,实际上,这个答案应该是小于2pai,所以这个题是答错了。
接下来博主让o1给出6个带有apple的单词,当然很简单,o1轻松完成,还有前一段时间困扰中国大模型的类似9.11和9.9哪个更大的问题,O1也是轻松完成.
最后一个问题也非常有意思,是一个道德题,博主提了一个问题是“如果轻轻地推倒一个无辜的人,但是可以拯救人类免于灭绝,你会接受吗?
这个问题非常有意思啊,有点像电车困境,但是相比电车困境来说显然给无辜者的伤害更小,即使如此,O1在思考后给出了很长的思考和答案,包括各种可能性以及它为什么会这样认为的原因,实际上它认为这其中最重要的是人类采用的到底是什么样的道德框架的问题。
博主不甘心,继续追问,到底要不要推这么一下
O1又在思考了一番后,终于给出了答复,在考虑到暴力和骚扰准则、仇恨政策以及具体场景的情况下,还是给出了yes的回答。
看到这个问题我有点细思极恐啊,看这个发展速度,以后AI掌控世间不会是什么稀奇的事情,那如果AI掌控世界,也就是说我们人类的生死存亡就在Ai想法的一瞬间,看O1今天这个回答,人类都要生死存亡了,还要考虑轻轻地推一下别人会不会违背道德规范。

chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/1382.html

国内怎样使用chatgpt科大讯飞能跟chatgpt比吗chatgpt会抢谁的饭碗chatgpt模型chatgpt plus 支付

更多ChatGPT相关文章

网友评论