先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
o1(之前代号为草莓)的亮点及相关背景:
大模型过往最大的挑战之一是无论遇到复杂还是简单的问题都只会用“系统1”来思考(也就是脱口而出),而我们人类在遇到复杂问题的时候会使用“系统2”的深度思考模式(这也是为什么COT的提示词技巧能带来模型结果的提升);
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
o1是一个在给出最终答案之前进行思考的模型,可以通过强化学习(RL)训练模型以获得更好的思维链。这为scaling开辟了一个新的维度:基座模型可以不再受预训练的瓶颈限制,现在也可以从scale推理计算着手来提升性能;
虽然目前o1的思考时间以十几秒为单位,但想象一下,未来AI如果能像人一样思考数小时、数天甚至数周,是否能有可能解决复杂的科学问题,带来新的突破?
o1的个人评测及吐槽部分(部分内容来自和一位朋友的讨论):
首先,请注意o1主要是适合复杂的科学、数学和编程问题来使用,建议不要在非上述场景下浪费宝贵的条数限额了;
从能力层面看,虽然还有各种第三方测试在跑着,但初步看个人感觉o1-preview综合能力不如Sonnet 3.5,擅长的编程能力也只是和Sonnet 3.5持平。o1-mini看起来是比gpt-4o-mini强(甚至在一些最新推理测评中o1-mini的分值还高于o1-preview);
估计o1正式版(而不是目前的preview版)会好点,但是合理推断应该依然无法显著超越Sonnet 3.5,这点和之前的预期值确实相差有点大;
更重要的问题是,o1模型家族费用太贵(例如o1-mini的价格直接是4o-min的20倍!),再加上思考(也就是CoT)时间长达15-20秒。进一步让人觉得实战使用性价比低;
未来预测?
如果将OpenAI内部定位类比到Anthropic这边,可能是:
o1-mini == Haiku-3.5
o1-preview == Sonnet-3.5
o1 == Opus-3.5
但是o1能否超越估计年底会发布的Opus 3.5确实不好说,感觉Openai是明显疲软了。Openai能继续下调GPT-4o价格才是维持忠诚度的关键,还有到底啥时候出4o的voice api啊。。。
同时可以预期的是,1-2月后,其他模型也可以抄一轮作业了。。。
本文链接:https://shikelang.cc/post/1372.html
OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介
网友评论