先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI的GPT-4一直是全球最强的大语言模型。但是在最近的一系列新模型对比中,已经有一些模型在某些领域被认为已经接近或者超过GPT-4了。而在前几天,OpenAI更新了一个新版本的GPT-4,是GPT-4-Turbo-2024-04-09,官方说该版本的GPT在推理和数学能力上有明显提升,而实测结果也很不错。在基准测试评测中,最高有19%的提升幅度!在GPT-4这样强的模型上有这样的提升幅度,十分不错!
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
GPT-4-Turbo-2024-04-09版本简要说明
GPT-4-Turbo-2024-04-09基准测试结果
GPT-4-Turbo-2024-04-09网友实测
OpenAI官方自己实测:不再那么啰嗦
新版GPT-4的超长上下文能力更强
新版本的GPT-4不那么啰嗦
LiveCodeBench评测结果大幅提升
新版GPT-4在大模型匿名竞技场重回第一!
GPT-4-Turbo-2024-04-09利用了Q*技术
GPT-4-Turbo-2024-04-09版本简要说明
这个GPT-4-Turbo版本相比此前的模型,只是更新了版本号,在最开始的时候,OpenAI只说明了他们发布了这样一个新版的GPT-4-Turbo模型,该模型有2个重要的更新:
基础的数学和推理能力大幅提高
这个模型可以接受文本和图像两类输入
这个模型刚发布的时候,官方只说了性能大幅提升以及可以接受图像输入,并没有具体说明情况。连OpenAI的联合创始人Greg Brockman也说这个模型有很大提升,但是就是不公布具体提升内容。也导致了很多人的不满。最后OpenAI才说提升了数学和推理能力。
另外需要注意的是,GPT-4-Turbo-2024-04-09模型的训练数据已经更新到2023年11月份。
GPT-4-Turbo-2024-04-09基准测试结果
从前面的图我们也可以看到,综合理解能力MMLU和代码能力HumanEval几乎不变,但是数学推理都有大幅提高。
而OpenAI官方还有更加详细的数据统计,按照统计,结果如下:
注意,这些都是使用最简单的Prompt进行测试的结果,也是OpenAI自己发布的最新测试结果。从这个评测看,在数学图例方面,gpt-4-turbo-2024-04-09版本的模型都有不同程度的提高,最高可以提升19%!要知道GPT-4本身已经十分强大,这个提升幅度,在不变更版本号的前提下十分难得。而综合理解和代码能力就提升不明显。
GPT-4-Turbo-2024-04-09网友实测
其实一开始,官方只说GPT-4-Turbo-2024-04-09模型有提升,并没有其它说明。很多网友都质疑说为什么连具体提升的说明都没有。而Greg Brockman解释希望大家自己发现。可能是OpenAI官方觉得自己只要说一下就能引起广泛关注和讨论,所以一开始透露很少。
而发现大家似乎目光没有那么“聚焦”之后,OpenAI官方开始有了更多详细说明。上面测试数据就是官方发布的结果。下面是DataLearnerAI收集的实测结果。
OpenAI官方自己实测:不再那么啰嗦
官方给了一个实例,说明最新的GPT-4对话能力更强,也不那么啰嗦。例如,让GPT写一个短信邀请朋友参加生日聚会:
在此前的版本中,短信很长也很啰嗦。而后者则更新平时我们对话的结果。
新版GPT-4的超长上下文能力更强
尽管此前OpenAI宣布说GPT-4最高支持128K的输入,但是随着上下文长度的增加,能力依然会有下降。一位网友做了一个自己构造的大海捞针测试,将答案分布在不同文档、没有确定性关键词、接近以及误导的信息来测试大模型的在超长上下文的能力。这比简单的大海捞针更难。
和此前的gpt-4-1106对比,新版本的GPT-4-Turbo-2024-04-09在更长的上下文上表现提高。64K的上下文水平与此前版本的26K差不多!
这里的纵轴表示匹配到准确的结果的数量,这是一个类RAG的测试。可以看到,最新版是绿色的折线,其在更高的上下文上,表现依然很好。这个测试也是开源的:https://github.com/stunningpixels/lou-eval
新版本的GPT-4不那么啰嗦
另一个测试来自EverArt的创始人,他对比了新旧版本的GPT-4,让写一段Python代码,新版本大部分内容都是代码。而老版本除了代码以外,还有非常啰嗦的解释:
这意味着,ChatGPT可能未来会更加简洁有用。
LiveCodeBench评测结果大幅提升
LiveCodeBench是不断从LeetCode等上面收集新的代码测试数据集,致力于做无数据污染的大模型评测。他们的测试难度非常高。而最新的结果,新版GPT-4的水平也是大幅提升,尤其是在比较困难的题目上:
可以看到,在中等难度水平测试上,新版GPT-4比此前提升将近50%!非常强大!
这部分数据参考:https://livecodebench.github.io/leaderboard.html
新版GPT-4在大模型匿名竞技场重回第一!
大模型匿名竞技场Chatbot Arena是LM-SYS推出的一个大模型匿名投票的评测系统。大家提问问题之后,系统返回匿名模型结果,用户投票得分。在此前,Claude3-Opus一度超过了GPT-4成为全球最高得分的模型。
而在GPT-4-Turbo-2024-04-09发布2天后,已经有8932个投票,投票结果显示,GPT-4-Turbo-2024-04-09得分超过Claude-3-Opus,重回第一!
GPT-4-Turbo-2024-04-09利用了Q*技术
不管是官方的测试,还是网友的测试,新版的GPT-4应该都是有明显的进步的。尤其是数学推理能力的增强,也让很多人猜测这个模型是不是Q*或者GPT-4.5。
而根据一位推特网友的信息,新版的GPT-4不是Q*,但是应该是基于Q*的输出做了微调。新版的GPT-5已经准备好,只是OpenAI holding back,所以对GPT-4做了训练,得到了这个新版:
目前,新版的GPT-4已经更新到ChatGPT和OpenAI官网的API接口了,大家可以测试起来!
本文链接:https://shikelang.cc/post/1216.html
智能音箱chatgpt会员有什么好玩的功能吗chatgpt中文版会员chatgpt为什么收不到验证码怎么使用chatgpt4chatgpt网页版提问入口内测体验chatgpt自动写代码还能再次充值吗chatGPT在教育中的应用场景
网友评论