先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
❝“AI 的每一次进步,都在重新定义我们对人类智慧的想象。”
——杨·勒昆,深度学习奠基人推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
OpenAI 刚刚完成了一场堪称“AI 春晚”的年度盛宴。在年末发布会上,o3 系列模型惊艳亮相,成为 OpenAI 今年的巅峰之作。这一新系列是此前广受关注的 o1 模型的迭代版本,直接跳过了 “o2” 命名,原因是可能涉及与英国电信运营商 O2 的版权或商标冲突。
对此,OpenAI CEO Sam Altman 也幽默自嘲,调侃了公司在命名方面的“迷之逻辑”。与 Altman 一起主持发布会的还有 研究高级副总裁 Mark Chen 和研究科学家任泓宇。值得一提的是,任泓宇毕业于北大,是 GPT-4o 的核心开发者之一。
o3 系列:性能与性价比双丰收
本次发布的 o3 系列包含两款重磅模型:
OpenAI o3:旗舰版,性能全面升级,主打强大计算能力。 OpenAI o3 mini:轻量级版本,成本低、速度快,主打性价比。
尽管 o3 系列暂未对普通用户开放,但 OpenAI 计划从即日起接受外部安全测试申请,正式发布时间预计在明年 1 月。
性能跃迁:从编程到数学的全面突破
在性能上,o3 展现出了前所未有的进步:
编程能力:在 Codeforces 编程竞赛平台,o3 的得分达到 2727,远超 o1 的 1891,甚至超过部分专业程序员。
数学表现:在 AIME 2024 测试中,o3 准确率达 **90.67%**,相比 o1 提升了近 8%。更令人震撼的是,面对复杂的 GPQA Diamond 测试,o3 的表现甚至优于博士专家。
推理能力:在 ARC-AGI 图形逻辑推理测试中,o3 得分高达 **87.5%**,展现了接近 AGI 的潜力。
ARC-AGI:衡量 AGI 的终极测试
提到 AI 领域的“圣杯” AGI(通用人工智能),就不得不提到 ARC-AGI 基准测试。这一测试由 Keras 的创始人 François Chollet 开发,专注于通过图形逻辑推理来评估 AI 的推理能力。
o3 的突破性表现
ARC-AGI 的任务设计巧妙,涵盖了多种推理任务,每个任务需要不同的技能,刻意避免重复。这完全杜绝了 AI 靠“死记硬背”完成任务的可能,真正考验模型实时学习和应用新技能的能力。
演示中,Mark Chen 给出了一个即兴问题:计算每个黄色方块中彩色小方块的数量,并据此生成边框。这一看似简单的任务对人类来说轻而易举,但对 AI 来说却是严峻的挑战。
性能数据:从人类到 AGI 的跨越
在 低算力配置下,o3 在 ARC-AGI 的得分达 75.7 分,已经超过了许多 AI 模型的水平。 当 o3 被允许延长思考时间并提升算力后,其得分进一步上升到 87.5 分,超越了绝大多数真人的表现。
这一成就证明,o3 已经具备接近 AGI 的能力。OpenAI 的意图很明显:o3 的突破将带领我们距离 AGI 更进一步。
o3 mini:平民化的 AI 助手
o3 mini 的发布则是 OpenAI 战略转型的缩影。相比旗舰版,o3 mini 更注重用户体验和场景适配:
三种推理时间模式:用户可以根据任务复杂度选择短、中、长模式,灵活应对各种需求。 自我评估能力:在测试中,o3 mini 仅用一分钟就完成复杂数据集的整理和评分,准确率高达 **61.62%**。
数学与编程优势:在低推理模式下已能媲美 o1 mini,而中等模式更是全面超越。
AI 竞争加剧:OpenAI 面临新挑战
虽然 o3 系列的表现令人欣喜,但市场数据显示,ChatGPT 的市场份额正在被竞争对手逐步蚕食。从 2023 年的 50% 降至 2024 年的 **34%**,OpenAI 不得不面对愈加激烈的竞争。
竞争对手崛起:Anthropic、Google 等厂商开发的新模型性能正迅速接近 OpenAI。 内部挑战:随着人才流失与技术瓶颈,OpenAI 如何保持领先地位成为一个难题。
变局之下,用户成最大赢家
OpenAI 的言外之意很明显:即便是今天的 o3 模型,也无法确保长期的技术领先地位。然而,正因为这种竞争,AI 技术正在以惊人的速度普及和进化。对于用户而言,未来无论选择哪个平台,都会享受到越来越高的 AI 服务质量。
本文链接:https://shikelang.cc/post/1781.html
chatgpt4.0苹果手机版怎么下载chatgpt作用怎么用chatgpt给英文论文降重chatgpt plus 支付DiscordChatGPT对话
网友评论