CHATGPT Deep Research (深度研究) ,“人类最终考试” 成绩是o3 mini 2倍

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

半小时前OpenAI在东京举行特别活动,正式发布其最新研究成果——Deep Research (深度研究) ,旨在利用多步骤互联网研究能力,彻底革新知识工作,并为实现通用人工智能 (AGI) 愿景迈出关键一步,

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

按照Sam Altman 的说法:
这是OpenAI推出的下一个代理。Deep Research 就像一种超级能力;专家随需应变!它可以使用互联网,进行复杂的研究和推理,并为您提供报告。它真的很棒,可以完成需要花费数小时/数天时间和数百美元的任务

发布会上,OpenAI研究主管Mark Chen 携团队成员Isa、Josh以及产品团队的Neo共同亮相,向全球观众介绍了这项新技术。Mark Chen 开场强调了OpenAI对 Deep Research 的重视,认为它将深刻变革知识工作,助力企业流程优化,提升员工效率,并最终惠及广大消费者

O 系列缺点

回顾过去,OpenAI 去年推出了 “O 系列” 推理模型,例如 O1。这些模型与传统模型的最大区别在于,它们在给出答案前会进行长时间的思考,思考时间越长,答案质量往往越高。然而,这些模型存在一个显著的局限性:缺乏工具访问能力,特别是互联网浏览能力。 这使得模型无法触及我们日常生活中大量的信息资源,极大地限制了其应用范围。

为了弥补这一短板,OpenAI推出了 Deep Research。顾名思义,Deep Research 是一种能够进行 多步骤互联网研究 的模型。它能够自主地 发现内容、整合内容、并基于内容进行推理,并在信息不断涌现的过程中 动态调整研究计划

打破延迟限制:追求更深度的思考与更自主的任务执行

Deep Research 的一个重要特性是 移除了延迟限制。与传统模型追求快速响应不同,Deep Research 模型可能需要 5分钟甚至30分钟 才能返回答案。OpenAI 认为这并非缺点,反而是模型走向成熟的标志。他们强调:

让模型以无人监督的方式自主执行更长时间的任务至关重要,这正是实现 AGI 路线图的核心一步

OpenAI 的终极目标是打造能够 自主发现和创造新知识 的模型。Deep Research 正是朝着这个目标迈出的坚实一步,它能够 综合和理解网络信息,并生成全面的、专家级的研究报告

应用场景广泛:赋能知识工作与日常生活

Deep Research 的应用场景非常广泛,不仅局限于知识工作领域。Mark Chen指出,许多需要 广泛网络浏览 的任务都可以借助 Deep Research 来完成。例如,用户可以利用它来 精准搜索特定商品,并结合个人偏好进行筛选。Mark 个人也使用 Deep Research 来 高效制作ppt

Deep Research 将于今日晚些时候在 Pro 版本 中率先上线,随后将逐步推广到 Plus、Team 以及教育和企业版本

现场演示:Deep Research 的强大功能

为了直观展示 Deep Research 的强大功能,OpenAI 产品经理 Neil 进行了现场演示。他以 “是否应该开发新的语言翻译应用” 为例,向 Deep Research 发出了一个复杂的市场调研请求,要求模型分析 iOS 和 Android 的采用率、学习外语的意愿、移动渗透率的变化,并最终生成包含表格和明确建议的格式化报告

Neil 指出,这样一个复杂的查询,如果人工完成可能需要数小时,但 Deep Research 可以迅速启动。演示中,Deep Research 首先提出了 澄清问题,例如移动渗透率的具体指标、用户对外语学习的兴趣程度等,这体现了模型如同专业分析师般的严谨思考

随后,Deep Research 进入 自主研究流程,侧边栏实时展示了模型的推理过程,包括识别目标国家、收集信息、进行搜索等步骤。演示清晰地展现了 Deep Research 如何 模拟人类研究过程,进行搜索、打开网页、分析内容,并利用已获取的信息指导下一步搜索

另一位演示者 Josh 则展示了 Deep Research 在 购物决策 中的应用。他模拟了在东京购买滑雪板的场景,要求 Deep Research 推荐适合高级滑雪者、偏好粉雪、需要长滑雪板且具有彩色外观的滑雪板,并生成报告。Deep Research 同样根据要求,快速展开研究,并输出了包含详细对比表格的推荐报告

Deep Research技术解析:强化学习驱动的深度推理

OpenAI 研究员 Isa 对 Deep Research 的技术细节进行了深入解析。她透露,Deep Research 由 微调版本的 “student 模型”(预计是即将发布的更强大的推理模型)驱动,并经过 端到端强化学习 在复杂的浏览和推理任务上进行训练

通过训练,模型学会了 规划和执行多步骤轨迹实时响应信息,并在必要时 回溯。最终模型不仅能够浏览网页,还能处理用户上传的文件,利用 Python 工具进行计算和生成图表,并将图表和网页图片嵌入到最终报告中。更重要的是,Deep Research 在引用时能够 精确到句子和段落,保证了报告的可靠性

Isa 特别强调了 Deep Research 在 多项基准测试 中取得的优异成绩,例如在 “人类最终考试”(Humanity’s Last Exam)和 Gaya 基准测试中均取得了新的高分。内部专家评估也表明,Deep Research 能够完成专家需要数小时才能完成的复杂任务,且性能提升与模型思考时间呈正相关

值得一提的是,Deep Research 在 幻觉评估 中也表现出色,是 OpenAI 已发布模型中表现最佳的。但 Isa 提醒用户,仍需 核对报告来源,以确保信息的准确性

chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/2053.html

Deep Research

更多ChatGPT相关文章

网友评论