先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
2025年刚开始,OpenAI用Operator和Deep Research两个产品宣告了AGI的第三层-agent的到来。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
Deep Research定位为可以独立工作的研究助手,根据用户输入的提示,主动思考、决定何时以及如何搜索,通过多轮思考和搜索逐步分析,最终生成研究报告。
按照OpenAI官方的说法,Deep Research背后的模型是增强了工具使用能力的o3,特别是针对搜索和python数据分析能力。
下面来比较几款AI搜索产品。其中的技术实现主要基于猜测。
首先是以Perplexity为代表的传统AI搜索,使用的是标准RAG(检索增强生成),通过搜索+生成的系统级pipeline,完成信息的获取和生成。
谷歌于去年12月推出了同名的AI搜索功能:Deep Research。通过ReAct的thought-action-observation循环,实现多轮搜索+思考,最后整合信息生成答案。多轮交互能够动态发现更有针对性的信息,提升答案的深度与质量。
谷歌Deep Research背后所使用的模型是Gemini 2.0 Flash。由于没有使用推理模型,搜索和思考行为是通过工作流被动触发的。在此之前的Kimi探索版也实现了类似功能。
DeepSeek的联网搜索基于推理模型DeepSeek R1,基于一次搜索到的信息先进行慢思考推理,再生成答案,即搜索->推理->生成。推理增强了对搜索到信息的理解,可以提升生成答案的逻辑性和精准度。猜测Kimi最近推出的k1.5长思考也是类似思路,当推理到类似“可以开始回复用户了”的特殊token时,会触发最后答案的生成。
OpenAI Deep Research v.s. DeepSeek联网搜索 DeepSeek联网搜索是推理增强的RAG:增强了RAG中的检索模块。虽然也使用了推理模型,但DeepSeek联网搜索是一种“单向”推理:推理的目的是理解所搜索到的信息,进而指导答案生成(“先搜索再思考”:输入确定,影响输出);OpenAI Deep Research是“双向”推理:通过判断何时搜索并决定如何搜索,递进式地获取新的信息(“边搜索边思考”:同时影响输入和输出)。
OpenAI Deep Research v.s. 谷歌Deep Research 相比谷歌Deep Research通过工作流引导搜索和思考的循环,OpenAI Deep Research通过推理模型自主决定何时搜索、何时思考,不需要预设工作流,搜索和思考是推理模型的内在行为,有潜力支撑更长的、有逻辑性的搜索-思考循环,实现更为复杂的信息获取任务。
就AI搜索而言,OpenAI的Deep Research仍然存在信息来源首先和分析深度不足两个问题。从现有的案例来看,虽然Deep Research在寻找任务相关的高质量数据源方面表现出色,但通过搜索引擎也只能基于公开域的可访问信息。对于许多场景,封闭域(如知乎、微信公众号)以及行业私有域数据往往更为重要。针对垂直领域的Deep Research或者私有化部署,可能存在新的机会。
关于分析深度,已有人尝试用Deep Research写基金本子和研究论文。发现它的总结能力要好于分析,intelligence有余,insight不足。现阶段,仍然需要专业人士,一方面审核内容准确性,一方面与模型协作,进行更深层的分析。
如果跳出AI搜索,OpenAI的研究副总裁在Deep Research发布会最后说“未来会集成更多工具”,在更多场景下协助人类工作。如果把GPT-4和o1比作纽卡门蒸汽机,向人们展示了技术的能力;DeepSeek-V3和R1就是瓦特蒸汽机,降低技术使用门槛,让技术得以真正服务于大众。而Deep Research展示的,就是这些技术未来可能的使用方式:自主分析、动态规划,并异步执行任务。
当知识工作变成流水线作业,知识工作者仅充当检查与反馈的工人时,究竟是谁在辅助谁?
网友评论