OpenAI网站源码意外泄漏,Operator功能曝光引热议

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI的网站上悄然出现了关于「Operator」的重要信息。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

OpenAI的网站上悄然出现了「Operator」系统的技术评估数据,这个全新的计算机使用代理(Computer Use Agent)在多项基准测试中展现出惊人的性能。

这或将成为下一个革命性突破!

Lead Engineer Tibor Blaho发现,OpenAI官网已经包含了多个关键评估数据表格。

其中「Operator System Card Table」显示:在文本编辑基准测试中,Operator获得了92.3%的高分,而Claude 3.5 Sonnet为89.1%,Google Mariner则为85.6%

在「Operator Research Eval Table」中,系统在命令行操作方面的表现更是亮眼。无辅助模式下达到了87.5%的准确率,辅助模式下更是高达95.8%。相比之下,GPT-4O在相同测试中的得分为100%

「Operator Refusal Rate Table」则显示,该系统在处理潜在危险指令时的拒绝率为98.2%,展现出极高的安全性。

这个消息一经曝光,立即引发了热烈讨论。

Taher Dhanerawala(@taherdhanera) 认为这项技术即将要发布了:

Operators coming soon :)

不过,也有专家对数据提出了质疑。人工智能研究员Igor Kotenkov分析指出两种可能性:

  1. Operator可能更便宜更快(不太可能)

  2. 他们在微调过程中特意过滤了与模型(自我)扩散相关的轨迹。因此他们可以说「这个模型不比现有模型更危险」(可能性较大)

🥇🥈🇩🇪🥉Darth thromBOOzyt📯(@krasmanalderey) 则表达了他的怀疑:

这些结果看起来很奇怪,GPT-4O不可能在现实世界中所有项目都达到100%

关于Operator的具体功能,Allahoum zeyd(@zeydou) 给出了一个重要解释:

Operator是自主的。GPT-4O with vision是告诉你如何做事情。

Sir Mr Meow Meow(@SirMrMeowmeow)更关心其实际应用场景:

如何解读这些指标?Operator是否在某些特定屏幕任务上表现更好?而4O则更擅长控制台相关任务?那么对于自定义GUI呢,比如个人麦当劳模拟器或各种游戏?

Jo(@JoJrobotics)则从模型基础角度分析道:

除非它使用完整的O3模型,如果上述分数是基于o3 mini或gpt-4o作为基础模型,那么这个结果已经很好了。

Frieren(@Frieren_white)也对这个开端表示肯定:

作为起步来说还不错。

从首批披露的技术指标来看,Operator系统虽然在某些方面略逊于GPT-4O,但其自主操作能力和安全性都达到了相当高的水平。

这个专注于计算机控制的AI代理系统,很可能为人机交互带来新的突破。

相关信息来源:

  • archive.is/ykM1U
  • archive.is/gLM6Q


chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/2013.html

OpenAIChatGPTOperator

更多ChatGPT相关文章

网友评论